谷歌一篇论文把内存股价干崩了——KV Cache压缩到底怎么做到的？

ℹ️

核心数据速览

KV Cache压缩比：最高6×（INT2量化下）
质量损失：主流基准上 <1% 精度下降
目标模型：Gemma、Llama 3等主流开源架构
论文发布：2025年，Google DeepMind
方法分类：非对称混合精度量化 + 旋转变换预处理

先搞懂三个词，后面读起来会顺很多

如果你已经知道"注意力机制""KV Cache""量化"是什么，可以直接跳到下一章。不熟悉的话，花两分钟看完下面三段对话——够了。

💬 大模型是怎么"读懂"你的？

🙋

小白

大模型回复我的时候，是把我说的每个字都认真看了一遍吗？

🤖

老Q

看了，但不是平等地看。每生成一个新词，它会回头扫一眼前面所有内容，自动判断哪些部分跟当前最相关——重要的多看几眼，不重要的基本忽略。这个"自动找重点"的机制就叫注意力（Attention）。

🙋

小白

就像做阅读理解，答题时只盯着关键句子看？

🤖

老Q

一模一样。技术上这个"找关键句"的过程用三组向量实现：Query（我要问什么）、Key（每句话的索引标签）、Value（每句话的实际内容）。用 Query 去匹配所有 Key，找到最相关的，再把对应的 Value 加权合并——这就是一次注意力计算。

💬 为什么要缓存 Key 和 Value？

🙋

小白

那它每生成一个字，都要把前面的内容重新算一遍注意力？

🤖

老Q

如果不优化的话……是的，而且慢到无法使用。所以工程上的解法很简单：算过一次的 Key 和 Value 向量直接缓存下来，下次新词来了直接读，不重算。这就是 KV Cache。

🙋

小白

那代价是什么？缓存不是要占地方吗？

🤖

老Q

对，而且随着对话变长，缓存线性增长。对话长度翻倍，KV Cache 占的显存也翻倍。Llama 3 70B 跑 128K 上下文，光 KV Cache 就要吃掉 130GB 显存——两张 H100 装不下。这就是今天要解决的问题。

💬 量化是什么，INT2 不是精度很差吗？

🙋

小白

INT2 只有 0、1、2、3 四个值，这么粗糙，模型不会变蠢吗？

🤖

老Q

取决于你在量化什么。你记笔记写"今天心情不错"还是"今天心情指数 7.3/10"——意思差不多，但后者费劲多了。量化就是用更粗的刻度存数字：FP16（16位，像精确到小数点后10位的坐标）→ INT8（8位）→ INT4 → INT2，存储空间依次减半。

🙋

小白

那精度损失多大，模型感知得到吗？

🤖

老Q

INT8 基本无感，INT4 稍微差一点点，INT2 一般情况下会明显变差——但 TurboQuant 的目标就是：用聪明的工程手段，让 INT2 的实际效果接近 INT8。这就是它值得认真看的地方。

背景：KV Cache 为什么是内存杀手？

前面说了，KV Cache 随上下文线性增长。以 Llama 3 70B 为例，在 128K 上下文长度下，KV Cache 单次请求可消耗超过 130 GB 显存——已经超过两张 H100 的 HBM 总容量。批量推理时多个并发请求叠加，内存压力呈指数级放大。

HBM（High Bandwidth Memory，高带宽显存）是 GPU 上的高速存储，AI 推理时模型参数和 KV Cache 都必须驻留其中。三星、SK 海力士、美光是全球仅有的几家能量产 HBM 的公司，近年来因 AI 需求而股价大涨——而这也是 TurboQuant 让他们坐立不安的原因。

⚠️

行业背景：据摩根士丹利2024年报告，主流LLM推理服务中，KV Cache占用的显存比例高达40%～60%，已成为制约批处理吞吐量的第一瓶颈，而非计算本身。

TurboQuant 技术拆解

1. 核心思路：非对称混合精度量化

传统 KV Cache 量化（如 INT8）会对 K 和 V 张量做均匀量化——每个元素用同样的比特数表示。TurboQuant 的洞察是：K 和 V 的数值分布特性截然不同，应当区别对待。

Key 向量的角色是"索引标签"，决定注意力分配给谁，一旦失真模型就会"看错东西"——对精度高度敏感，需要 INT4
Value 向量是"内容载体"，轻微失真往往不影响语义——可以安全降至 INT2

通过这种 K/V 非对称策略，平均精度落在约 2.5 bit/元素，整体压缩比相比 FP16 的 16 bit 达到 6.4×。

2. 旋转变换预处理（Rotation Pre-conditioning）

离群值（outliers）是低比特量化的天敌。K/V 张量中某些通道存在极端大值，会把量化的数值范围"拉宽"，导致其余通道精度骤降——就像班里有个 210cm 的同学，班级合照的缩放比例被他一个人撑大，其他人全变成了模糊小点。

TurboQuant 引入了一个随机正交旋转矩阵 R，在量化前对 K/V 张量做变换，把集中在少数通道的极端值能量均匀分散到各个维度。关键在于正交矩阵的数学性质：

💡

核心公式：K̃ = K · R，Ṽ = V · R
由于 R 是正交矩阵（R^TR = I），注意力计算结果 Q·K^T = Q·(R·R^T)·K^T 不变，即旋转对最终输出无损，但可将离群值能量分散到各维度，使量化误差最小化。

这一思路借鉴自 QuaRot（2024）等先前工作，但 TurboQuant 将其与非对称 K/V 策略深度融合，并针对推理延迟做了工程优化。

3. 逐Token动态校准

静态量化参数（scale/zero-point）在推理时固定，容易在长上下文末段发生漂移——固定刻度尺对文章前半段的数值范围是合适的，但文章后半段的语义密度可能完全不同。TurboQuant 采用逐 token 动态更新量化参数的策略：每次新 token 进入时，基于当前 token 的 K/V 统计重新校准局部量化区间，使长文档场景下的精度损失得到有效遏制。

4. 整体架构流程

graph TD A["输入Token"] --> B["QKV Projection"] B --> C["Q向量（不压缩）"] B --> D["K向量 FP16"] B --> E["V向量 FP16"] D --> F["旋转变换 K̃=K·R"] E --> G["旋转变换 Ṽ=V·R"] F --> H["INT4量化"] G --> I["INT2量化"] H --> J["KV Cache ~2.5bit"] I --> J J --> K["注意力计算（反量化）"] C --> K K --> L["Attention Output"] style A fill:#6c3fc5,color:#fff style J fill:#2d2d5e,color:#fff style L fill:#6c3fc5,color:#fff style H fill:#4a1fa8,color:#fff style I fill:#4a1fa8,color:#fff

Q 向量每次当场计算、不缓存，所以无需压缩；只有需要长期驻留在 Cache 里的 K 和 V 才是压缩目标。

性能对比：数据说话

方法	平均比特数	压缩比 vs FP16	MMLU精度	长文摘要质量	推理延迟开销
FP16 基线	16 bit	1×	78.4%	ROUGE-L 42.1	—
均匀 INT8	8 bit	2×	78.1%	41.9	+2%
均匀 INT4	4 bit	4×	76.8%	40.2	+3%
TurboQuant	~2.5 bit	6×	77.9%	41.7	+4%

* 数据基于论文报告的 Llama 3 8B 实验，MMLU 为5-shot设置。MMLU 是横跨57个学科的多选题测试，78.4% vs 77.9% 大约是100道题多答错半题；ROUGE-L 衡量摘要质量的内容重叠度，42.1 vs 41.7 在实际阅读中无法感知。TurboQuant 在 2.5 bit 下的质量接近 INT8，而压缩率是 INT8 的3倍。

为什么这件事让内存芯片厂商坐立不安？

AI 推理对 HBM 的需求，相当程度上是由 KV Cache 驱动的。长上下文模型需要配备更多 HBM 的 GPU/TPU，这是三星、SK 海力士、美光近年来营收增长的核心叙事之一。

TurboQuant 如果被广泛部署，逻辑链条如下：

graph LR A["KV Cache压缩6×"] --> B["同等上下文
所需HBM减少"] B --> C["单卡可服务
更长上下文"] C --> D["推理服务器
GPU数量需求↓"] D --> E["HBM采购预算
缩减压力"] E --> F["内存芯片厂商
估值重定价"] style A fill:#6c3fc5,color:#fff style F fill:#c53f3f,color:#fff

⚠️

市场反应：TurboQuant 论文发布后数日内，美光科技（MU）股价单日下跌超4%，分析师将部分原因归因于算法层面对 HBM 需求叙事的冲击。这并非首次——DeepSeek R1 发布时同样引发了类似的市场反应。

技术权衡与局限性

TurboQuant 并非没有代价，诚实的评估需要指出以下几点：

反量化延迟：注意力计算前需要将压缩的 KV 还原，引入约4%额外计算开销，在极低延迟场景（如实时语音）需谨慎评估。
旋转矩阵存储：每层需要存储一个旋转矩阵 R，对于 70B+ 模型，这部分开销不可忽视。
训练感知量化未覆盖：TurboQuant 是纯推理时量化（post-training），如果模型在训练阶段就考虑了量化适配（QAT，相当于"盖楼时就按将来要拆柱子的方案设计"），精度会更好，但那需要重新训练模型。
INT2 的边界风险：在代码生成、数学推理等精确性要求高的场景，INT2 的 V 向量量化在极长上下文下偶有质量跌落，论文中有所记录但未完全解决。

与同类工作的定位对比

方法	思路	压缩比	需要重训练	核心差异
KIVI (2024)	K用INT2，V用INT4	~4×	否	与TurboQuant K/V策略相反
QuaRot (2024)	旋转变换+均匀量化	~4×	否	TurboQuant的旋转部分源自此
MagR (2025)	幅度感知旋转	~5×	部分	需要少量校准数据
TurboQuant (2025)	非对称+旋转+动态校准	6×	否	三者组合，无需重训

值得注意的是，KIVI 和 TurboQuant 对"谁更该被激进压缩"的判断恰好相反——KIVI 认为 V 更敏感用 INT4，TurboQuant 认为 K 更敏感用 INT4。这个分歧目前在学界尚无定论，不同架构下实验结果有差异，反映了这个方向本身还有大量未探索空间。

前景判断

TurboQuant 代表的是一个清晰趋势：算法效率提升正在追赶甚至超越硬件扩展的速度。这对 AI 产业的影响是结构性的：

推理成本下降：6× KV Cache 压缩意味着同等硬件可服务6倍的并发长上下文请求，直接降低 Token 单价。
端侧部署窗口打开：128K 上下文的模型有机会在 16GB 内存的消费级设备上运行——手机本地跑超长上下文，不再只是愿景。
硬件需求叙事转变：HBM 容量不再是唯一瓶颈，带宽和计算效率的权衡将更复杂，芯片设计需要重新适配。

我认为值得特别关注的是第2点。端侧推理长期受制于内存而非算力。如果 TurboQuant 或类似方法被主流推理框架采纳，边缘 AI 的落地节奏会比市场预期快得多——这对手机、PC、车载 AI 的产品形态都有直接影响。

💡

开发者注意：TurboQuant 的核心组件（旋转变换+非对称量化）已有社区在 HuggingFace 的 transformers 和 vLLM 框架中实现原型，预计2025年下半年可能进入主流推理框架的正式支持列表。关注 vllm-project/vllm 的 KV Cache quantization roadmap。

先搞懂三个词，后面读起来会顺很多

背景：KV Cache 为什么是内存杀手？

TurboQuant 技术拆解

1. 核心思路：非对称混合精度量化

2. 旋转变换预处理（Rotation Pre-conditioning）

3. 逐Token动态校准

4. 整体架构流程

性能对比：数据说话

为什么这件事让内存芯片厂商坐立不安？

技术权衡与局限性

与同类工作的定位对比

前景判断

延伸阅读