- KV Cache压缩比:最高6×(INT2量化下)
- 质量损失:主流基准上 <1% 精度下降
- 目标模型:Gemma、Llama 3等主流开源架构
- 论文发布:2025年,Google DeepMind
- 方法分类:非对称混合精度量化 + 旋转变换预处理
先搞懂三个词,后面读起来会顺很多
如果你已经知道"注意力机制""KV Cache""量化"是什么,可以直接跳到下一章。不熟悉的话,花两分钟看完下面三段对话——够了。
背景:KV Cache 为什么是内存杀手?
前面说了,KV Cache 随上下文线性增长。以 Llama 3 70B 为例,在 128K 上下文长度下,KV Cache 单次请求可消耗超过 130 GB 显存——已经超过两张 H100 的 HBM 总容量。批量推理时多个并发请求叠加,内存压力呈指数级放大。
HBM(High Bandwidth Memory,高带宽显存)是 GPU 上的高速存储,AI 推理时模型参数和 KV Cache 都必须驻留其中。三星、SK 海力士、美光是全球仅有的几家能量产 HBM 的公司,近年来因 AI 需求而股价大涨——而这也是 TurboQuant 让他们坐立不安的原因。
TurboQuant 技术拆解
1. 核心思路:非对称混合精度量化
传统 KV Cache 量化(如 INT8)会对 K 和 V 张量做均匀量化——每个元素用同样的比特数表示。TurboQuant 的洞察是:K 和 V 的数值分布特性截然不同,应当区别对待。
- Key 向量的角色是"索引标签",决定注意力分配给谁,一旦失真模型就会"看错东西"——对精度高度敏感,需要 INT4
- Value 向量是"内容载体",轻微失真往往不影响语义——可以安全降至 INT2
通过这种 K/V 非对称策略,平均精度落在约 2.5 bit/元素,整体压缩比相比 FP16 的 16 bit 达到 6.4×。
2. 旋转变换预处理(Rotation Pre-conditioning)
离群值(outliers)是低比特量化的天敌。K/V 张量中某些通道存在极端大值,会把量化的数值范围"拉宽",导致其余通道精度骤降——就像班里有个 210cm 的同学,班级合照的缩放比例被他一个人撑大,其他人全变成了模糊小点。
TurboQuant 引入了一个随机正交旋转矩阵 R,在量化前对 K/V 张量做变换,把集中在少数通道的极端值能量均匀分散到各个维度。关键在于正交矩阵的数学性质:
由于 R 是正交矩阵(RTR = I),注意力计算结果 Q·KT = Q·(R·RT)·KT 不变,即旋转对最终输出无损,但可将离群值能量分散到各维度,使量化误差最小化。
这一思路借鉴自 QuaRot(2024)等先前工作,但 TurboQuant 将其与非对称 K/V 策略深度融合,并针对推理延迟做了工程优化。
3. 逐Token动态校准
静态量化参数(scale/zero-point)在推理时固定,容易在长上下文末段发生漂移——固定刻度尺对文章前半段的数值范围是合适的,但文章后半段的语义密度可能完全不同。TurboQuant 采用逐 token 动态更新量化参数的策略:每次新 token 进入时,基于当前 token 的 K/V 统计重新校准局部量化区间,使长文档场景下的精度损失得到有效遏制。
4. 整体架构流程
Q 向量每次当场计算、不缓存,所以无需压缩;只有需要长期驻留在 Cache 里的 K 和 V 才是压缩目标。
性能对比:数据说话
| 方法 | 平均比特数 | 压缩比 vs FP16 | MMLU精度 | 长文摘要质量 | 推理延迟开销 |
|---|---|---|---|---|---|
| FP16 基线 | 16 bit | 1× | 78.4% | ROUGE-L 42.1 | — |
| 均匀 INT8 | 8 bit | 2× | 78.1% | 41.9 | +2% |
| 均匀 INT4 | 4 bit | 4× | 76.8% | 40.2 | +3% |
| TurboQuant | ~2.5 bit | 6× | 77.9% | 41.7 | +4% |
* 数据基于论文报告的 Llama 3 8B 实验,MMLU 为5-shot设置。MMLU 是横跨57个学科的多选题测试,78.4% vs 77.9% 大约是100道题多答错半题;ROUGE-L 衡量摘要质量的内容重叠度,42.1 vs 41.7 在实际阅读中无法感知。TurboQuant 在 2.5 bit 下的质量接近 INT8,而压缩率是 INT8 的3倍。
为什么这件事让内存芯片厂商坐立不安?
AI 推理对 HBM 的需求,相当程度上是由 KV Cache 驱动的。长上下文模型需要配备更多 HBM 的 GPU/TPU,这是三星、SK 海力士、美光近年来营收增长的核心叙事之一。
TurboQuant 如果被广泛部署,逻辑链条如下:
所需HBM减少"] B --> C["单卡可服务
更长上下文"] C --> D["推理服务器
GPU数量需求↓"] D --> E["HBM采购预算
缩减压力"] E --> F["内存芯片厂商
估值重定价"] style A fill:#6c3fc5,color:#fff style F fill:#c53f3f,color:#fff
技术权衡与局限性
TurboQuant 并非没有代价,诚实的评估需要指出以下几点:
- 反量化延迟:注意力计算前需要将压缩的 KV 还原,引入约4%额外计算开销,在极低延迟场景(如实时语音)需谨慎评估。
- 旋转矩阵存储:每层需要存储一个旋转矩阵 R,对于 70B+ 模型,这部分开销不可忽视。
- 训练感知量化未覆盖:TurboQuant 是纯推理时量化(post-training),如果模型在训练阶段就考虑了量化适配(QAT,相当于"盖楼时就按将来要拆柱子的方案设计"),精度会更好,但那需要重新训练模型。
- INT2 的边界风险:在代码生成、数学推理等精确性要求高的场景,INT2 的 V 向量量化在极长上下文下偶有质量跌落,论文中有所记录但未完全解决。
与同类工作的定位对比
| 方法 | 思路 | 压缩比 | 需要重训练 | 核心差异 |
|---|---|---|---|---|
| KIVI (2024) | K用INT2,V用INT4 | ~4× | 否 | 与TurboQuant K/V策略相反 |
| QuaRot (2024) | 旋转变换+均匀量化 | ~4× | 否 | TurboQuant的旋转部分源自此 |
| MagR (2025) | 幅度感知旋转 | ~5× | 部分 | 需要少量校准数据 |
| TurboQuant (2025) | 非对称+旋转+动态校准 | 6× | 否 | 三者组合,无需重训 |
值得注意的是,KIVI 和 TurboQuant 对"谁更该被激进压缩"的判断恰好相反——KIVI 认为 V 更敏感用 INT4,TurboQuant 认为 K 更敏感用 INT4。这个分歧目前在学界尚无定论,不同架构下实验结果有差异,反映了这个方向本身还有大量未探索空间。
前景判断
TurboQuant 代表的是一个清晰趋势:算法效率提升正在追赶甚至超越硬件扩展的速度。这对 AI 产业的影响是结构性的:
- 推理成本下降:6× KV Cache 压缩意味着同等硬件可服务6倍的并发长上下文请求,直接降低 Token 单价。
- 端侧部署窗口打开:128K 上下文的模型有机会在 16GB 内存的消费级设备上运行——手机本地跑超长上下文,不再只是愿景。
- 硬件需求叙事转变:HBM 容量不再是唯一瓶颈,带宽和计算效率的权衡将更复杂,芯片设计需要重新适配。
我认为值得特别关注的是第2点。端侧推理长期受制于内存而非算力。如果 TurboQuant 或类似方法被主流推理框架采纳,边缘 AI 的落地节奏会比市场预期快得多——这对手机、PC、车载 AI 的产品形态都有直接影响。
vllm-project/vllm 的 KV Cache quantization roadmap。