ℹ️
核心数据速览
  • KV Cache压缩比:最高6×(INT2量化下)
  • 质量损失:主流基准上 <1% 精度下降
  • 目标模型:Gemma、Llama 3等主流开源架构
  • 论文发布:2025年,Google DeepMind
  • 方法分类:非对称混合精度量化 + 旋转变换预处理

先搞懂三个词,后面读起来会顺很多

如果你已经知道"注意力机制""KV Cache""量化"是什么,可以直接跳到下一章。不熟悉的话,花两分钟看完下面三段对话——够了。

💬 大模型是怎么"读懂"你的?
🙋
小白
大模型回复我的时候,是把我说的每个字都认真看了一遍吗?
🤖
老Q
看了,但不是平等地看。每生成一个新词,它会回头扫一眼前面所有内容,自动判断哪些部分跟当前最相关——重要的多看几眼,不重要的基本忽略。这个"自动找重点"的机制就叫注意力(Attention)
🙋
小白
就像做阅读理解,答题时只盯着关键句子看?
🤖
老Q
一模一样。技术上这个"找关键句"的过程用三组向量实现:Query(我要问什么)Key(每句话的索引标签)Value(每句话的实际内容)。用 Query 去匹配所有 Key,找到最相关的,再把对应的 Value 加权合并——这就是一次注意力计算。
💬 为什么要缓存 Key 和 Value?
🙋
小白
那它每生成一个字,都要把前面的内容重新算一遍注意力?
🤖
老Q
如果不优化的话……是的,而且慢到无法使用。所以工程上的解法很简单:算过一次的 Key 和 Value 向量直接缓存下来,下次新词来了直接读,不重算。这就是 KV Cache
🙋
小白
那代价是什么?缓存不是要占地方吗?
🤖
老Q
对,而且随着对话变长,缓存线性增长。对话长度翻倍,KV Cache 占的显存也翻倍。Llama 3 70B 跑 128K 上下文,光 KV Cache 就要吃掉 130GB 显存——两张 H100 装不下。这就是今天要解决的问题。
💬 量化是什么,INT2 不是精度很差吗?
🙋
小白
INT2 只有 0、1、2、3 四个值,这么粗糙,模型不会变蠢吗?
🤖
老Q
取决于你在量化什么。你记笔记写"今天心情不错"还是"今天心情指数 7.3/10"——意思差不多,但后者费劲多了。量化就是用更粗的刻度存数字:FP16(16位,像精确到小数点后10位的坐标)→ INT8(8位)→ INT4 → INT2,存储空间依次减半。
🙋
小白
那精度损失多大,模型感知得到吗?
🤖
老Q
INT8 基本无感,INT4 稍微差一点点,INT2 一般情况下会明显变差——但 TurboQuant 的目标就是:用聪明的工程手段,让 INT2 的实际效果接近 INT8。这就是它值得认真看的地方。

背景:KV Cache 为什么是内存杀手?

前面说了,KV Cache 随上下文线性增长。以 Llama 3 70B 为例,在 128K 上下文长度下,KV Cache 单次请求可消耗超过 130 GB 显存——已经超过两张 H100 的 HBM 总容量。批量推理时多个并发请求叠加,内存压力呈指数级放大。

HBM(High Bandwidth Memory,高带宽显存)是 GPU 上的高速存储,AI 推理时模型参数和 KV Cache 都必须驻留其中。三星、SK 海力士、美光是全球仅有的几家能量产 HBM 的公司,近年来因 AI 需求而股价大涨——而这也是 TurboQuant 让他们坐立不安的原因。

⚠️
行业背景:据摩根士丹利2024年报告,主流LLM推理服务中,KV Cache占用的显存比例高达40%~60%,已成为制约批处理吞吐量的第一瓶颈,而非计算本身。

TurboQuant 技术拆解

1. 核心思路:非对称混合精度量化

传统 KV Cache 量化(如 INT8)会对 K 和 V 张量做均匀量化——每个元素用同样的比特数表示。TurboQuant 的洞察是:K 和 V 的数值分布特性截然不同,应当区别对待。

通过这种 K/V 非对称策略,平均精度落在约 2.5 bit/元素,整体压缩比相比 FP16 的 16 bit 达到 6.4×

2. 旋转变换预处理(Rotation Pre-conditioning)

离群值(outliers)是低比特量化的天敌。K/V 张量中某些通道存在极端大值,会把量化的数值范围"拉宽",导致其余通道精度骤降——就像班里有个 210cm 的同学,班级合照的缩放比例被他一个人撑大,其他人全变成了模糊小点。

TurboQuant 引入了一个随机正交旋转矩阵 R,在量化前对 K/V 张量做变换,把集中在少数通道的极端值能量均匀分散到各个维度。关键在于正交矩阵的数学性质:

💡
核心公式:K̃ = K · R,Ṽ = V · R
由于 R 是正交矩阵(RTR = I),注意力计算结果 Q·KT = Q·(R·RT)·KT 不变,即旋转对最终输出无损,但可将离群值能量分散到各维度,使量化误差最小化。

这一思路借鉴自 QuaRot(2024)等先前工作,但 TurboQuant 将其与非对称 K/V 策略深度融合,并针对推理延迟做了工程优化。

3. 逐Token动态校准

静态量化参数(scale/zero-point)在推理时固定,容易在长上下文末段发生漂移——固定刻度尺对文章前半段的数值范围是合适的,但文章后半段的语义密度可能完全不同。TurboQuant 采用逐 token 动态更新量化参数的策略:每次新 token 进入时,基于当前 token 的 K/V 统计重新校准局部量化区间,使长文档场景下的精度损失得到有效遏制。

4. 整体架构流程

graph TD A["输入Token"] --> B["QKV Projection"] B --> C["Q向量(不压缩)"] B --> D["K向量 FP16"] B --> E["V向量 FP16"] D --> F["旋转变换 K̃=K·R"] E --> G["旋转变换 Ṽ=V·R"] F --> H["INT4量化"] G --> I["INT2量化"] H --> J["KV Cache ~2.5bit"] I --> J J --> K["注意力计算(反量化)"] C --> K K --> L["Attention Output"] style A fill:#6c3fc5,color:#fff style J fill:#2d2d5e,color:#fff style L fill:#6c3fc5,color:#fff style H fill:#4a1fa8,color:#fff style I fill:#4a1fa8,color:#fff

Q 向量每次当场计算、不缓存,所以无需压缩;只有需要长期驻留在 Cache 里的 K 和 V 才是压缩目标。

性能对比:数据说话

方法 平均比特数 压缩比 vs FP16 MMLU精度 长文摘要质量 推理延迟开销
FP16 基线 16 bit 78.4% ROUGE-L 42.1
均匀 INT8 8 bit 78.1% 41.9 +2%
均匀 INT4 4 bit 76.8% 40.2 +3%
TurboQuant ~2.5 bit 77.9% 41.7 +4%

* 数据基于论文报告的 Llama 3 8B 实验,MMLU 为5-shot设置。MMLU 是横跨57个学科的多选题测试,78.4% vs 77.9% 大约是100道题多答错半题;ROUGE-L 衡量摘要质量的内容重叠度,42.1 vs 41.7 在实际阅读中无法感知。TurboQuant 在 2.5 bit 下的质量接近 INT8,而压缩率是 INT8 的3倍。

为什么这件事让内存芯片厂商坐立不安?

AI 推理对 HBM 的需求,相当程度上是由 KV Cache 驱动的。长上下文模型需要配备更多 HBM 的 GPU/TPU,这是三星、SK 海力士、美光近年来营收增长的核心叙事之一。

TurboQuant 如果被广泛部署,逻辑链条如下:

graph LR A["KV Cache压缩6×"] --> B["同等上下文
所需HBM减少"] B --> C["单卡可服务
更长上下文"] C --> D["推理服务器
GPU数量需求↓"] D --> E["HBM采购预算
缩减压力"] E --> F["内存芯片厂商
估值重定价"] style A fill:#6c3fc5,color:#fff style F fill:#c53f3f,color:#fff
⚠️
市场反应:TurboQuant 论文发布后数日内,美光科技(MU)股价单日下跌超4%,分析师将部分原因归因于算法层面对 HBM 需求叙事的冲击。这并非首次——DeepSeek R1 发布时同样引发了类似的市场反应。

技术权衡与局限性

TurboQuant 并非没有代价,诚实的评估需要指出以下几点:

与同类工作的定位对比

方法 思路 压缩比 需要重训练 核心差异
KIVI (2024) K用INT2,V用INT4 ~4× 与TurboQuant K/V策略相反
QuaRot (2024) 旋转变换+均匀量化 ~4× TurboQuant的旋转部分源自此
MagR (2025) 幅度感知旋转 ~5× 部分 需要少量校准数据
TurboQuant (2025) 非对称+旋转+动态校准 三者组合,无需重训

值得注意的是,KIVI 和 TurboQuant 对"谁更该被激进压缩"的判断恰好相反——KIVI 认为 V 更敏感用 INT4,TurboQuant 认为 K 更敏感用 INT4。这个分歧目前在学界尚无定论,不同架构下实验结果有差异,反映了这个方向本身还有大量未探索空间。

前景判断

TurboQuant 代表的是一个清晰趋势:算法效率提升正在追赶甚至超越硬件扩展的速度。这对 AI 产业的影响是结构性的:

  1. 推理成本下降:6× KV Cache 压缩意味着同等硬件可服务6倍的并发长上下文请求,直接降低 Token 单价。
  2. 端侧部署窗口打开:128K 上下文的模型有机会在 16GB 内存的消费级设备上运行——手机本地跑超长上下文,不再只是愿景。
  3. 硬件需求叙事转变:HBM 容量不再是唯一瓶颈,带宽和计算效率的权衡将更复杂,芯片设计需要重新适配。

我认为值得特别关注的是第2点。端侧推理长期受制于内存而非算力。如果 TurboQuant 或类似方法被主流推理框架采纳,边缘 AI 的落地节奏会比市场预期快得多——这对手机、PC、车载 AI 的产品形态都有直接影响。

💡
开发者注意:TurboQuant 的核心组件(旋转变换+非对称量化)已有社区在 HuggingFace 的 transformers 和 vLLM 框架中实现原型,预计2025年下半年可能进入主流推理框架的正式支持列表。关注 vllm-project/vllm 的 KV Cache quantization roadmap。