DeepSeek 稀疏注意力路线(V3 / V3.2 / V4)
总览见 稀疏注意力总览。MLA 公式与示意图见 注意力变体:MQA、GQA、MLA;技术报告领读见 V3、V4。
DeepSeek 在长上下文上的路线可概括为:先压 KV(MLA)→ 再压连接数(DSA)→ 超长上下文统一压缩+稀疏(CSA/HCA)。
三代总览
| 版本 | 注意力机制 | 稀疏类型 | 训练受益 | 推理受益 | 典型上下文 |
|---|---|---|---|---|---|
| V2 / V3 / R1 | MLA | KV 压缩,非 token 稀疏 | 中(激活/KV) | 高(KV 带宽) | 128K |
| V3.2 | MLA + DSA | 内容相关 top- | 高(长文 FLOPs) | 高 | 128K+ |
| V4 | CSA + HCA | 分层混合 | 高 | 极高@1M | 1M |
DeepSeek-V3:MLA 基座(KV 压缩,非 token 稀疏)
要解决的问题
标准 MHA 的 KV Cache 随头数 与头维 线性增长。长上下文 推理瓶颈往往在 KV 读取带宽,而非仅 FLOPs。
核心机制(直觉)
MLA(Multi-head Latent Attention) 将每个 token 的 先映射到低维 latent 空间再缓存;推理时由 latent 恢复参与 attention 的有效 :
- Down-projection:(维度 )
- Up-projection / 多头恢复:由 生成各头所需
- 解耦 RoPE:位置信息通过独立通道注入,避免压缩破坏位置编码
相对 MHA,KV Cache 体积可降至约 1/3~1/5 量级(取决于 与头数配置,以官方实现为准)。