注意力变体：MQA、GQA、MLA

KV 压缩 vs token 稀疏 边界见 2.3.6.8 KV 压缩与稀疏边界。

要解决的问题

推理时 KV Cache 随序列长度与头数线性增长，成为吞吐瓶颈。MQA、GQA、MLA 在 保持 Q 表达力 的同时 减少 K/V 头数或维度。

Grouped Query Attention

query 是全量的 heads，可是 k-v 的 heads 就比较少了

计算逻辑

计算：Q 头数不变，K/V 仅 $G$ 组；attention 分数在组内广播或 repeat 到各 Q 头。

DeepSeek V2/V3 路线： $K,V$ 经 低维 latent 缓存，解码时再 up-project。

Multi-Lantent-Attention