KV Cache 原理

要解决的问题

自回归 Decode 每步只新增一个 token，若每步对整段历史重算注意力，复杂度为 $O(T^2)$ 且浪费已算过的 Key/Value。KV Cache 缓存各层历史 $K,V$ ，使每步仅对最新 token 做投影并 attend 到缓存，是长上下文推理的默认标配。

对第 $\ell$ 层、第 $h$ 个头，时刻 $t$ 的注意力：

\text{Attention}(Q_t, K_{\le t}, V_{\le t}) = \text{softmax}\left(\frac{Q_t K_{\le t}^\top}{\sqrt{d_h}}\right) V_{\le t}

Cache 内容：每层存储已生成位置的 $K^{(\ell)}, V^{(\ell)} \in \mathbb{R}^{T \times d}$ （或 GQA 下更少的 KV 头）。

显存估算（单请求、FP16/BF16，忽略碎片）：

\text{KV\_bytes} \approx 2 \times L \times T \times H_{\text{kv}} \times d_h \times \text{bytes\_per\_elem}

其中 $L$ =层数， $T$ =序列长度， $H_{\text{kv}}$ =KV 头数（GQA 时 $H_{\text{kv}} < H_{\text{q}}$ ）， $d_h$ =每头维度，因子 2 为 K 与 V。

Prefill：对 prompt 一次前向，填充全部层的 KV。
Decode：每步输入 shape [batch, 1]，past_key_values 传入 transformer；输出 logits 仅最后一位置。
GQA/MQA：Query 头数多、KV 头数少，Cache 按 KV 头存储（见 2.3 多头注意力）。

与 5.2.2 PagedAttention 结合：逻辑上仍是 KV Cache，物理上用非连续页管理显存。

带宽瓶颈：Decode 常 memory-bound（读 KV 量 $\propto T$ ），优化方向为 FP8 KV、量化（5.3）、FlashAttention（5.2.3）。
多请求：每会话独立 KV；连续批处理下 batch 维合并（5.6.2）。
可观测：监控 gpu_cache_usage_perc、OOM 时优先减 max_model_len 或启用 paging。