Prefix Caching、Prompt Caching

要解决的问题

Agent、RAG、多轮对话中，系统提示 + 文档 + 工具定义 在成千上万请求间重复，却每次 Prefill 重算 KV，浪费算力与 TTFT。Prefix / Prompt Caching 对相同 token 前缀复用 KV Cache（或中间激活），使增量部分只做短 Prefill。

术语	含义
Prefix Cache	以 token 序列为键，缓存其 KV blocks（vLLM、SGLang Radix）
Prompt Caching	云 API（OpenAI、Anthropic）对稳定前缀计费折扣 + 低延迟
Radix Tree	多请求共享最长公共前缀的 KV 节点

命中时 TTFT 近似：

\text{TTFT}_{\text{hit}} \approx \text{Prefill}(\Delta \text{ prompt}) \ll \text{Prefill}(\text{full prompt})

未命中则回退完整 5.2.1 KV Cache 构建。

哈希键：对 prefix token ids（或 block hash 链）索引；注意 tokenizer 一致 与 chat template。
与 PagedAttention：5.2.2 block 引用计数 + COW，释放时递减。
SGLang RadixAttention：树结构合并公共前缀；适合高 QPS 同系统提示。
API 层：客户端标记 cache_control（因厂商而异）；仅对静态段启用。

正文英文术语与开源实现（GitHub、Hugging Face）命名一致，便于检索源码与 Issue。