稀疏注意力总览

本章按方法类型拆分子页，便于逐篇深读。Flash Attention（IO 与融合内核，不改变 $O(L^2)$ 渐近阶）见 Flash Attention 与 IO 优化。完整推理部署栈见 llms/05-inference-deployment/。

子章节索引

长上下文下的「高效注意力」并非单一技术，可按优化对象分为五类（可叠加）：

类型	是否减少 softmax 参与的键值对	是否减小 KV Cache 体积	典型手段
Token 连接稀疏	是	有时间接减少计算	SWA、BigBird、NSA、DSA
KV 压缩	否（仍对全长打分）	是	MQA、GQA、MLA
核近似 / 递推	隐式（无显式 $L\times L$ 矩阵）	可递推状态	Linear Transformer、Performers
分布式切分	否（语义仍全连接）	单卡分摊	Ring Attention、Sequence Parallel
IO 优化	否	否（常数因子↓）	Flash Attention

读文献时的「稀疏」歧义

论文里的 sparse attention 有时指 掩码稀疏（少算 token 对），有时泛指 一切降低 attention 成本的手段（含 GQA、Flash）。本模块在表格与专章中尽量区分 (A) token 稀疏 与 (B) KV 压缩。

多头自注意力（MHA）对序列长度 $L$ 、头数 $H$ 、头维 $d$ ：

\text{Attention}(Q,K,V)=\text{softmax}\left(\frac{QK^\top}{\sqrt{d}}\right)V

复杂度（单层、单 batch 条）：

因此 $L$ 从 8K → 128K 时，注意力 FLOPs 约 ×256，KV 体积约 ×16——这是后续一切稀疏/压缩/并行方案的参照系。缩放点积与多头拆分见 2.1.2 缩放点积注意力、2.1.3 多头注意力。

推理 economics：每个 decode step 读取全部历史 KV；Agent 多轮工具调用使有效 $L$ 持续增长。
训练可行性：全长稠密 attention 限制 activation 与 batch；稀疏掩码与 Ring 等使更长样本进入训练分布。
Agent 场景：上下文中大量日志/工具返回对当前 step 未必相关；内容相关稀疏（DSA、NSA 选择分支）比固定滑窗更贴近「从百万 token 中捞关键段」。
与 Flash 的关系：Flash Attention 降低 HBM↔SRAM 搬运，不改变 $L^2$ 渐近阶；常与 token 稀疏、KV 压缩叠加。

下表为全章索引；各方法细节见对应子页。

方法	优化类型	复杂度（量级）	掩码/连接	内容相关	详见
标准 MHA	基线	$O(L^2)$	全连接	—	上文基线
Flash Attention	IO / 融合	$O(L^2)$ 常数↓	全连接	—	专章
MQA / GQA / MLA	KV 压缩	$O(L^2)$ ，KV↓	全连接	—	08-kv-compression
滑动窗口 SWA	token 稀疏	$O(Lw)$	固定局部	否	06
Local + Global	混合稀疏	$O(Lw+Lg)$	局部+全局 token	半固定	07
线性 / Lightning	核近似	$O(L)$ 推理	隐式全局	部分	05
NSA	可学习多分支	$<O(L^2)$	压缩+选择+滑窗	可学习	03
DSA	token 稀疏+MLA	$O(Lk)$	Indexer top- $k$	是	04
CSA + HCA	分层压缩+稀疏	$\ll O(L^2)$ @超长	层间交替	是	04
Ring / Seq. Parallel	分布式	单卡语义 $O(L^2)$	全连接分片	—	02
iRoPE + NoPE	长程结构	介于稠密与稀疏	层类型交替	结构固定	下文短节

读表速查：

部分超长上下文模型通过层间交替改变位置编码与注意力形态，而非直接做 token 掩码稀疏：

这与 SWA/DSA 的「少算 token 对」不同：主要改变位置信号如何注入，计算量未必按 $L^2$ 下降。细节见位置编码改进：RoPE、ALiBi、NoPE。

个人理解（待更多公开细节验证）

iRoPE + NoPE 更像 长上下文归纳偏置工程，与 DeepSeek 的 DSA/CSA token 稀疏 可并存于不同产品线，不宜混称为同一类「稀疏注意力」。