DeepSeek-V3.1 / V3.2（DSA 稀疏注意力）

DSA 机制详解：2.3.6.4 DeepSeek 稀疏路线
技术报告：DeepSeek-V3.2（arXiv:2512.02556）
V4 领读：paper-reading DeepSeek-V4

要解决的问题

在 128K+ 上下文 与 Agent 场景下，仅 MLA 压缩 KV 仍不足；需在 保持远程关键信息可命中 的前提下，将 attention FLOPs 从 $O(L^2)$ 降为约 $O(Lk)$ 。

相对 V3.1-Terminus，V3.2 在 continued training 引入 DeepSeek Sparse Attention（DSA）：

	DSA (V3.2)	NSA (论文)
场景	工业继续训练	可训练稀疏研究
结构	Indexer + MLA	压缩+选择+滑窗三分支

V4 以 CSA+HCA 取代 MLA，面向 1M 上下文；见 8.1 系列对比与 DeepSeek-V4 领读。