Mamba 与状态空间模型（SSM）作为替代方案

深入展开见 9.3.1 Mamba 与状态空间模型；2.3.6.5 线性注意力讨论核近似路线。

要解决的问题

Transformer 的 $O(L^2)$ attention 限制超长序列与推理效率。状态空间模型（SSM） 用线性动力系统递推隐藏状态，实现 $O(L)$ 推理步长（固定状态维）。

连续系统离散化：

\mathbf{h}_t = \mathbf{A}\mathbf{h}_{t-1} + \mathbf{B}\mathbf{x}_t, \quad \mathbf{y}_t = \mathbf{C}\mathbf{h}_t

Mamba 引入 输入相关 的 $\mathbf{B},\mathbf{C},\Delta$ （选择性 SSM），克服传统 SSM 对输入不敏感的问题。

Jamba、Zamba 等交替 Mamba 层与 Attention 层，兼顾吞吐与精确检索。见 9.3.3 混合架构。