Mamba 与状态空间模型
Transformer 路线中的 SSM 简介见 2.3.7 Mamba 与 SSM。
要解决的问题
突破 Transformer attention 瓶颈,用 线性递推状态 处理超长序列,同时尽量保持并行训练能力。
状态空间模型(SSM)
连续形式 ,离散化后:
推理每步 更新固定维状态(相对 KV 线性增长)。
Mamba(选择性 SSM)
- 输入相关 ,使模型能 选择性记住或忽略 输入
- 并行扫描 训练
- 论文:Mamba: Linear-Time Sequence Modeling
与 Transformer 的取舍
| Transformer | Mamba | |
|---|---|---|
| 精确拷贝/检索 | 强 | 需验证 |
| 训练生态 | 极成熟 | 成长中 |
| 推理长序列 | KV 贵 | 状态固定 |
混合架构
Jamba、Zamba 等 Attention 层 + SSM 层 交替,兼顾质量与吞吐。