Mamba 与状态空间模型(SSM)作为替代方案
深入展开见 9.3.1 Mamba 与状态空间模型;2.3.6.5 线性注意力 讨论核近似路线。
要解决的问题
Transformer 的 attention 限制超长序列与推理效率。状态空间模型(SSM) 用线性动力系统递推隐藏状态,实现 推理步长(固定状态维)。
核心思想
连续系统离散化:
Mamba 引入 输入相关 的 (选择性 SSM),克服传统 SSM 对输入不敏感的问题。
与 Transformer 对比
| Transformer | Mamba / SSM | |
|---|---|---|
| 交互 | 全局 pairwise attention | 递推状态压缩历史 |
| 训练并行 | 天然并行 | 并行扫描算法 |
| 长程拷贝 | 强 | 依赖选择性机制 |
| 生态 | 极成熟 | 成长中(Jamba 等混合) |
混合架构
Jamba、Zamba 等交替 Mamba 层与 Attention 层,兼顾吞吐与精确检索。见 9.3.3 混合架构。