混合架构(Jamba、Zamba)
要解决的问题
纯 SSM(Mamba)在 检索/拷贝 上存疑,纯 Transformer 长序列贵。混合层 交替 Attention 与 SSM/RWKV,试图 兼得质量与吞吐。
设计模式
| 模式 | 描述 |
|---|
| A-S-A-S… | 每 k 层插一层 full/local attention |
| SSM 为主 + 稀疏注意力 | 大部分层线性,少数层恢复全局 |
| MoE + 混合 | 专家 FFN + 异构注意力(研究前沿) |
代表模型
| 模型 | 组合 |
|---|
| Jamba | Mamba + Attention + MoE(AI21) |
| Zamba | 少量 attention 层 + SSM 主体 |
| MiniMax | Lightning + 标准 attention 周期块(见 8.6.1) |
训练与推理
- 训练:SSM 用并行扫描;Attention 用 FlashAttention。
- 推理:SSM 段 常数状态;Attention 段仍要 KV(但层数少 → 省显存)。
- 调参:attention 层 比例 是核心超参(如 1:7)。
选型建议
| 场景 | 倾向 |
|---|
| 超长流式生成 | 提高 SSM 比例 |
| 代码/Agent 工具 | 保留更多 attention |
| 边缘 | |