跳到主要内容

混合架构(Jamba、Zamba)

要解决的问题

纯 SSM(Mamba)在 检索/拷贝 上存疑,纯 Transformer 长序列贵混合层 交替 Attention 与 SSM/RWKV,试图 兼得质量与吞吐

设计模式

模式描述
A-S-A-S…kk 层插一层 full/local attention
SSM 为主 + 稀疏注意力大部分层线性,少数层恢复全局
MoE + 混合专家 FFN + 异构注意力(研究前沿)

代表模型

模型组合
JambaMamba + Attention + MoE(AI21)
Zamba少量 attention 层 + SSM 主体
MiniMaxLightning + 标准 attention 周期块(见 8.6.1

训练与推理

  • 训练:SSM 用并行扫描;Attention 用 FlashAttention。
  • 推理:SSM 段 常数状态;Attention 段仍要 KV(但层数少 → 省显存)。
  • 调参:attention 层 比例 是核心超参(如 1:7)。

选型建议

场景倾向
超长流式生成提高 SSM 比例
代码/Agent 工具保留更多 attention
边缘小混合模型 + 量化

局限与注意点

  • 实现 复杂度高(两套 kernel、checkpoint 格式不统一)。
  • 论文分数 vLLM 生产性能,需自建 benchmark。
  • DSA/MLA 稀疏 Transformer 路线 竞争,尚无定论。

检查清单(自学 / 落地)

步骤动作
1阅读官方 primary source(报告、博客、模型卡)
2固定 prompt 与解码参数,在自有验证集上建基线
3记录延迟、成本、上下文长度与是否启用思考模式
4与相邻章节对照,画出与上下游模块的数据流
5paper-reading 或本大纲相关节做深度笔记

常见误区

误区澄清
公开基准 = 产品表现必须用业务端到端任务回归
长窗口 = 长理解需 Needle + 真实文档任务验证
单次实验可定论固定随机种子、数据版本与评测脚本

延伸练习

相关章节