跳到主要内容

MiniMax-01：闪电注意力与超长上下文

报告信息

项目	内容
机构	MiniMax
发布	2025 年 1 月
产品	MiniMax-Text-01、MiniMax-VL-01（多模态另系）
代码 / 权重	GitHub MiniMax-AI/MiniMax-01、Hugging Face

定位与问题

在 MoE 成为行业默认前，MiniMax 已押注稀疏架构；01 系列强调 线性/闪电注意力（Lightning Attention） 降低长序列 KV 成本，并宣称 百万级上下文 能力，与同期 DeepSeek、GLM 长文路线竞争。

架构要点

Lightning Attention：线性注意力变体，减少长上下文推理的 KV 显存与计算。
规模：Text-01 为大规模参数（公开资料约 456B 级），面向通用与长文。
上下文：宣称可达 4M token 量级（需结合官方评测与部署条件理解）。
VL-01：视觉-语言分支，与本篇文本基座分开阅读。

训练与数据

长文档、书籍、代码等长序列数据占比提升。
预训练与对齐细节以 GitHub 技术报告 README 为主。

后训练与推理

标准 SFT 对齐 Chat 能力。
长文场景需关注 实际可用上下文 与推理框架支持。

关键结论

开源权重与长上下文叙事提升 MiniMax 在开源社区能见度。
为 MiniMax-M1（MoE + RL 扩展）铺垫工程经验。

个人理解

闪电注意力与 MLA、iRoPE 同属「长上下文成本」工具箱，实现与生态成熟度需以实际推理框架为准；读 M1 时对比 MoE 路由设计。

总结

MiniMax-01 = 长上下文 + 线性注意力 的开源宣言；多模态见 VL-01，MoE 旗舰见 M1。

参考链接

GitHub：https://github.com/MiniMax-AI/MiniMax-01
后续：MiniMax-M1
概览对比：开源 LLM 技术报告索引