MiniMax-01 / MiniMax-M1（闪电注意力 + 超长上下文）

领读：MiniMax-01 · MiniMax-M1

要解决的问题

在 百万 token 级上下文 目标下，如何避免标准 attention 的 $O(L^2)$ 显存与算力爆炸？MiniMax 系列采用 Lightning Attention（线性注意力变体） + 混合层，兼顾长文与推理质量。

组件	作用
Lightning Attention	核特征映射近似 softmax attention，线性复杂度主导层
标准 Attention 块	周期性插入，恢复精确局部/全局交互
MoE（M1）	扩大容量同时控制激活参数量
超长窗口	01 强调 1M+ 上下文能力（工程实现依赖定制 kernel）

学习路径

本页为 第八部分大纲摘要。Lightning Attention 细节与基准见 MiniMax-01 领读与 MiniMax-M1 领读。

项	说明
权重版本	核对 Hugging Face revision 与 `config.json`
Chat template	与官方 tokenizer 模板一致，避免 silently truncate
思考模式	明确 API 字段（reasoning / think budget）
成本	测 prefill+decode $/1M tokens @ 典型并发
合规	许可、地域、日志留存策略
长文压测	记录 prefill 时间随 $L$ 变化曲线

类型	入口
原始报告	见正文 arXiv / 官方博客链接
权重与配置	Hugging Face `config.json` 与 model card
深度领读	见上文 `:::tip` 或 tech-report 索引
工具链	附录 D　工具生态
术语	附录 B　术语表