跳到主要内容

Mistral / Mixtral 系列

官方:Mistral AI | 领读:Mistral / Mixtral

要解决的问题

欧洲团队需以 高效稠密小模型(Mistral 7B)开源 MoE(Mixtral 8x7B/8x22B) 抢占「同等算力更强性能」心智,并延续 Apache 2.0 友好生态。

系列演进

代际代表要点
Mistral 7Bv0.1/v0.2/v0.3SWA 滑动窗口、GQA,小而强
Mixtral 8x7BMoE8 专家、每 token 2 专家,47B 总参 ~13B 激活
Mixtral 8x22B更大 MoE旗舰开源 MoE 竞争者(发布期)
Mistral Large / Small闭源/API商业旗舰与边缘型号

Mixtral MoE 结构

  • Router:每 token 选 top-2 专家 FFN。
  • 负载均衡:辅助损失防专家塌陷。
  • 推理:专家并行;batch 内专家分布影响延迟。

工程实践

  • 推理:vLLM 对 Mixtral 支持成熟;注意 EP(Expert Parallel) 配置。
  • 微调:LoRA 仅适配激活专家;全参 MoE 微调成本高。
  • Agent:Mistral 官方 function calling 模板;与 LangChain 等集成广。

与 DeepSeekMoE / Qwen3 MoE

MixtralDeepSeek-V3Qwen3 MoE
专家数8256128
激活专家28+routed8
特色早期开源 MoE 标杆MLA+无 aux 均衡无共享专家

局限与注意点

  • 7B 模型 知识容量 有限,复杂推理需更大或 R1 类模型。
  • MoE 内存占用 含全部专家权重,部署显存仍大。
  • 2025 后 SOTA 重心转向 万亿 MoE(Kimi K2 等),Mixtral 更多作 效率基线
学习路径

本页为 第八部分大纲摘要。各型号参数、许可与历史基准见 Mistral / Mixtral 技术报告领读

部署与评测检查清单

说明
权重版本核对 Hugging Face revision 与 config.json
Chat template与官方 tokenizer 模板一致,避免 silently truncate
思考模式明确 API 字段(reasoning / think budget)
成本测 prefill+decode $/1M tokens @ 典型并发
合规许可、地域、日志留存策略
MoE 部署确认 EP 与专家负载监控告警

与领读配合

  • 本页 不重复 paper-reading 全文;领读负责实验细节与引用索引。
  • 更新模型版本时:先改 paper-reading,再回本页改摘要表。

外部参考(精选)

类型入口
原始报告见正文 arXiv / 官方博客链接
权重与配置Hugging Face config.json 与 model card
深度领读见上文 :::tiptech-report 索引
工具链附录 D 工具生态
术语附录 B 术语表

相关章节