跳到主要内容

Mistral / Mixtral 系列

官方：Mistral AI | 领读：Mistral / Mixtral

要解决的问题

欧洲团队需以 高效稠密小模型（Mistral 7B） 与 开源 MoE（Mixtral 8x7B/8x22B） 抢占「同等算力更强性能」心智，并延续 Apache 2.0 友好生态。

系列演进

代际	代表	要点
Mistral 7B	v0.1/v0.2/v0.3	SWA 滑动窗口、GQA，小而强
Mixtral 8x7B	MoE	8 专家、每 token 2 专家，47B 总参 ~13B 激活
Mixtral 8x22B	更大 MoE	旗舰开源 MoE 竞争者（发布期）
Mistral Large / Small	闭源/API	商业旗舰与边缘型号

Mixtral MoE 结构

Router：每 token 选 top-2 专家 FFN。
负载均衡：辅助损失防专家塌陷。
推理：专家并行；batch 内专家分布影响延迟。

工程实践

推理：vLLM 对 Mixtral 支持成熟；注意 EP（Expert Parallel） 配置。
微调：LoRA 仅适配激活专家；全参 MoE 微调成本高。
Agent：Mistral 官方 function calling 模板；与 LangChain 等集成广。

与 DeepSeekMoE / Qwen3 MoE

	Mixtral	DeepSeek-V3	Qwen3 MoE
专家数	8	256	128
激活专家	2	8+routed	8
特色	早期开源 MoE 标杆	MLA+无 aux 均衡	无共享专家

局限与注意点

7B 模型 知识容量 有限，复杂推理需更大或 R1 类模型。
MoE 内存占用 含全部专家权重，部署显存仍大。
2025 后 SOTA 重心转向 万亿 MoE（Kimi K2 等），Mixtral 更多作 效率基线。

学习路径

本页为 第八部分大纲摘要。各型号参数、许可与历史基准见 Mistral / Mixtral 技术报告领读。

部署与评测检查清单

项	说明
权重版本	核对 Hugging Face revision 与 `config.json`
Chat template	与官方 tokenizer 模板一致，避免 silently truncate
思考模式	明确 API 字段（reasoning / think budget）
成本	测 prefill+decode $/1M tokens @ 典型并发
合规	许可、地域、日志留存策略
MoE 部署	确认 EP 与专家负载监控告警

与领读配合

本页 不重复 paper-reading 全文；领读负责实验细节与引用索引。
更新模型版本时：先改 paper-reading，再回本页改摘要表。

外部参考（精选）

类型	入口
原始报告	见正文 arXiv / 官方博客链接
权重与配置	Hugging Face `config.json` 与 model card
深度领读	见上文 `:::tip` 或 tech-report 索引
工具链	附录 D　工具生态
术语	附录 B　术语表

相关章节

MoE 训练：3.5 分布式
张量并行：3.5.2 张量并行
技术报告索引：paper-reading tech-report