跳到主要内容

Mistral 7B 与 Mixtral：欧洲开源 MoE 先驱

报告信息

项目	内容
机构	Mistral AI
代表发布	Mistral 7B（2023.09）、Mixtral 8×7B / 8×22B（2023.12–2024）
官方资料	Mistral 文档、Hugging Face mistralai
许可	Apache 2.0（多数权重）

定位与问题

以 7B 小而强 打开局面，再以 Mixtral MoE 在激活参数量级下逼近更大稠密模型，影响后续全球 MoE 设计（专家数、路由、无共享专家等讨论）。

架构要点

Mistral 7B

稠密 7B，GQA + Sliding Window Attention 扩展有效上下文。
在 2023 年以小算力达到 Llama 2 13B 级效果。

Mixtral 8×7B / 8×22B

MoE：8 个专家，每 token 激活 2 个（8×7B ≈ 13B 激活；8×22B 更大）。
稀疏激活降低推理 FLOPs，成为开源 MoE 早期标杆。

训练与数据

多语言预训练；Mixtral 强化代码与推理。
后续 Mistral Large 2 等闭源/API 产品与开源线并行（本笔记聚焦开源 Mixtral 系）。

后训练与推理

Instruct 版本经 SFT；适合 vLLM、TGI 等部署。
32K–128K 上下文随版本迭代（以 model card 为准）。

关键结论

Mixtral 证明 「小激活、大总参」 在产业界可落地，催生 2024–2025 MoE 军备竞赛。

个人理解

读 DeepSeek-V2/V3、Qwen3 MoE 时，宜回头对照 Mixtral 的 专家数少、路由简单 基线，理解「细粒度专家 + 共享专家」等后续改动动机。

总结

Mistral = 7B 效率传奇 + Mixtral MoE 启蒙；欧洲开源对全球架构影响深远。

参考链接

文档：https://docs.mistral.ai/
Mixtral 论文 / 卡片：见 Hugging Face 模型页
概览对比：开源 LLM 技术报告索引