DeepSeek-V3（MLA + DeepSeekMoE + MTP + FP8）

技术报告：arXiv:2412.19437 | 权重：Hugging Face DeepSeek-V3

要解决的问题

在 671B MoE 规模下，如何以 可复现的开源权重 达到当时闭源旗舰的综合能力，同时把 训练 $/token 压到行业可讨论的新低？V3 在 V2 的 MLA + MoE 路线上做 规模化兑现。

组件	作用
MLA	低秩联合压缩 Q/K/V，显著降低长上下文 KV 显存
DeepSeekMoE	256 routed + 共享专家；细粒度专家、无 aux-loss 负载均衡（动态 bias）
MTP	Multi-Token Prediction，训练时预测多个后续 token，利于吞吐与投机解码
FP8 训练	14.8T token 级预训练下的混合精度与 scaling 配方

激活约 37B / token（总参 671B），上下文 128K。

社区与报告常引：数学、代码、多语言接近 GPT-4o / Claude 3.5 梯队；具体分数以官方表格为准。

学习路径

本页为 第八部分大纲摘要。架构拆解、训练成本讨论与链接索引见 DeepSeek-V3 技术报告领读。

项	说明
权重版本	核对 Hugging Face revision 与 `config.json`
Chat template	与官方 tokenizer 模板一致，避免 silently truncate
思考模式	明确 API 字段（reasoning / think budget）
成本	测 prefill+decode $/1M tokens @ 典型并发
合规	许可、地域、日志留存策略

类型	入口
原始报告	见正文 arXiv / 官方博客链接
权重与配置	Hugging Face `config.json` 与 model card
深度领读	见上文 `:::tip` 或 tech-report 索引
工具链	附录 D　工具生态
术语	附录 B　术语表