跳到主要内容

开源 LLM 技术报告

本栏目整理 2024–2026 年主流开源大模型技术报告 的结构化领读,并提供横向对比索引,便于从架构、训练、对齐、开源等维度快速对照不同路线。

栏目定位

栏目定位
本栏目(Tech Report)官方技术报告 / 模型卡的领读摘要 + 多模型横向对比
Paper Reading · Agentic / RL学术方法与算法论文深度领读
Weekly Paper每周论文速览
LLMs 第八部分按系列组织的系统学习大纲(占位章节,可与本栏交叉阅读)

领读笔记目录

DeepSeek

笔记主题
DeepSeek-V2MLA + DeepSeekMoE,成本效率基座
DeepSeek-V3671B MoE、MTP、FP8 预训练
DeepSeek-R1GRPO 纯 RL 激发推理
DeepSeek-V41M 上下文、CSA+HCA、mHC

智谱 GLM

笔记主题
GLM-4 家族ChatGLM / GLM-4 技术报告
GLM-4.5ARC:Agent / Reasoning / Coding

MiniMax

笔记主题
MiniMax-01闪电注意力 + 超长上下文
MiniMax-M1开源 MoE + RL 扩展

通义 Qwen

笔记主题
Qwen2.5全尺寸稠密 / MoE 与多语言
Qwen3思考 / 非思考统一 + 思考预算

国外开源

笔记主题
Llama 3.1Meta 405B 开源旗舰
Llama 4MoE + iRoPE + 原生多模态
Mistral / Mixtral7B 稠密与 MoE 路线
Gemma 2 / 3Google 开源多模态
OLMo 2AI2 全链路开放
待补笔记

DeepSeek-V3.2、GLM-4.7/5、MiniMax-M2、Kimi K2、GPT-OSS 等可在对比表中查看官方链接占位,后续单篇领读再补(V4 已收录)。

横向对比索引

以下表格以模型为列、维度为行;表头链到本站领读。宽表可横向滚动。

架构对比

维度V2V3R1V4GLM-4GLM-4.5MiniMax-01MiniMax-M1Qwen2.5Qwen3Llama3.1Llama4MixtralGemma3OLMo2
发布2024.052024.122025.012026.042024.062025.072025.012025.062024.092025.052024.072025.042023.122025.032024.11
总参 / 激活236B / 21B671B / 37B671B / 37B1.6T/49B284B/13B闭源+9B 开源355B / 32B~456B 级MoE 开源0.5B–72B+MoE0.6B–235B / 22B8B–405B 稠密Scout 109B/17B;Mav 400B/17B8×7B / 8×22B1B–27B+多模态7B–32B 稠密
架构MoEMoEMoE(同 V3)MoE 双档稠密为主MoE线性注意力+稠密MoE稠密+MoE稠密+MoE稠密MoEMoE稠密稠密
注意力MLAMLAMLACSA+HCAGQAGQA+混合推理Lightning Attn标准+长文GQAGQAGQAiRoPE(局部+NoPE)GQA标准全注意力
专家160 routed + 共享256 + 共享同 V3MoE+Hash-MoE 引导MoEMoEMoE 可选128,无共享16 / 128+共享8 专家
上下文128K128K128K1M128K–1M(9B)128K→200K4M 级宣称1M128K+128K+128K10M(Scout)32K–128K128K+4K–32K
多模态部分版本VL-01 另系部分原生 Early Fusion

训练对比

维度V2V3R1V4GLM-4GLM-4.5MiniMax-01MiniMax-M1Qwen2.5Qwen3Llama3.1Llama4MixtralGemma3OLMo2
预训练规模8.1T tokens14.8T基于 V3 base32–33T未全公开未全公开未全公开未全公开18T+ 级36T+ 级15T+ 级未全公开未全公开未全公开5T+ 级
训练精度BF16 等FP8 混合同 V3FP4+FP8(Instruct)BF16/FP8BF16/FP8BF16BF16
架构训练技巧MLA+MoE 路由MTP、无辅助损失均衡mHCMuon、FP4-QATARC 数据合成线性注意力降 KVRL 扩展多阶段课程强弱蒸馏高质量末期MoE 蒸馏稀疏 MoE知识蒸馏Model Soup
数据亮点中英文+代码多语言+数学代码Agent/长程中英工具数据Agent/代码增强长文数据Agentic 数据29 语言119 语言多语言多模态对多语言多模态Dolma 等开放

对齐与推理对比

维度V2V3R1V4GLM-4GLM-4.5MiniMax-01MiniMax-M1Qwen2.5Qwen3Llama3.1Llama4MixtralGemma3OLMo2
后训练SFT+RLHF 类SFT+对齐GRPO 纯 RL(R1-Zero)SFT+on-policy 蒸馏SFT+工具SFT+混合推理SFTSFT+RLSFT+DPO 等SFT+RLSFT+RLHFSFTSFTSFT+RL对齐开源
推理模式标准标准长 CoT、自验证Non-think / Think High / Think Max工具调用思考开关标准RL 推理扩展标准/think 统一标准标准标准思考模型标准
Agent / 工具一般增强强推理1M Agent 长程All ToolsARC 重点一般Agentic工具调用Agent+工具工具生态多模态 Agent一般设备端研究向
蒸馏→ 小稠密模型on-policy旗舰→小模型强弱蒸馏Behemoth 教师Gemma 小模型

开源与资源对比

维度V2V3R1V4GLM-4GLM-4.5MiniMax-01MiniMax-M1Qwen2.5Qwen3Llama3.1Llama4MixtralGemma3OLMo2
许可开源可商用开源MIT开源预览模型许可MIT开源开源Apache 2.0Apache 2.0Llama 社区Llama 4 社区Apache 2.0Gemma 条款Apache 2.0
权重HF 开放HF 开放HF 开放HF 开放9B 等开放HF 开放HF 开放HF 开放HF 开放HF 开放HF 开放部分开放HF 开放HF 开放全链路
官方报告arXiv:2405.04434arXiv:2412.19437arXiv:2501.12948V4 PDFarXiv:2406.12793arXiv:2508.06471GitHub READMEGitHub READMEQwen2.5 博客arXiv:2505.09388Meta 博客Meta 博客Mistral 文档Google 技术报告OLMo 2
待补V3.2 说明GLM-4.7/5MiniMax-M2Kimi K2GPT-OSS

阅读建议

  1. 先扫本页对比表,锁定关心的维度(如 MLA vs GQA、思考模式、MoE 专家设计)。
  2. 点进对应厂商单篇,按「架构 → 训练 → 后训练」顺序细读。
  3. 需要体系化课程时,配合 LLMs 第八部分 大纲延展。