跳到主要内容

附录 C 主流模型参数与基准成绩对照

说明:参数量、上下文、分数随版本快速变化;下表为 2025 中旬量级摘要,用于选型直觉。精确数字以官方技术报告为准。分数多为 非 extended thinking 或官方默认设置,不可横比 不同评测协议。

开源旗舰 MoE(示意)

模型总参 / 激活上下文架构亮点许可领读
DeepSeek-V3671B / ~37B128KMLA+MoE+MTP+FP8开源V3 领读
DeepSeek-R1同 V3 基座128KGRPO 长 CoT开源R1
Qwen3-235B-A22B235B / 22B128K/think 统一Apache 2.0Qwen3
Kimi K21T / 32B128KMuonClip MoE开源8.4.2
GLM-4.5355B / ~32B128KARC Agent开源GLM-4.5
Mixtral 8x22B141B / ~39B64K早期 MoEApache 2.0Mistral

开源稠密与中尺寸

模型规模上下文侧重领读/章节
Qwen2.5-72B72B 稠密128K通用/代码Qwen2.5
Llama 3.1-405B405B 稠密128K通用Llama 3.1
Llama 4多规格10M 目标原生 MMLlama 4
Mistral 7B v0.37B32K边缘高效Mistral
Gemma 3-27B27B128K边缘+MMGemma
OLMo 2-32B32B标准全开放科研OLMo 2

长上下文与特殊架构

模型上下文宣传机制章节
MiniMax-011M+Lightning Attention8.6.1
DeepSeek-V3.2128K+DSA 稀疏8.1.3
GLM-4.6200K编程增强8.5.2

基准分数(示意,勿用于严肃排名)

模型MMLU (≈)HumanEval (≈)MATH (≈)备注
DeepSeek-V388+80+50+发布期报告
DeepSeek-R190+思考模式
Qwen3-235B87+75+85+thinking 更高
Kimi K287+65+ SWE75+ GPQAAgent 榜强
GPT-4o(闭源参照)88+90+76+API 对照
注意

污染、提示词、thinking 开关 均可改变分数 ±10%。生产选型请跑 自有验证集。见 7.2.4

选型速查

需求优先考虑
开源可商用Qwen2.5/3、Llama、Mistral(查许可)
极致推理R1、Qwen3 think、o 系列 API
长文档MiniMax、YaRN 微调模型、RAG hybrid
Agent+代码Kimi K2、GLM-4.5、Claude/GPT API
可复现科研OLMo 2 + Dolma
边缘部署Gemma 1B/4B、Llama 3.2 1B、量化 GGUF

检查清单(自学 / 落地)

步骤动作
1阅读官方 primary source(报告、博客、模型卡)
2固定 prompt 与解码参数,在自有验证集上建基线
3记录延迟、成本、上下文长度与是否启用思考模式
4与相邻章节对照,画出与上下游模块的数据流
5paper-reading 或本大纲相关节做深度笔记

常见误区

误区澄清
公开基准 = 产品表现必须用业务端到端任务回归
长窗口 = 长理解需 Needle + 真实文档任务验证
单次实验可定论固定随机种子、数据版本与评测脚本

延伸练习

相关章节