Qwen3(思考/非思考统一 + 思考预算)
技术报告:arXiv:2505.09388 | 许可:Apache 2.0
要解决的问题
避免「Chat 模型」与「推理模型」权重分裂:用户通过 /think、/no_think(或 API 等价字段)在同一 checkpoint 上切换快慢路径,并用 Thinking Budget 控制推理 token 与延迟。
核心架构
| 项目 | 说明 |
|---|---|
| 系列 | 0.6B–235B,稠密 + MoE |
| MoE 旗舰 | 235B 总参 / 22B 激活;128 专家、每 token 8 专家,无共享专家 |
| 注意力 | GQA,128K 上下文 |
| 多模态 | 部分 checkpoint 支持图文(以官方列表为准) |
训练亮点
- 预训练 36T+ tokens;语言扩展至 119 种。
- 强弱蒸馏:旗舰 → 小模型,降低小尺寸训练成本。
- 后训练:SFT + RL,在 统一框架 内学习思考与非思考行为。
思考预算(Thinking Budget)
- 简单任务:
/no_think或低 budget → 接近普通 Chat 延迟。 - 复杂数学/代码:提高 budget → 更长 CoT,对标 R1/o 系列。
- 产品需暴露 预算旋钮 与计费策略(见 6.2 测试时 compute)。
与竞品形态对比
| 厂商 | 形态 |
|---|---|
| DeepSeek | R1 独立推理权重 |
| OpenAI | o 系列 测试时扩展(闭源) |
| Qwen3 | 单权重双模式 + budget |
| GLM-4.5 | ARC 统一 Agent/推理/代码 |
工程实践
- SDK 需实现 模式切换 与
enable_thinking类参数。 - 评测报告应分列 thinking / non-thinking 分数。
- 小模型蒸馏版适合边缘;旗舰 MoE 需专家并行推理栈。
局限与注意点
- 高 budget 下 成本接近 独立推理模型。
/think协议未统一行业标准,跨框架移植需适配 template。- 多语言 119 种 质量不均,低资源语言需单独评测。
学习路径
本页为 第八部分大纲摘要。完整基准、MoE 均衡与领读笔记见 Qwen3 技术报告领读。
部署与评测检查清单
| 项 | 说明 |
|---|---|
| 权重版本 | 核对 Hugging Face revision 与 config.json |
| Chat template | 与官方 tokenizer 模板一致,避免 silently truncate |
| 思考模式 | 明确 API 字段(reasoning / think budget) |
| 成本 | 测 prefill+decode $/1M tokens @ 典型并发 |
| 合规 | 许可、地域、日志留存策略 |
与领读配合
- 本页 不重复 paper-reading 全文;领读负责实验细节与引用索引。
- 更新模型版本时:先改 paper-reading,再回本页改摘要表。
相关章节
- 前代:8.2.1 Qwen2.5
- 对比 R1:8.1.2 DeepSeek-R1
- 采样与长度:5.1.2 采样策略