跳到主要内容

Qwen3：思考与非思考统一

报告信息

项目	内容
机构	阿里巴巴通义团队
发布	2025 年 5 月
旗舰	Qwen3-235B-A22B（235B / 22B 激活）等
官方报告	arXiv:2505.09388
许可	Apache 2.0

定位与问题

解决「Chat 模型 vs 推理模型」分裂：用 同一权重 通过 /think、/no_think 切换快慢模式，并引入 思考预算（Thinking Budget） 控制推理 token，对标 DeepSeek-R1、o 系列推理产品。

架构要点

稠密 + MoE 全系列：0.6B–235B。
MoE：128 专家、激活 8 个；无共享专家 + 全局负载均衡损失，鼓励专家专精。
GQA + 128K 上下文。
多模态：部分版本支持图文（见官方模型列表）。

训练与数据

预训练约 36T+ tokens（报告）。
语言从 29 种扩展到 119 种。
强弱蒸馏：旗舰知识蒸馏到小模型，降低训练成本。

后训练与推理

SFT + RL；统一框架内训练思考与非思考行为。
思考预算：按任务复杂度分配 CoT 长度，权衡延迟与准确率。

关键结论

旗舰 MoE 在推理、代码、多语言上与当时开源/闭源前排模型竞争。
「单模型双模式」成为 2025 开源主流产品形态之一。

个人理解

Qwen3 与 GLM-4.5「混合推理」、DeepSeek-R1「独立推理模型」形成产品三角；做应用时优先评估 切换协议的 SDK 支持 与计费。

总结

Qwen3 = 统一推理界面 + MoE 旗舰 + 119 语言；Apache 2.0 利于生态集成。

参考链接