跳到主要内容

Qwen3:思考与非思考统一

报告信息

项目内容
机构阿里巴巴通义团队
发布2025 年 5 月
旗舰Qwen3-235B-A22B(235B / 22B 激活)等
官方报告arXiv:2505.09388
许可Apache 2.0

定位与问题

解决「Chat 模型 vs 推理模型」分裂:用 同一权重 通过 /think/no_think 切换快慢模式,并引入 思考预算(Thinking Budget) 控制推理 token,对标 DeepSeek-R1、o 系列推理产品。

架构要点

  • 稠密 + MoE 全系列:0.6B–235B。
  • MoE:128 专家、激活 8 个;无共享专家 + 全局负载均衡损失,鼓励专家专精。
  • GQA + 128K 上下文。
  • 多模态:部分版本支持图文(见官方模型列表)。

训练与数据

  • 预训练约 36T+ tokens(报告)。
  • 语言从 29 种扩展到 119 种
  • 强弱蒸馏:旗舰知识蒸馏到小模型,降低训练成本。

后训练与推理

  • SFT + RL;统一框架内训练思考与非思考行为。
  • 思考预算:按任务复杂度分配 CoT 长度,权衡延迟与准确率。

关键结论

  • 旗舰 MoE 在推理、代码、多语言上与当时开源/闭源前排模型竞争。
  • 「单模型双模式」成为 2025 开源主流产品形态之一。

个人理解

Qwen3 与 GLM-4.5「混合推理」、DeepSeek-R1「独立推理模型」形成产品三角;做应用时优先评估 切换协议的 SDK 支持 与计费。

总结

Qwen3 = 统一推理界面 + MoE 旗舰 + 119 语言;Apache 2.0 利于生态集成。

参考链接