Qwen3:思考与非思考统一
报告信息
| 项目 | 内容 |
|---|---|
| 机构 | 阿里巴巴通义团队 |
| 发布 | 2025 年 5 月 |
| 旗舰 | Qwen3-235B-A22B(235B / 22B 激活)等 |
| 官方报告 | arXiv:2505.09388 |
| 许可 | Apache 2.0 |
定位与问题
解决「Chat 模型 vs 推理模型」分裂:用 同一权重 通过 /think、/no_think 切换快慢模式,并引入 思考预算(Thinking Budget) 控制推理 token,对标 DeepSeek-R1、o 系列推理产品。