Qwen2.5
技术报告:Qwen2.5 Technical Report | 生态:Qwen GitHub
要解决的问题
在 Apache 2.0 开源协议下,提供 0.5B–72B 稠密 + MoE 全尺寸矩阵,覆盖多语言、代码、数学与 Agent 工具调用,作为 Qwen3 与行业应用的 稳定基座代。
核心规格(系列概览)
| 维度 | 要点 |
|---|---|
| 规模 | 稠密至 72B;MoE Qwen2.5-72B-A14B 等 |
| 上下文 | 主流 128K(部分变体支持扩展) |
| 语言 | 29+ 语言预训练与对齐 |
| 能力侧重 | 代码(HumanEval+)、数学、长文本、Function Call |
架构与训练
- 骨干:GQA Transformer,RoPE 位置编码。
- 预训练 ~18T tokens 量级(以官方报告为准),高质量代码与数学爬取/合成。
- 后训练:SFT + RLHF/DPO 类偏好优化 → Instruct / Coder 变体。
产品矩阵
| 变体 | 场景 |
|---|---|
| Qwen2.5-Instruct | 通用对话与指令 |
| Qwen2.5-Coder | IDE、仓库级代码 |
| Qwen2.5-Math | 数学竞赛风格 |
| VL | 多模态(图文,见官方模型卡) |
工程实践
- 推理:vLLM、SGLang、llama.cpp(GGUF 社区转换);注意 tokenizer 与 chat template。
- 微调:LLaMA-Factory、Axolotl、Unsloth;小模型适合边缘部署。
- Agent:原生 tool / function call 模板,与
docs区 Agent 章节配合。
与 Qwen3 的关系
| Qwen2.5 | Qwen3 | |
|---|---|---|
| 推理模式 | 独立 Coder/Math 模型 | 统一 /think 双模式 |
| 语言 | 29+ | 119 |
| MoE 旗舰 | 72B-A14B | 235B-A22B |
升级路 径见 8.2.2 Qwen3。
局限与注意点
- 长上下文 Needle 与真实 RAG 场景仍有差距(见 9.1 长上下文)。
- 评测需注明 模型尺寸与是否 CoT。
- 第三方量化(GPTQ/AWQ)可能损伤代码精度。
学习路径
本页为 第八部分大纲摘要。数据配比、基准表与领读见 Qwen2.5 技术报告领读。
部署与评测检查清单
| 项 | 说明 |
|---|---|
| 权重版本 | 核对 Hugging Face revision 与 config.json |
| Chat template | 与官方 tokenizer 模板一致,避免 silently truncate |
| 思考模式 | 明确 API 字段(reasoning / think budget) |
| 成本 | 测 prefill+decode $/1M tokens @ 典型并发 |
| 合规 | 许可、地域、日志留存策略 |
与领读配合
- 本页 不重复 paper-reading 全文;领读负责实验细节与引用索引。
- 更新模型版本时:先改 paper-reading,再回本页改摘要表。
相关章节
- 续作:8.2.2 Qwen3
- 分词:3.2 Tokenization
- 评估:7.1 基准