跳到主要内容

Qwen2.5

技术报告：Qwen2.5 Technical Report | 生态：Qwen GitHub

要解决的问题

在 Apache 2.0 开源协议下，提供 0.5B–72B 稠密 + MoE 全尺寸矩阵，覆盖多语言、代码、数学与 Agent 工具调用，作为 Qwen3 与行业应用的 稳定基座代。

核心规格（系列概览）

维度	要点
规模	稠密至 72B；MoE Qwen2.5-72B-A14B 等
上下文	主流 128K（部分变体支持扩展）
语言	29+ 语言预训练与对齐
能力侧重	代码（HumanEval+）、数学、长文本、Function Call

架构与训练

骨干：GQA Transformer，RoPE 位置编码。
预训练 ~18T tokens 量级（以官方报告为准），高质量代码与数学爬取/合成。
后训练：SFT + RLHF/DPO 类偏好优化 → Instruct / Coder 变体。

产品矩阵

变体	场景
Qwen2.5-Instruct	通用对话与指令
Qwen2.5-Coder	IDE、仓库级代码
Qwen2.5-Math	数学竞赛风格
VL	多模态（图文，见官方模型卡）

工程实践

推理：vLLM、SGLang、llama.cpp（GGUF 社区转换）；注意 tokenizer 与 chat template。
微调：LLaMA-Factory、Axolotl、Unsloth；小模型适合边缘部署。
Agent：原生 tool / function call 模板，与 docs 区 Agent 章节配合。

与 Qwen3 的关系

	Qwen2.5	Qwen3
推理模式	独立 Coder/Math 模型	统一 /think 双模式
语言	29+	119
MoE 旗舰	72B-A14B	235B-A22B

升级路径见 8.2.2 Qwen3。

局限与注意点

长上下文 Needle 与真实 RAG 场景仍有差距（见 9.1 长上下文）。
评测需注明 模型尺寸与是否 CoT。
第三方量化（GPTQ/AWQ）可能损伤代码精度。

学习路径

本页为 第八部分大纲摘要。数据配比、基准表与领读见 Qwen2.5 技术报告领读。

部署与评测检查清单

项	说明
权重版本	核对 Hugging Face revision 与 `config.json`
Chat template	与官方 tokenizer 模板一致，避免 silently truncate
思考模式	明确 API 字段（reasoning / think budget）
成本	测 prefill+decode $/1M tokens @ 典型并发
合规	许可、地域、日志留存策略

与领读配合

本页 不重复 paper-reading 全文；领读负责实验细节与引用索引。
更新模型版本时：先改 paper-reading，再回本页改摘要表。

相关章节

续作：8.2.2 Qwen3
分词：3.2 Tokenization
评估：7.1 基准