跳到主要内容

Qwen2.5

技术报告:Qwen2.5 Technical Report | 生态:Qwen GitHub

要解决的问题

Apache 2.0 开源协议下,提供 0.5B–72B 稠密 + MoE 全尺寸矩阵,覆盖多语言、代码、数学与 Agent 工具调用,作为 Qwen3 与行业应用的 稳定基座代

核心规格(系列概览)

维度要点
规模稠密至 72B;MoE Qwen2.5-72B-A14B
上下文主流 128K(部分变体支持扩展)
语言29+ 语言预训练与对齐
能力侧重代码(HumanEval+)、数学、长文本、Function Call

架构与训练

  • 骨干:GQA Transformer,RoPE 位置编码。
  • 预训练 ~18T tokens 量级(以官方报告为准),高质量代码与数学爬取/合成。
  • 后训练:SFT + RLHF/DPO 类偏好优化 → Instruct / Coder 变体。

产品矩阵

变体场景
Qwen2.5-Instruct通用对话与指令
Qwen2.5-CoderIDE、仓库级代码
Qwen2.5-Math数学竞赛风格
VL多模态(图文,见官方模型卡)

工程实践

  • 推理:vLLM、SGLang、llama.cpp(GGUF 社区转换);注意 tokenizer 与 chat template。
  • 微调:LLaMA-Factory、Axolotl、Unsloth;小模型适合边缘部署。
  • Agent:原生 tool / function call 模板,与 docs 区 Agent 章节配合。

与 Qwen3 的关系

Qwen2.5Qwen3
推理模式独立 Coder/Math 模型统一 /think 双模式
语言29+119
MoE 旗舰72B-A14B235B-A22B

升级路径见 8.2.2 Qwen3

局限与注意点

  • 长上下文 Needle 与真实 RAG 场景仍有差距(见 9.1 长上下文)。
  • 评测需注明 模型尺寸与是否 CoT
  • 第三方量化(GPTQ/AWQ)可能损伤代码精度。
学习路径

本页为 第八部分大纲摘要。数据配比、基准表与领读见 Qwen2.5 技术报告领读

部署与评测检查清单

说明
权重版本核对 Hugging Face revision 与 config.json
Chat template与官方 tokenizer 模板一致,避免 silently truncate
思考模式明确 API 字段(reasoning / think budget)
成本测 prefill+decode $/1M tokens @ 典型并发
合规许可、地域、日志留存策略

与领读配合

  • 本页 不重复 paper-reading 全文;领读负责实验细节与引用索引。
  • 更新模型版本时:先改 paper-reading,再回本页改摘要表。

相关章节