跳到主要内容

DeepSeek-R1(纯 RL 激发推理 + GRPO)

技术报告:arXiv:2501.12948 | 基座:8.1.1 DeepSeek-V3

要解决的问题

能否 不靠人工 CoT 标注,仅靠 强化学习 在强基座上激发 长链数学/代码推理,并开源权重与训练思路,推动 2025「推理模型」产品形态?

核心概念

概念说明
R1-Zero跳过 SFT,直接 RL → 可读性较差但证明 RL 可激发推理
R1冷启动 SFT + 大规模 RL → 可读 CoT + 强推理
GRPOGroup Relative Policy Optimization:组内相对奖励,无需 critic
蒸馏大模型 CoT 蒸馏到小稠密模型(Qwen/Llama 等)

训练流程(简图)

GRPO 要点

  • 对同一 prompt 采样一组输出,用 组内均值/排名 作基线,降低方差。
  • 奖励:答案正确性(数学、代码执行)、格式约束等;KL 约束贴近参考策略。
  • 详见 6.3.1 GRPO

工程与产品

  • 推理:默认生成长 思考块;API 需区分 reasoning_content 与最终答案。
  • 成本:输出 token 数倍于普通 Chat;需 预算/早停(对比 8.2.2 Qwen3)。
  • 开源生态:R1 权重 + 蒸馏模型催生开源推理榜竞争。

与 o1 / Qwen3 三角

路线代表特点
独立推理模型R1专用权重,RL 主导
测试时扩展OpenAI o1/o3闭源,测试时 compute
统一双模式Qwen3/think 切换同一权重

局限与注意点

  • CoT 可读性≠可解释性;中间步骤可能幻觉。
  • RL 奖励黑客(格式刷分、短答案猜中)需持续监控。
  • 蒸馏小模型可能 丢失 大模型边缘能力。
学习路径

本页为 第八部分大纲摘要。GRPO 细节、实验曲线与领读笔记见 DeepSeek-R1 技术报告领读

部署与评测检查清单

说明
权重版本核对 Hugging Face revision 与 config.json
Chat template与官方 tokenizer 模板一致,避免 silently truncate
思考模式明确 API 字段(reasoning / think budget)
成本测 prefill+decode $/1M tokens @ 典型并发
合规许可、地域、日志留存策略

与领读配合

  • 本页 不重复 paper-reading 全文;领读负责实验细节与引用索引。
  • 更新模型版本时:先改 paper-reading,再回本页改摘要表。

外部参考(精选)

类型入口
原始报告见正文 arXiv / 官方博客链接
权重与配置Hugging Face config.json 与 model card
深度领读见上文 :::tiptech-report 索引
工具链附录 D 工具生态
术语附录 B 术语表

相关章节