跳到主要内容

DeepSeek-R1:GRPO 与推理能力激发

报告信息

项目内容
机构深度求索(DeepSeek-AI)
发布2025 年 1 月(后发表于 Nature)
基座DeepSeek-V3-Base 同规模 MoE
官方报告arXiv:2501.12948
代码 / 权重GitHubHugging Face

定位与问题

OpenAI o1 开启「推理时计算」范式后,R1 探索 能否用纯强化学习(少依赖人工 CoT 标注)在开源权重上复现长链推理、自验证等行为,并支持 蒸馏到小模型

架构要点

  • 基座架构与 DeepSeek-V3 一致(671B / 37B 激活,MLA + MoE)。
  • 差异主要在 后训练目标与采样行为(长 CoT、反思、语言混杂等涌现现象)。

训练与数据

DeepSeek-R1-Zero

  • 跳过 SFT,在可验证奖励(数学、代码判题等)上用 GRPO 训练。
  • 涌现自我验证、反思、长思维链;但可读性与语言混杂存在问题。

DeepSeek-R1

  • 冷启动 少量高质量 CoT 数据做 SFT,再交替 RL 与拒绝采样 SFT。
  • GRPO:去掉 PPO Critic,用组内 reward 均值/方差作基线,降低显存。

蒸馏

  • 将 R1 推理行为蒸馏到 1.5B–70B 稠密模型,小模型推理能力提升显著。

后训练与推理

  • 面向数学、代码、逻辑推理任务;推理时需更长生成预算。
  • 开源「推理模型」生态的重要参照(与 Qwen3 /think、GLM 混合推理等路线对照阅读)。

关键结论

  • R1 在 AIME、Codeforces 等基准上接近 o1 水平(以报告发布时点为准)。
  • 证明 RL + 可验证奖励 可激发推理,不必完全依赖人工长 CoT 数据集。

个人理解

R1 与 V3 的分工清晰:V3 卖综合能力与成本,R1 卖 RL 方法论。读 GRPO 时可对照 PPO/DPO 章节;读 Agent 应用时需注意延迟与 token 成本。

总结

DeepSeek-R1 = 开源推理模型的 范式论文:R1-Zero 探索极限,R1 工程化可读性,蒸馏打通「大思考 → 小部署」。

参考链接