跳到主要内容

DeepSeek-R1 与开源推理模型

要解决的问题

o1 闭源后,社区需要可复现的 长链推理 + RL 配方与权重。DeepSeek-R1 用 纯强化学习(以 GRPO 为主)在基座上激发自我验证、反思、长 CoT,并开源 R1、R1-Zero、蒸馏版,带动 QwQ、Marco-o1、Open-R1 等生态。

核心概念

模型说明
DeepSeek-R1-Zero跳过 SFT,纯 RL,可读性较差
DeepSeek-R1冷启动 SFT + RL,平衡可读与性能
R1-Distill大模型 CoT 蒸馏到小模型(Qwen/Llama)

GRPO 目标(见 6.3.1):组内相对优势,无需单独 Critic:

LGRPOE[πθπoldA^iβKL(πθπref)]\mathcal{L}_{\text{GRPO}} \approx -\mathbb{E}\left[ \frac{\pi_\theta}{\pi_{\text{old}}} \hat{A}_i - \beta \text{KL}(\pi_\theta \| \pi_{\text{ref}}) \right]

可验证奖励:数学/代码答案正确则 r=1r=1,驱动长推理涌现。

方法 / 训练要点(论文级)

  1. 冷启动:少量长 CoT SFT 稳定格式(`` 等模板)。
  2. RL 阶段:多采样 rollout,规则验证器给 reward;KL 约束防偏离基座。
  3. 语言混合:RL 中出现中英混杂,需后续 SFT 修复(论文 ablation)。
  4. 蒸馏:强模型生成数据,小模型 SFT 获部分推理力(5.4.2 蒸馏)。

工程实践

  • 部署:HF deepseek-ai/DeepSeek-R1;vLLM 支持长上下文与 thinking 解析。
  • 成本:单题 8k–32k 输出常见;配合 5.2.4 Prefix cache
  • 评测:AIME 2024、MATH-500、LiveCodeBench;固定采样与 extractor。

代表工作

学习路径

架构表、训练时间线与个人拆解以 paper-reading 领读 为准;本节为第六部分推理专题速查。

实践检查清单

  • 固定评测/推理配置(温度、max_tokens、parser 版本)便于回归
  • 记录硬件:GPU 型号、驱动、框架 commit
  • 对比基线:未优化前 TTFT/TPOT 或 Acc
  • 文档化失败案例:OOM、解析失败率、拒答率
  • 交叉阅读本章「相关章节」避免孤立优化

局限与注意点

  • R1-Zero 可读性差,产品用 R1 主版本。
  • 纯 RL 幻觉仍存在;需拒绝采样与安全对齐(第四部分)。
  • 蒸馏小模型上限低于 R1 本体的 AIME 分数。

延伸阅读

  • 本仓库 LLMs 入口 可回溯全局大纲;修改单点优化前建议先读上下游章节链接。
  • 技术报告精读见 llms/08-technical-reports/paper-reading 专栏。
  • 工程复现优先锁定:框架版本 + 量化格式 + 评测 harness commit,三者缺一即难以对齐论文数字。

相关章节