DeepSeek-R1(纯 RL 激发推理 + GRPO)
技术报告:arXiv:2501.12948 | 基座:8.1.1 DeepSeek-V3
要解决的问题
能否 不靠人工 CoT 标注,仅靠 强化学习 在强基座上激发 长链数学/代码推理,并开源权重与训练思路,推动 2025「推理模型」产品形态?
核心概念
| 概念 | 说明 |
|---|---|
| R1-Zero | 跳过 SFT,直接 RL → 可读性较差但证明 RL 可激发推理 |
| R1 | 冷启动 SFT + 大规模 RL → 可读 CoT + 强推理 |
| GRPO | Group Relative Policy Optimization:组内相对奖励,无需 critic |
| 蒸馏 | 大模型 CoT 蒸馏到小稠密模型(Qwen/Llama 等) |