DeepSeek-R1（纯 RL 激发推理 + GRPO）

技术报告：arXiv:2501.12948 | 基座：8.1.1 DeepSeek-V3

要解决的问题

能否 不靠人工 CoT 标注，仅靠 强化学习 在强基座上激发 长链数学/代码推理，并开源权重与训练思路，推动 2025「推理模型」产品形态？

概念	说明
R1-Zero	跳过 SFT，直接 RL → 可读性较差但证明 RL 可激发推理
R1	冷启动 SFT + 大规模 RL → 可读 CoT + 强推理
GRPO	Group Relative Policy Optimization：组内相对奖励，无需 critic
蒸馏	大模型 CoT 蒸馏到小稠密模型（Qwen/Llama 等）

学习路径

本页为 第八部分大纲摘要。GRPO 细节、实验曲线与领读笔记见 DeepSeek-R1 技术报告领读。

项	说明
权重版本	核对 Hugging Face revision 与 `config.json`
Chat template	与官方 tokenizer 模板一致，避免 silently truncate
思考模式	明确 API 字段（reasoning / think budget）
成本	测 prefill+decode $/1M tokens @ 典型并发
合规	许可、地域、日志留存策略

类型	入口
原始报告	见正文 arXiv / 官方博客链接
权重与配置	Hugging Face `config.json` 与 model card
深度领读	见上文 `:::tip` 或 tech-report 索引
工具链	附录 D　工具生态
术语	附录 B　术语表