长 CoT 的训练范式
要解决的问题
推理模型在回答前生成 数千至上万 token 的内部思考(长 Chain-of-Thought)。如何 SFT 冷启动、RL 拉长、抑制无效复读,并兼容上下文窗口与 推理成本,是 R1/o1 路线的训练核心,而非单纯提示词 ``。
核心概念
| 阶段 | 目标 | 数据/信号 |
|---|---|---|
| 冷启动 SFT | 可读、分步、模板稳定 | 长 CoT 标注或强模型蒸馏 |
| RL 扩展 | 自我验证、回溯、反思 | RLVR + GRPO(6.3.1) |
| 后处理 SFT | 语言一致、拒答合规 | 人类或规则过滤 |
| 蒸馏 | 小模型继承 | 长链 → 短学生(可选) |
长度与性能(经验,待验证):
R1 论文报告 「aha moment」:RL 中出现自发重新检验步骤。
方法 / 数据构造
- 标注:人工写步骤;或 o1/R1 生成后人工筛。
- 模板:
、等分隔思考与答案,便于解析与 5.1.3 停止。 - RL 正则:长度惩罚 防无限啰嗦;与正确性 reward 平衡。
- 上下文:32k–128k 训练与 5.2 KV 部署对齐。
工程实践
- 推理:解析器只把 `` 后内容给用户;thinking 可计费。
- 监控:平均 CoT 长度、反思关键词频率、无效循环检测。
- 评测:AIME 固定 max_tokens 足够大。
代表工作
- DeepSeek-R1(paper-reading)
- QwQ-32B-Preview;OpenAI o1 博客
- 技术报告 8.1.2 R1
实践检查清单
- 固定评测/推理配置(温度、max_tokens、parser 版本)便于回归
- 记录硬件:GPU 型号、驱动、框架 commit
- 对比基线:未优化前 TTFT/TPOT 或 Acc
- 文档化失败案例:OOM、解析失败率、拒答率
- 交叉阅读本章「相关章节」避免孤立优化
局限与注意点
- 长 CoT 不保证 正确;6.1.4 多步瓶颈 仍在。
- 多语言混杂需专门 SFT 修复(R1 披露)。
- 蒸馏到短模型可能丢失深度思考,需单独评测。
术语速记
正文英文术语与开源实现(GitHub、Hugging Face)命名一致,便于检索源码与 Issue。
延伸阅读
- 本仓库 LLMs 入口 可回溯全局大纲;修改单点优化前建议先读上下游章节链接。
- 技术报告精读见
llms/08-technical-reports/与 paper-reading 专栏。 - 工程复现优先锁定:框架版本 + 量化格式 + 评测 harness commit,三者缺一即难以对齐论文数字。
相关章节
- 同章:6.3.1 GRPO · 6.3.2 RLVR · 6.3.4 自博弈
- 测试时:6.2.1 o1 · 6.2.5 Scaling
- 提示词:
docs/02-prompt-engineering/CoT 章节