跳到主要内容

长 CoT 的训练范式

要解决的问题

推理模型在回答前生成 数千至上万 token 的内部思考(长 Chain-of-Thought)。如何 SFT 冷启动、RL 拉长、抑制无效复读,并兼容上下文窗口与推理成本,是 R1/o1 路线的训练核心,而非单纯提示词 ``。

核心概念

阶段目标数据/信号
冷启动 SFT可读、分步、模板稳定长 CoT 标注或强模型蒸馏
RL 扩展自我验证、回溯、反思RLVR + GRPO(6.3.1
后处理 SFT语言一致、拒答合规人类或规则过滤
蒸馏小模型继承长链 → 短学生(可选)

长度与性能(经验,待验证):

Acc with LCoT until Lcrit,L>Lcritnoise, cost\text{Acc} \uparrow \text{ with } L_{\text{CoT}} \text{ until } L_{\text{crit}},\quad L > L_{\text{crit}} \Rightarrow \text{noise, cost}

R1 论文报告 「aha moment」:RL 中出现自发重新检验步骤。

方法 / 数据构造

  1. 标注:人工写步骤;或 o1/R1 生成后人工筛。
  2. 模板 等分隔思考与答案,便于解析与 5.1.3 停止
  3. RL 正则:长度惩罚 λy-\lambda |y| 防无限啰嗦;与正确性 reward 平衡。
  4. 上下文:32k–128k 训练与 5.2 KV 部署对齐。

工程实践

  • 推理:解析器只把 `` 后内容给用户;thinking 可计费。
  • 监控:平均 CoT 长度、反思关键词频率、无效循环检测。
  • 评测AIME 固定 max_tokens 足够大。

代表工作

实践检查清单

  • 固定评测/推理配置(温度、max_tokens、parser 版本)便于回归
  • 记录硬件:GPU 型号、驱动、框架 commit
  • 对比基线:未优化前 TTFT/TPOT 或 Acc
  • 文档化失败案例:OOM、解析失败率、拒答率
  • 交叉阅读本章「相关章节」避免孤立优化

局限与注意点

  • 长 CoT 不保证 正确;6.1.4 多步瓶颈 仍在。
  • 多语言混杂需专门 SFT 修复(R1 披露)。
  • 蒸馏到短模型可能丢失深度思考,需单独评测。

术语速记

正文英文术语与开源实现(GitHub、Hugging Face)命名一致,便于检索源码与 Issue。

延伸阅读

  • 本仓库 LLMs 入口 可回溯全局大纲;修改单点优化前建议先读上下游章节链接。
  • 技术报告精读见 llms/08-technical-reports/paper-reading 专栏。
  • 工程复现优先锁定:框架版本 + 量化格式 + 评测 harness commit,三者缺一即难以对齐论文数字。

相关章节