跳到主要内容

RLHF 完整流程

要解决的问题

SFT 只能模仿标注员平均行为,无法显式优化 「哪一个回复更好」 的排序信号。基于人类反馈的强化学习(RLHF) 将偏好转化为可优化目标,使模型在有用性、诚实性、无害性等维度上更符合部署需求。本节给出工业界经典 三阶段流水线 及模块边界。

核心概念

阶段输入输出目标
1. SFT示范 (x,y)(x, y)πSFT\pi_{\text{SFT}}学会对话格式与基础能力
2. RM偏好 (x,yw,yl)(x, y_w, y_l)rϕ(x,y)r_\phi(x,y)拟合人类排序
3. RLprompt xxπθ\pi_\theta最大化奖励且贴近 πref\pi_{\text{ref}}

InstructGPT(Ouyang et al., 2022)确立该范式;ChatGPT 类产品的对齐栈多为其变体(具体配方未完全公开)。

方法 / 各阶段要点

阶段 1:SFT

  • 4.1 SFT;产出通常同时作为 RL 的参考策略 πref\pi_{\text{ref}}

阶段 2:奖励模型(RM)

  • Bradley-Terry 式偏好概率:
P(ywylx)=σ(rϕ(x,yw)rϕ(x,yl))P(y_w \succ y_l \mid x) = \sigma\big(r_\phi(x,y_w) - r_\phi(x,y_l)\big)

阶段 3:强化学习

  • 常用 PPO 在 token 或 sentence 级优化期望奖励,并加 KL 约束(4.3.34.3.4)。
  • 目标示意:
maxθ  ExD,yπθ[rϕ(x,y)βKL(πθ(x)πref(x))]\max_\theta \; \mathbb{E}_{x\sim \mathcal{D},\, y\sim \pi_\theta}\big[r_\phi(x,y) - \beta \,\mathrm{KL}(\pi_\theta(\cdot|x)\|\pi_{\text{ref}}(\cdot|x))\big]

工程实践

环节实践
系统四模型共存(policy、ref、RM、critic)或 offload;DeepSpeed、Megatron+RLHF 框架
数据偏好数据贵;常与 Constitutional AI / RLAIF 互补
替代DPO 省 RM+RL 工程;OPD 用教师稠密 logprob 替代 RM+稀疏 RL;大厂常混合使用
监控reward 均值、KL、response 长度、拒答率、毒性分类器

训练不稳定与 reward hacking 见 4.3.5 挑战

代表工作

  • Ouyang et al., 2022 — Training language models to follow instructions with human feedback.
  • Stiennon et al., 2020 — Learning to summarize with human feedback(RLHF 前身之一)。
  • 技术报告中的 RL 阶段:DeepSeek-R1Qwen3(以官方描述为准)。

局限与注意点

  • 全流程 算力与调试成本 远高于纯 SFT/DPO。
  • RM 偏见直接传导到策略;需多样化标注者与 red teaming
  • 开源复现常与商用 数据规模与迭代轮次 差距巨大,性能不可直接对标。

三阶段时间线与人力(示意)

阶段典型周期人力侧重
SFT天–周数据、模板
RM偏好标注、RM 评估
PPO周–月系统、调参、红队

瓶颈常在 偏好标注 而非 GPU;RLAIF 用 AI 标签换人工,但需质检。

最小 RLHF 栈(研究复现)

  • 7B:SFT → 7B RM → trl PPO,4×A100 级(随实现波动)。
  • 可先 RM + Best-of-N 验证偏好信号,再开 PPO,降低调试维度。

相关章节