奖励模型(Reward Model)训练
强化学习阶段需要 可微、可批量 的标量反馈,但真实场景下标注的偏好数据通常是成对数据而非绝对分值数据。奖励模型(Reward Model, RM) 学习从 映射到标量 ,使排序与标注一致,并作为 PPO 的 reward 信号(或用于 Best-of-N 采样)。
将「有用、无害、诚实」等多维偏好压成 单一标量 本身是有损的(信息瓶颈),工业界常用单一 RM 是工程权衡,而非理论最优;多目标 RM 见下文架构类型。
核心概念
偏 好数据:同一 prompt 下,标注者认为 (winner)优于 (loser)。
Bradley-Terry 假设下的 pairwise loss(BT 下极大似然估计的自然结果):
偏好模型的理论基础
Bradley-Terry(BT)为何是 logistic 形式:设每个回复有潜在效用 ,RM 学习 。在「奖励差决定胜率」假设下, 优于 的概率为:
对观测到的成对偏好做 MLE,即得上式 — 并非凭空给出的 loss,而是 BT 概率模型的对数似然。
Plackett-Luce(PL)与 BT 的区分:
| 模型 | 输入标注 | 适用场景 |
|---|---|---|
| Bradley-Terry | 二元偏好 | 最常见;标注员两两比较 |
| Plackett-Luce | 同一 下 个回复的 全排序 | 多元排序;可展开为多对 pairwise 近似训练 |
实践中 PL 全排序常 展开为多个 BT pairwise(如 个回复产生 对),实现简单但丢失排序内的强度信息。
BT / 标量 RM 的根本局限:
| 局限 | 说明 |
|---|---|
| 传递性假设 | BT 隐含 ;无法建模循环偏好() |
| 偏好强度压缩 | 「略好」与「好很多」在 loss 中权重相同,除非额外引入 margin |
| 标量信息瓶颈 | 多维偏好(有用 / 无害 / 诚实)投影到单一 ,不同维度冲突时 RM 学出折中而非 Pareto 最优 |
| 分布外外推 | RM 仅在训练分布上可靠;新奇回复常虚高/虚低分 |
RM 架构类型
| 维度 | 类型 | RM 视角要点 |
|---|---|---|
| 判别式 vs 生成式 | 线性头标量 vs GenRM / LLM-as-a-Judge 输出判断或分数 | 判别式是经典 RLHF 默认;生成式可按 rubric 评多维度,但延迟高、需解析输出,见 7.2.2 LLM-as-a-Judge |
| ORM vs PRM | 对完整回复打分 vs 对推理链 逐步 打分 | 本章经典 RM 即 ORM(Outcome RM);PRM(Process RM)用于 CoT 信用分配、MCTS,见 6.2.3 PRM vs ORM |
| 单目标 vs 多目标 | 单一标量 vs 多头 + 门控混合 | ArmoRM 等为每个目标(helpfulness、safety 等)设独立 head,再按 prompt 门控加权,缓解标量瓶颈 |
| Pointwise vs Pairwise | 单条打分 vs 成对比较 | 训练几乎总是 pairwise;推理时 PPO / BoN 对单条 打分,不要求 batch 内同时存在 loser |
判别式 RM 默认配置:
| 设计选择 | 常见做法 |
|---|---|
| 骨干 | 在 SFT 模型上加 线性头 输出标量;或最后一 token hidden |
| 输入格式 | 拼接 prompt+response,仅在 response 末 token 取分 |
| 归一化 | 批内或 running mean 标准化 reward,稳定 PPO |
| 数据 | 每 多条回复排序 → 可展开为多对 pairwise |
方法 / 训练流程
训练技巧与损失变体
InstructGPT batch 技巧(Ouyang et al., 2022):将 同一 prompt 下的多条 pairwise 放入同一 batch,使 RM 在 batch 内做相对比较、学习相对排序而非绝对分数。这是 RM 工程里比 loss 公式更关键的实现细节,可显著减轻 RM 对绝对 reward 尺度的过拟合。
平局(tie)样本:BT 默认严格二元( 或 )。现实标注中大量「差不多」样本,常见处理:
- 丢弃 tie 对,最简单;
- 降权 tie 样本的 loss;
- 扩展为三分类(win / lose / tie),需改 loss 形式。
标注指南应明确何时标 tie(如「两者均可用且无明显优劣」)。
Margin / ranking 变体:若标注含偏好强度,可在 loss 中加入 margin :
可来自标注置信度或排序间隔。SimPO 等偏好优化方法中的 margin 概念类似,见 4.4.2 IPO/KTO/ORPO/SimPO。
训练期防漂移正则:对 reward 绝对值加 L2 约束 ,防止 RM 输出尺度在训练中无限漂移、导致 PPO 阶段 value network 难学。这与后文 Platt scaling(部署前校准)互补:前者在训练期、后者在接入 PPO 前。
数据质量
- 标注指南:定义「更好」维度(有用、无害、诚实),避免标注员各判各的。
- 一致性:同一 多人标注;低一致样本丢弃或降权。
- 对抗样本:含诱导有害回复的 prompt,防止 RM 只学「更长=更好」;含 应纠正用户 的样本以抑制谄媚(见下文 hacking 形态)。
与策略的关系
- RM 常在 SFT 权重 上初始化,分布更接近部署模型。
- 过拟合 RM:训练集 reward 很高但人类观感差 → 需 hold-out prompt 与定期 人工校准。