RLHF 的挑战(reward hacking、模式坍塌)
要解决的问题
RLHF 在论文中流程清晰,落地却常遇 训练发散、人类观感变差、能力回退。本节归纳高频失败模式:reward hacking、模式坍塌、对齐税,并给出监测与缓解思路,便于调试与方案选型(是否改用 DPO 等)。
核心概念
| 现象 | 表现 | 机制 |
|---|---|---|
| Reward hacking | RM 分高但人觉差 | 策略利用 RM 弱点(更长、列表、讨好语气) |
| 模式坍塌 | 回复千篇一律 | 熵塌缩、PPO 过度收敛到窄模式 |
| 对齐税 | MMLU/GSM8K 降 | 优化偏好牺牲通用能力 |
| RM 外推失败 | 新奇回复评分乱 | RM 训练分布外不可靠 |
方法 / 缓解策略
1. Reward hacking
- RM 数据:加入长度归一、风格多样、对抗性「钻分」样本再标注。
- 多 RM 集成 或 规则约束(毒性分类器、格式校验)作为 gate。
- Best-of-N + 人工 校准 RM 尺度;定期 重训 RM 于最新策略 rollout(在线 RL,成本高)。
- 参考 Meta Reward LM 的 meta-judge 思路(待验证工程 ROI)。