方法对比与适用场景
要解决的问题
后训练对齐方法激增:RLHF、DPO、IPO、KTO、ORPO、SimPO、OPD、Constitutional、RLAIF 等,团队难以选型。本节用 统一维度 对比,并给出 场景化建议(非绝对排名;实际需 ablation)。
核心概念
对比维度:
| 维度 | RLHF (PPO) | DPO / IPO | KTO | ORPO / SimPO | OPD |
|---|---|---|---|---|---|
| 需 RM | 是 | 否(隐式) | 否 | 否 | 否(需教师或自蒸馏 privileged) |
| 需 | 是 | 是(SimPO 否) | 可选 | ORPO 弱 / SimPO 否 | 常是(ExOPD 可换 ref) |
| 偏好形式 | 排序或分数 | 成对 | 单标签 | 成对 | 教师 logit / 标准解(OPSD) |
| 在线采样 | 原生 | 通常离线 | 离线 | 离线 | 原生 |
| 工程复杂度 | 高 | 中 | 中 | 中低 | 中高(教师推理) |
| 稳定性 | 低–中 | 中–高 | 中 | 中–高 | 中(依赖师生匹配) |
损失速查(详见各节):
- PPO: + value + 可选熵。
- DPO:。
- RM:。
方法 / 场景选型
推荐场景(经验性)
| 场景 | 倾向方案 |
|---|---|
| 开源 7B 聊天 | SFT → DPO(或 ORPO 单阶段) |
| 噪声众包偏好 | IPO 或过滤后 DPO |
| 仅点赞/点踩 | KTO |
| 省显存、无 ref | SimPO(注意长度偏差) |
| 大厂多轮迭代、有推理集群 | RLHF 或 在线 RL + 定期 DPO 重置 |
| 强教师 + 长 CoT / 推理蒸馏 | OPD、OPSD、或 RLVR→OPSD |
| 旗舰→小模型、无偏好对 | OPD / ExOPD;见 5.4.2 蒸馏 |
| 安全+原则驱动 | Constitutional AI + 可选 DPO |
与 PEFT 结合:7B 全参 DPO 显存紧,优先 QLoRA + DPO。