跳到主要内容

方法对比与适用场景

要解决的问题

后训练对齐方法激增:RLHF、DPO、IPO、KTO、ORPO、SimPO、OPD、Constitutional、RLAIF 等,团队难以选型。本节用 统一维度 对比,并给出 场景化建议(非绝对排名;实际需 ablation)。

核心概念

对比维度:

维度RLHF (PPO)DPO / IPOKTOORPO / SimPOOPD
需 RM否(隐式)否(需教师或自蒸馏 privileged)
πref\pi_{\text{ref}}是(SimPO 否)可选ORPO 弱 / SimPO 否常是(ExOPD 可换 ref)
偏好形式排序或分数成对单标签成对教师 logit / 标准解(OPSD)
在线采样原生通常离线离线离线原生
工程复杂度中低中高(教师推理)
稳定性低–中中–高中–高中(依赖师生匹配)

损失速查(详见各节):

  • PPOLCLIP\mathcal{L}^{\text{CLIP}} + value + 可选熵。
  • DPOLDPO=Elogσ(βΔlogπwβΔlogπl)\mathcal{L}_{\text{DPO}} = -\mathbb{E}\log\sigma(\beta\Delta\log\pi_w - \beta\Delta\log\pi_l)
  • RMlogσ(r(x,yw)r(x,yl))-\log\sigma(r(x,y_w)-r(x,y_l))

方法 / 场景选型

推荐场景(经验性)

场景倾向方案
开源 7B 聊天SFT → DPO(或 ORPO 单阶段)
噪声众包偏好IPO 或过滤后 DPO
仅点赞/点踩KTO
省显存、无 refSimPO(注意长度偏差)
大厂多轮迭代、有推理集群RLHF 或 在线 RL + 定期 DPO 重置
强教师 + 长 CoT / 推理蒸馏OPD、OPSD、或 RLVR→OPSD
旗舰→小模型、无偏好对OPD / ExOPD;见 5.4.2 蒸馏
安全+原则驱动Constitutional AI + 可选 DPO

PEFT 结合:7B 全参 DPO 显存紧,优先 QLoRA + DPO

工程实践

选型后 必做

  1. 固定 prompt 集(200–500)做 pairwise win-rate
  2. 能力集(MMLU 子集、GSM8K)看 对齐税
  3. 安全探针(越狱、偏见)独立于 RM。
  4. 记录 β\beta、数据版本、模板 hash。

避免 仅看训练 loss 选方法;DPO loss 降不代表 Arena 升。

代表工作

  • 综合评测:Intel Neural Align 博客、Hugging Face alignment 教程(年份以官方为准)。
  • ORPO 领读:ORPO
  • 厂商披露:DeepSeek、Qwen、Llama 多写「SFT + RL/DPO」组合,见 第八部分技术报告

局限与注意点

  • 表格为 2024–2026 社区共识的粗粒度 归纳,新论文月月更新。
  • 同一方法不同 数据与 β\beta 可差 10+ Arena 分;不可只凭方法名决策。
  • Constitutional / RLAIF 与 DPO 正交,可串联而非互斥。

相关章节