方法对比与适用场景

要解决的问题

后训练对齐方法激增：RLHF、DPO、IPO、KTO、ORPO、SimPO、OPD、Constitutional、RLAIF 等，团队难以选型。本节用 统一维度 对比，并给出 场景化建议（非绝对排名；实际需 ablation）。

对比维度：

维度	RLHF (PPO)	DPO / IPO	KTO	ORPO / SimPO	OPD
需 RM	是	否（隐式）	否	否	否（需教师或自蒸馏 privileged）
需 $\pi_{\text{ref}}$	是	是（SimPO 否）	可选	ORPO 弱 / SimPO 否	常是（ExOPD 可换 ref）
偏好形式	排序或分数	成对	单标签	成对	教师 logit / 标准解（OPSD）
在线采样	原生	通常离线	离线	离线	原生
工程复杂度	高	中	中	中低	中高（教师推理）
稳定性	低–中	中–高	中	中–高	中（依赖师生匹配）

损失速查（详见各节）：

PPO： $\mathcal{L}^{\text{CLIP}}$ + value + 可选熵。
DPO： $\mathcal{L}_{\text{DPO}} = -\mathbb{E}\log\sigma(\beta\Delta\log\pi_w - \beta\Delta\log\pi_l)$ 。
RM： $-\log\sigma(r(x,y_w)-r(x,y_l))$ 。

与 PEFT 结合：7B 全参 DPO 显存紧，优先 QLoRA + DPO。

选型后必做：

避免 仅看训练 loss 选方法；DPO loss 降不代表 Arena 升。