自我改进与自我批评
要解决的问题
对齐不仅是「拟合外部标签」,还可让模型 生成 → 批评 → 修订 自身输出,把错误消灭在训练数据或迭代环内。该范式支撑 Constitutional AI、RLAIF、以及研究界的 self-rewarding / self-play 对齐。本节梳理机制、与 Agent 自我进化的边界,及工程风险。
核心概念
| 环节 | 输入/输出 | 作用 |
|---|---|---|
| Generate | 初始候选 | |
| Critique | 批评文本 | 定位违规/逻辑漏洞 |
| Revise | 产出改进回复 | |
| Judge | 比较 | 构造偏好或 SFT 目标 |
与 推理时 self-refine 区别:训练期把修订轨迹 写入参数;推理期仅 prompt 链式反思不更新权重。
方法 / 典型管线
1. Constitutional 式自我修订
2. 自我奖励(Self-Rewarding)
- 模型为自己回复打分 → 构造偏好(Yuan et al., 2024 等)。
- 风险:分数膨胀、风格自恋;需外部 anchor(小人类集或规则)。
3. 与 Agent 自我对弈
- 代码/工具任务用 执行反馈 验证(非纯语言 judge)。
- 领读:Self-Play with Execution Feedback、Self-Play Finetune。
- 与对齐交叉:成功轨迹 → SFT,失败 → 负例或 DPO 。
4. 多轮批评深度
- 单轮批评可能浅;多轮 增成本但减漏网有害内容。
- 个人理解:收益递减点约在 2–3 轮,需任务级 ablation。
工程实践
| 实践 | 说明 |
|---|---|
| 隔离环境 | 生成有害/漏洞代码用于训练时沙箱执行 |
| 法官独立 | 批评模型与策略模型 不同 checkpoint 减同源偏见 |
| 数据去重 | 修订前后 n-gram 过近则丢弃(无信息增益) |
| 监控 | 修订率、平均改动长度、人工抽检修订质量 |
成本:≈ 3× 推理 token(生成+批评+修订)每样本;适合 高价值 安全与推理数据。
代表工作
- Bai et al., 2022 — CAI 修订链。
- Yuan et al., 2024 — Self-Rewarding Language Models.
- Chen et al., 2024 — Self-Play fine-tuning(领读).
局限与注意点
- 错误批评 会教模型学会「表面道歉仍有害」或「过度拒绝」。
- 自我循环 without 人类锚定 → 偏好漂移(与 4.3.5 reward hacking 同源)。
- 评测应用 held-out 人类 与 外部红队,不能只看 AI judge 一致率。
- 法规与伦理:自动生成有害内容用于训练需 审批流程(组织级)。
批评 prompt 结构(模板要素)
- 角色:中立审计员,非对话助手。
- 原则:逐条列出宪法编号,要求引用违反条款。
- 输出格式:
违规条款: …/建议修订: …,便于解析。 - 禁止:批评环节生成全新长篇替代答案(避免任务漂移)。
修订 prompt 再基于批评 只改必要句,降低过度改写带来的信息损失。
质量门禁
- 若 与 的 ROUGE-L ,丢弃(修订无效)。
- 若修订后仍触发 毒性分类器,降权或人工复核。
- 记录 批评 token 长度;过长批评常带跑题。