跳到主要内容

Constitutional AI 原理(Anthropic)

要解决的问题

纯人类偏好标注 昂贵、慢、不一致,且难以覆盖长尾有害场景。Constitutional AI(CAI) 用书面 「宪法」原则(如无害、尊重隐私)指导模型 自我批评与修订,再用 AI 偏好训练 RM 或直接 RL,在减少人工的同时强化 无害与诚实 行为。

核心概念

阶段名称作用
监督阶段RLAIF-S / 修订数据模型按原则批评并改写有害回复 → SFT 数据
强化阶段RLAIF-RAI 比较修订前后回复 → 训练 RM → RL(或转 DPO)

「宪法」示例类型(非完整列表):

  • 选择 最有帮助且最无害 的回复。
  • 避免鼓励非法、仇恨、医疗误导。
  • 承认不确定而非编造。

方法 / 流程要点

  1. 生成:对 red-team prompt 采样初始回复(可能含问题内容)。
  2. 批评:用原则链 prompt「指出违反哪条原则」。
  3. 修订:生成符合宪法的 yy'
  4. 偏好对(y,y)(y', y) 作为 yw,yly_w, y_l 进入 RMDPO
  5. 迭代:多轮宪法细化(个人理解:后期原则可更细粒度)。

与标准 RLHF 区别:反馈主体 从人变为 对齐强的 AI 裁判(仍需人审宪法与抽检)。

工程实践

实践说明
宪法版本化政策变更时重跑数据管线
法官模型需强于被训模型或专门 RM;防 judge 偏见
红队外部攻击 prompt 集与 CAI 训练集分离
合规生成有害内容用于训练需在隔离环境,有审计日志

可与 SFT 混合:示范「如何拒答」而非仅惩罚有害。

代表工作

  • Bai et al., 2022 — Constitutional AI: Harmlessness from AI Feedback(Anthropic).
  • 后续 Claude 技术博客对无害训练的描述(非全部开源)。
  • 相关 AI 反馈:Meta Reward LM 领读

局限与注意点

  • AI 法官 错误对齐 会把偏见写进策略(「过度拒答」常见)。
  • 宪法 英文中心 时多语言无害性需单独原则。
  • CAI 不替代 法律合规审查与上线前人工评估。
  • RLAIF 术语常混用:CAI 强调 原则文本,RLAIF 强调 反馈来源

宪法撰写建议

  • 可执行:避免「要善良」类空话,改为可检查行为(如不输出具体入侵步骤)。
  • 分层:核心红线(违法、自伤)与风格偏好(简洁、礼貌)分开,避免训练信号冲突。
  • 多语言:中文部署需中文原则与中文 red-team,直接翻译英文宪法常漏文化语境。
  • 版本 diff:政策变更时记录 diff,触发 受影响 prompt 子集 重训而非全量重跑(成本优化,待验证自动化覆盖率)。

与 DPO 的衔接

修订得到的 (yw,yl)(y_w, y_l) 可直接写入偏好 JSONL,用 4.4.1 DPO 训练,无需完整 PPO 栈;适合 先 CAI 生成数据、再离线对齐 的中小团队路径。

上线前仍建议保留 人工红队周检,宪法无法覆盖对抗性越狱的全部变体。

相关章节