跳到主要内容

高质量指令数据构造方法

要解决的问题

开源合成数据泛滥后,「再堆 100 万条」边际效益递减。高质量指令数据 强调:可验证、多样、与产品场景对齐、且与评测解耦。本节汇总工业界常用的 构造方法组合(非单一秘籍),供设计自有数据飞轮。

核心概念

高质量数据的 可操作定义(可制成 rubric):

维度检查项
任务覆盖核心 SKU 场景占比 > 长尾噪声
输入真实性来自用户日志/工单,而非纯合成套话
输出可验代码能跑、数学有标答、政策有条文依据
对比度含「差点对」负例,供 DPO/RM 使用(见 4.4

方法 / 构造管线

1. 人类专家 + 双层质检

  • 标注员写回复 → 资深审核 → 争议样本第三轮。
  • 适合医疗、金融、合规;成本高,作为 黄金集 锚定自动管线。

2. 模型合成 + 强过滤

  • N-best 筛选:同一 prompt 生成多条,用 RM 或单元测试选最优。
  • 拒绝采样:丢弃低分样本,避免污染 SFT。

3. 用户反馈闭环

  • 点赞/点踩、编辑后发送(implicit preference)。
  • 注意 position bias仅反馈差评 的选择偏差;需时间衰减与去重。

4. 课程与进化

5. 与偏好数据联动

  • 同一 prompt 保留 (yw,yl)(y_w, y_l) 供 RM/DPO;SFT 仅用 ywy_w 或二者混合(recipe 各异)。

工程实践

工具/实践说明
数据版本DVC / lakeFS + manifest JSON
毒性/PII发布前扫描;合成数据也需
泄漏检测与 MMLU、GSM8K 等 n-gram 重叠率
小批试验1k 金标 → SFT → Arena 微评测 → 再扩

Constitutional / RLAIF 路线可用 AI 批评迭代数据,见 4.5 Constitutional AI

Meta-judge 自改进对齐可参考领读:Meta Reward LM

代表工作

  • OpenAI InstructGPT 数据工程:人工排序 + SFT 示范。
  • Anthropic HH-RLHF 公开偏好集(后续 RLHF 常用)。
  • Tülu / UltraChat 等开源「精选混合」配方(以各自 model card 为准)。

局限与注意点

  • LLM 当裁判会形成 自我强化循环(模型偏好自己的文风)。
  • 过度针对内部 RM 优化会导致 reward hacking 式数据(见 4.3.5)。
  • 「高质量」随产品迭代;需 定期废弃 过期政策样本(如旧 API 文档)。

相关章节