Alpaca、Vicuna、WizardLM 数据范式
要解决的问题
2023 年前后开源社区证明:强教师 + 低成本合成数据 + 开源基座 SFT 即可得到可用聊天模型,无需完整 RLHF 栈。Alpaca、Vicuna、WizardLM 代表三种常被复制的 数据范式(蒸馏、对话、进化复杂度),影响至今的 LLaMA-Factory 类工具链。
核心概念
| 项目 | 基座 | 数据范式 | 关键创新 |
|---|---|---|---|
| Alpaca | LLaMA | text-davinci-003 生成 52k 指令 | 证明约 $600 级成本可训助手 |
| Vicuna | LLaMA | ShareGPT 风格 真实多轮对话 蒸馏 | 偏聊天体验、长度更长 |
| WizardLM | LLaMA-2 | Evol-Instruct 逐步加深任务难度 | 复杂指令与推理向 |
方法 / 范式对比
Alpaca 范式
- Prompt:
instruction+ 可选input→outputJSON 行。 - 适合 快速原型、教学复现;弱点是分布偏短、偏考试题。
Vicuna 范式
- 强调 多轮上下文 与口语化;数据来自用户分享对话(许可与隐私需自查)。
- 评测常用 GPT-4 打分(MT-Bench),引发「评委模型偏见」讨论(见 7.2 LLM-as-Judge)。
WizardLM / Evol-Instruct 范式
- 深度进化:加约束、加推理步骤、嵌套条件。
- 宽度 进化:改领域、改语言、改输入类型。
- 领读:Evol-Instruct。
工程实践
| 决策 | 建议 |
|---|---|
| 教师选择 | 与目标部署能力差距过大时,学生上限明显 |
| 许可 | ShareGPT 衍生数据注意 ToS;商用需法务确认 |
| 模板 | Vicuna v1.5 与 Llama-3 模板不兼容,混用会崩 |
| 后续对齐 | 开源版常再接 DPO 或 RLHF 一小步 |
训练栈:LLaMA-Factory、Axolotl 均内置 Alpaca / ShareGPT 格式转换。
代表工作
- Taori et al., 2023 — Stanford Alpaca.
- Chiang et al., 2023 — Vicuna(LMSYS)。
- Xu et al., 2023 — WizardLM / Evol-Instruct(领读).