数据构造(指令、对话、思维链)
要解决的问题
SFT 上限 largely 由 数据 决定:同样的 7B 基座,用 5 万条精选对话微调,往往优于 50 万条噪声指令。本节聚焦如何把业务需求转化为可训练的 (prompt, response):单轮指令、多轮对话、思维链(CoT) 三类主流形态及其构造管线。
核心概念
| 类型 | 结构 | 典型用途 |
|---|---|---|
| 指令(Instruction) | 单轮 instruction + optional input → output | 任务遵循、格式控制 |
| 对话(Dialogue) | 多轮 role: content | 助手人设、工具调用前后文 |
| 思维 链(CoT) | 中间推理 rationale → answer | 数学、代码、复杂推理 |
统一序列化示例(概念上):
<|system|> 你是助手 …
<|user|> 问题 …
<|assistant|> 推理步骤 … 最终答案 …
Loss 仅打在 <|assistant|> 段;system/user 可全 mask。