数据构造（指令、对话、思维链）

要解决的问题

SFT 上限 largely 由数据决定：同样的 7B 基座，用 5 万条精选对话微调，往往优于 50 万条噪声指令。本节聚焦如何把业务需求转化为可训练的 (prompt, response)：单轮指令、多轮对话、思维链（CoT） 三类主流形态及其构造管线。

类型	结构	典型用途
指令（Instruction）	单轮 `instruction + optional input → output`	任务遵循、格式控制
对话（Dialogue）	多轮 `role: content`	助手人设、工具调用前后文
思维链（CoT）	中间推理 `rationale → answer`	数学、代码、复杂推理

统一序列化示例（概念上）：

<|system|> 你是助手 …
<|user|> 问题 …
<|assistant|> 推理步骤 … 最终答案 …

Loss 仅打在 <|assistant|> 段；system/user 可全 mask。

实践	说明
去重	MinHash / 精确重复；避免 benchmark 泄漏进训练集
长度	截断策略与模型 `max_seq_len` 一致；长 CoT 注意 packing
混合	通用对话 + 领域 + 安全拒答样本比例需文档化
版本	数据集 hash、模板版本写入 metadata，便于复现

工具： datasketch、cleanlab、自研规则引擎；开源集合 OpenHermes、ShareGPT 风格数据需二次清洗。