SFT 的目的与流程

要解决的问题

预训练语言模型擅长「续写」，却不天然遵循用户指令、对话格式或安全边界。监督微调（Supervised Fine-Tuning, SFT） 用高质量 (prompt, response) 对，把通用能力「对齐」到可部署的助手行为：听懂任务、按格式回答、减少明显违规输出。

工程上 SFT 往往是后训练链路的第一站：在 RLHF/DPO 之前先建立指令遵循与风格基线；许多开源模型（Alpaca、Vicuna 等）也仅做 SFT 即发布可用版本。

概念	含义
SFT 目标	在标注回复 $y$ 上最小化负对数似然（因果 LM）
参考策略	常保留预训练 checkpoint 作 $\pi_{\text{ref}}$ ，供后续 KL / DPO 约束
数据形态	单轮指令、多轮对话、CoT（思维链）等，统一序列化为 token

标准 SFT 损失（对单条样本，对 response 部分 token 求和）：

\mathcal{L}_{\text{SFT}} = - \sum_{t \in \mathcal{R}} \log \pi_\theta(y_t \mid x, y_{<t})

其中 $\mathcal{R}$ 为 assistant 回复区间；prompt 部分通常 mask 掉 loss（label = -100）。

维度	建议
框架	Hugging Face `trl.SFTTrainer`、`LLaMA-Factory`、`Axolotl`
显存	全参 SFT 7B 常需多卡；可用 LoRA
可观测	train/eval loss、回复长度分布、重复率、拒答率
成本	相对 RLHF 低一个数量级；主要成本在数据标注与清洗

技术报告中 SFT 配方可参考 Qwen2.5 技术报告与 DeepSeek-R1（推理模型常在 SFT 后接 RL）。