训练全景概览

训练流程

一个能满足上线要求的模型，需要经历多阶段的打磨，通常包含以下几个阶段：

图片来源于：New LLM Pre-training and Post-training Paradigms

上图仅仅展示了部分阶段，让读者从整体上有一个大概得认知，在后续的介绍中会详细每阶段的方法，同时随着时间的推移，每个阶段都会衍生出训练效果更好，训练效率更高的方法。

此阶段旨在为模型的提供高质量的训练数据，进而提升模型训练后的效果。

此阶段通常包含如下阶段：

数据质量至关重要⁴

在各个阶段中，大模型训练效果与数据质量和多样性特别敏感。

大模型的预训练相关知识点非常多，其中包括：

GLM Long：如何将 LLM 的上下文扩展至百万级

为了提升GLM的长文本能力，从预训练到最后的对齐阶段都添加了相关训练进行训练，进而稳固不同阶段对于长文本能力的敏感性，具体可参考 ²

SFT 阶段旨在牵引预训练阶段涌现出的多种能力，会重点训练成：chat 类型模型和 instruction 类型模型。

chat 类型模型会在大量对话相关数据集上训练，进而让模型能够更友好的对话能力，此类数据的构建通常来源于真实数据。

instruction 类型模型会在大量指令数据集上面训练，让模型具备更好的指令遵循的能力，此类数据的构建可通过LLM来生成高质量数据。⁵

对齐本质上也是有监督微调，只不过从作用上来说是为了更精细化的控制模型的生成效果，让其更符合人类的偏好。

在对齐阶段，相关方法比较多，其中包括：

PPO: Proximal Policy Optimization Algorithms ⁶
DPO: Direct Preference Optimization: Your Language Model is Secretly a Reward Model ⁷
KTO: Model Alignment as Prospect Theoretic Optimization ⁸
...