训练全景概览
训练流程
一个能满足上线要求的模型,需要经历多阶段的打磨,通常包含以下几个阶段:
上图仅仅展示了部分阶段,让读者从整体上有一个大概得认知,在后续的介绍中会详细每阶段的方法,同时随着时间的推移,每个阶段都会衍生出训练效果更好,训练效率更高的方法。
数据前处理阶段
此阶段旨在为模型的提供高质量的训练数据,进而提升模型训练后的效果。
此阶段通常包含如下阶段:
- 数据准备:使用开源高质量数据集、爬虫爬取不同网站数据、现有人类知识(各种电子书)、基于有监督数据构建训练数据、使用当前高质量业务数据构建领域数据。
- 数据筛选:为了提升数据的质量,需要使用Rule-Based和LLM-Based的方法来对数据进行筛选。
- 合成数据:使用LLM来合成相关数据也是一个非常火热的方向,且成本低效果好。
- 数据混合:LLM需要基于大规模多领域的数据进行训练,此时对不同领域的数据进行混合配比是提升模型效果一个关键因素。1,3
数据质量至关重要4
在各个阶段中,大模型训练效果与数据质量和多样性特别敏感。