学习范式
本文从经典机器学习三分法出发,说明其与 LLM 工业训练流程(预训练 → 中期训练 → 后训练)的对应关系,并重点展开 Mid-Training(中期训练) 这一近年被单独划出的 阶段。该阶段与本文后半「终生学习 / 持续学习」备忘中的前向迁移、灾难性遗忘等问题直接相关。阶段评估指标见 1.2.4 评估指标与交叉验证。
一、监督学习、无监督学习、自监督学习
| 范式 | 标签来源 | 典型目标 | LLM 中的对应 |
|---|---|---|---|
| 监督学习 | 人工标注 | 最小化 | SFT、奖励建模、部分偏好对齐数据 |
| 无监督学习 | 无显式标签,从数据结构发现模式 | 聚类、降维、密度估计 | 早期「无标签语料」说法;严格意义上 LLM 预训练多用自监督 |
| 自监督学习 | 从原始数据构造伪标签 | 下一 token 预测(交叉熵) | 预训练 / Mid-Training 的主体:用文本自身作为监督信号 |
在 LLM 语境下,「无监督预训练」常指自监督的下一 token 预测;后训练(SFT、RLHF、DPO 等)则更接近监督或强化学习范式。
二、LLM 训练流水线:Pre → Mid → Post
当代基座模型开发已从「单次海量预训练 + 微调」演进为多阶段流程:
Pre-Training Mid-Training Post-Training
(通用预训练) → (中期训练 / 桥接) → (SFT / RLHF / DPO / RLVR …)
海量、嘈杂语料 精选混合、退火、长上下文 高质量指令与偏好
下一 token 预测 下一 token 预测(为主) 指令 loss / 奖励优化
| 阶段 | 数据特点 | 算力规模(典型量级关系) | 核心问题 |
|---|---|---|---|
| Pre-Training | 全网爬取、规模大、噪声高 | 最大(可达数十 T tokens) | 世界知识、通用语言能力 |
| Mid-Training | 高质量 + 领域(数学、代码、STEM)+ 常保留部分通用语料 | 介于 Pre 与 SFT 之间 | 分布桥接、定向能力、为后训 warm-up |
| Post-Training | 指令对、偏好对、可验证奖励任务 | 相对 Pre 很小 | 对齐、指令跟随、推理与 Agent 行为 |
三、Mid-Training(中期训练)
3.1 定义与定位
Mid-Training(中期训练) 指介于通用预训练与后训练(SFT / RL 等)之间的、有意识的开发阶段:仍以下一 token 预测为主(与 SFT「只对回答算 loss」、RL「优化奖励」不同),但数据更精选、配比更讲究,学习率常进入**退火(annealing)或稳定—衰减(WSD)**的末段,用于:
- 前向:在数学、代码、推理、长上下文、多语言等方向放大专用能力;
- 后向:通过保留一定比例通用预训练语料,抑制领域化带来的灾难性遗忘;
- 桥接:缩小预训练语料与后训数据(指令格式、代码语法、解题步骤等)之间的分布差距,使后续 SFT/RL 更省数据、更少遗忘。
概念在 2024 年前后由工业界逐步命名:早期实践包括预训练末期的 cool-down、数据退火(data annealing)、长上下文扩展;部分团队曾把高质量领域数据放在后训,现多收敛为独立的 Mid 阶段(参见 IBM — Mid-training for reasoning)。
综述论文