跳到主要内容

学习范式

本文从经典机器学习三分法出发,说明其与 LLM 工业训练流程(预训练 → 中期训练 → 后训练)的对应关系,并重点展开 Mid-Training(中期训练) 这一近年被单独划出的阶段。该阶段与本文后半「终生学习 / 持续学习」备忘中的前向迁移、灾难性遗忘等问题直接相关。阶段评估指标见 1.2.4 评估指标与交叉验证


一、监督学习、无监督学习、自监督学习

范式标签来源典型目标LLM 中的对应
监督学习人工标注 (x,y)(x, y)最小化 L(f(x),y)\mathcal{L}(f(x), y)SFT、奖励建模、部分偏好对齐数据
无监督学习无显式标签,从数据结构发现模式聚类、降维、密度估计早期「无标签语料」说法;严格意义上 LLM 预训练多用自监督
自监督学习从原始数据构造伪标签下一 token 预测(交叉熵)预训练 / Mid-Training 的主体:用文本自身作为监督信号

在 LLM 语境下,「无监督预训练」常指自监督的下一 token 预测;后训练(SFT、RLHF、DPO 等)则更接近监督强化学习范式。


二、LLM 训练流水线:Pre → Mid → Post

当代基座模型开发已从「单次海量预训练 + 微调」演进为多阶段流程:

Pre-Training          Mid-Training              Post-Training
(通用预训练) → (中期训练 / 桥接) → (SFT / RLHF / DPO / RLVR …)
海量、嘈杂语料 精选混合、退火、长上下文 高质量指令与偏好
下一 token 预测 下一 token 预测(为主) 指令 loss / 奖励优化
阶段数据特点算力规模(典型量级关系)核心问题
Pre-Training全网爬取、规模大、噪声高最大(可达数十 T tokens)世界知识、通用语言能力
Mid-Training高质量 + 领域(数学、代码、STEM)+ 常保留部分通用语料介于 Pre 与 SFT 之间分布桥接、定向能力、为后训 warm-up
Post-Training指令对、偏好对、可验证奖励任务相对 Pre 很小对齐、指令跟随、推理与 Agent 行为

三、Mid-Training(中期训练)

3.1 定义与定位

Mid-Training(中期训练) 指介于通用预训练后训练(SFT / RL 等)之间的、有意识的开发阶段:仍以下一 token 预测为主(与 SFT「只对回答算 loss」、RL「优化奖励」不同),但数据更精选、配比更讲究,学习率常进入**退火(annealing)稳定—衰减(WSD)**的末段,用于:

  1. 前向:在数学、代码、推理、长上下文、多语言等方向放大专用能力;
  2. 后向:通过保留一定比例通用预训练语料,抑制领域化带来的灾难性遗忘;
  3. 桥接:缩小预训练语料与后训数据(指令格式、代码语法、解题步骤等)之间的分布差距,使后续 SFT/RL 更省数据、更少遗忘。

概念在 2024 年前后由工业界逐步命名:早期实践包括预训练末期的 cool-down数据退火(data annealing)长上下文扩展;部分团队曾把高质量领域数据放在后训,现多收敛为独立的 Mid 阶段(参见 IBM — Mid-training for reasoning)。

3.2 与继续预训练(Continued Pre-training)的区别

二者都可能在基座上做额外 token 训练,但设计意图不同(见 A Survey on LLM Mid-Training §2):

Mid-TrainingContinued Pre-training
意图在「预训练分布 ↔ 后训分布」之间过渡在已有模型上追加领域或语言数据
数据通用高质量语料 + 数学 / 代码 / STEM / 指令形态等混合;常配合退火往往以目标领域语料为主
优化继承预训练 LR 动态,多子阶段、课程式混合不一定保留原配比或 optimizer 状态
风险配比不当仍可能伤通用能力,但常刻意保留通用数据比例领域占比过高时更易灾难性遗忘

受控实验表明:在数学、代码等与网页预训练分布差异大的领域,Mid-Training 在领域内验证 loss 与 SFT 后通用语料(如 C4)保持上,往往优于仅用领域数据做继续预训练;收益来自渐进的 token 级分布迁移,而非 abrupt 换数据(Midtraining Bridges…)。

3.3 常见技术要素

(1)学习率调度

  • 预训练后期降低 LR,缓解梯度噪声、稳定收敛(与 gradient noise scale、信息瓶颈、课程学习等解释相容,见 Mid-Training Survey)。
  • 常见策略:余弦衰减末段切为线性衰减至 0(OLMo 2)、WSD(Warmup–Stable–Decay)中的 fast decay 段混入高质量数据(Llama 3、Qwen 2.5 等路线)、多阶段 scheduler(Hu et al., 2024)。
  • 时机与配比强相关:专用数据越早引入、混合权重可越高;训练后期突然提高领域占比(如 80% code)可能反而损害表现(Midtraining Bridges… Figure 4)。

(2)数据退火(Annealing)与精选混合

  • 在 LR 下降阶段提高高质量、高难度 token 占比(数学、代码、合成推理、Rephrase 后的网页等)。
  • PhiOLMo 2(Dolmino Mix 1124)、Llama 3 等均在预训练末或独立第二阶段做类似操作;OLMo 2 对 Mid 阶段多次随机顺序训练并平均 checkpoint(model soup)以榨取高质量数据收益。

(3)长上下文扩展

  • 提高长序列样本比例,并配合 RoPE 外推、位置编码或架构调整(YaRN 等);常与 Mid 阶段绑定,而非仅在 Pre 最前期完成(技术栈概览 中的「长文预训练」「多阶段预训练」)。

(4)数据合成与形态

  • 蒸馏、Rephrase、从语料抽取 QA、数学/代码演化合成(MathGenie、MegaMath 等);将答案改写为问题,让模型学习「会问」而不仅是「会答」(产业界常称 Mid 是规模化制造判别力的阶段,介于 Pre 的粗放与 Post 的手工策展之间)。

(5)去污染与配比

  • 对基准做 n-gram / 语义去污染,避免 Mid 阶段泄漏评测;领域与通用数据的混合权重需与开始 Mid 的 checkpoint 时机联合调优。

3.4 能力域与典型数据

综述将 Mid 锚定的能力大致分为三类(A Survey on LLM Mid-Training):

能力域示例常见数据来源
核心认知数学 / STEM、复杂推理MegaMath、WebInstruct、合成推理链
任务执行代码、指令跟随、Agent 轨迹Stack、合成 code instruction、工具调用日志
可扩展性长上下文、多语言长文档采样、低资源语言上采样(Phi-3.5、Yi-Lightning 等)

IBM 在约 27B tokens 规模上对比 Mid 配方:仅数学+代码 vs 数学+代码+科学推理,前者在综合推理基准上平均低 3–6 分;同类调整放在 RL 阶段收益很小,说明 Mid 是注入领域知识的高效窗口IBM Research Blog)。实验还指出:在已完成长上下文扩展的基座上做 Mid,通常优于在预训练早期就做同类注入。

3.5 与终生学习、迁移的关系

结合下文「LLM 终生学习」备忘:

  • 前向迁移:Mid 通过课程式领域暴露,为后续 zero-shot / few-shot 与 RL 预热参数空间;实证上 Mid 相对 Pre 的边际增益常更陡,且单位算力效率更高(Wang et al., 2025; Gui et al., 2025,见 Mid-Training 综述)。
  • 后向迁移 / 遗忘:Mid 若保留通用数据比例,可在 SFT 后更好保留通用语言建模(C4 等);纯领域继续预训练则更易在 Post 之后遗忘(Midtraining Bridges… Table 3)。
  • 与微调的关系:Mid 不是替代 SFT/RL,而是降低后训的分布冲击;Pre–Mid–RL 的交互见 On the Interplay of Pre-Training, Mid-Training, and RL

评估上除 PPL 外,应跟踪 GSM8K、HumanEval、MMLU 子集等探针,并记录 Mid → SFT → RL 链路上的相对提升(详见 1.2.4)。

3.6 实践要点小结

  1. 先明确阶段目标:桥接分布、补数学/代码短板、扩上下文或多语言,再定数据与 LR,避免与「继续预训练」混为一谈。
  2. 时机 > 单次配比:专用数据引入越早往往越有利,但需与总 token 预算和 LR 阶段匹配。
  3. 保留通用锚点:混合中维持一定通用高质量语料,减轻 Post 阶段遗忘。
  4. 长上下文后再 Mid:若基座尚未稳定支持长序列,领域 Mid 收益可能打折扣。
  5. 用链式指标验收:单看 Mid 结束时的 Acc 易低估其价值,应对比「无 Mid」基线在相同 SFT/RL 下的表现。

3.7 代表模型与实践(节选)

模型 / 系列Mid 相关做法(公开资料中的概括)
OLMo 2Stage 2 Mid:Dolmino Mix 1124,LR 线性降至 0;多次 anneal + 模型平均
Llama 3 / 3.1预训练末期 fast LR decay + 高质量数据上采样
Phi-3 / 3.5明确使用 mid-training 术语;多语言、长上下文、合成数据
Qwen 2.5 / 3多阶段预训练与 Mid 子阶段、长上下文与领域数据
DeepSeek-V3多阶段训练中的 annealing / 领域强化(见各技术报告)

更完整的模型对照表见 Mid-Training of Large Language Models: A Survey 中的汇总表。


四、LLM 终生学习(备忘)

以下为 LLM 终生学习 / 持续学习 相关备忘,与 Mid-Training 中的遗忘控制、前向/后向迁移相呼应。

要求

知识记忆

llm 通过预训练之后已经具备世界知识,通过小规模 finetune 不会灾难遗忘,可是大规模会。

前向迁移

基于世界知识的 zero shot 和 few shot 能力

后向迁移

finetune 会造成知识遗忘,故很难实现完美的后向迁移

解决方案:

  • 类似于 lora 的知识装载

在线学习

离线预训练微调

无人无边界

无监督预训练和微调,不区分任务

固定模型容量

llm 预训练以后大小不变

方法

rehearsal (排练)

regarizatuon (正则)

Architectures (结构改造)


五、延伸阅读