跳到主要内容

数据量与参数量的权衡

要解决的问题

给定参数量 NN,应收集多少 unique token DD?过少则欠拟合、浪费参数;过多 epoch 则过拟合重复、收益递减。本节在 Chinchilla 框架下细化 数据-参数 tradeoff 的工程含义,并与数据质量、混合配比联动。

核心概念

有效训练量:

Deff=Dunique+(E1)ηDuniqueD_{\text{eff}} = D_{\text{unique}} + (E-1)\cdot \eta \cdot D_{\text{unique}}

EE 为 epoch 数,η[0,1]\eta \in [0,1] 表示重复样本的边际收益折扣(启发式,非严格理论)。

Chinchilla 建议(固定 CC):

DN,NC0.5,  DC0.5D^* \propto N, \quad N^* \propto C^{0.5},\; D^* \propto C^{0.5}
区域现象
DDD \ll D^*loss 随 DD 快速下降,参数闲置
DDD \approx D^*compute-optimal 拐点
DDD \gg D^*loss 改善缓慢,数据管线成本上升

方法/算法

规划 checklist:

  1. 选定目标 NN(架构与推理约束);
  2. 查 Chinchilla D20ND \approx 20N 作首版目标 unique tokens;
  3. 评估语料是否够:不够则降 NN 或扩充 数据来源
  4. 若语料过剩:优先 提高质量与混合 而非盲目加 epoch;
  5. 用代理模型扫 D{0.5,1,2}×DD \in \{0.5,1,2\}\times D^* 看验证 loss 与 2~3 个下游任务。

数据质量乘数(工程经验,待验证):

DreqD/qdataγD_{\text{req}} \approx D^* / q_{\text{data}}^{\gamma}

低质数据 qdataq_{\text{data}} 小,需要更多 token 或更强过滤。

工程实践

  • 重复 epoch:LLaMA 1 对 1T tokens 训练 65B 接近 Chinchilla;部分中文模型 2T 语料训 7B 多 epoch,需报告 unique vs total。
  • 课程学习:后期换 混合 不算增加 DD,但改变有效分布。
  • 继续预训练:下游 CPT 的 DcptD_{\text{cpt}} 通常 Dpretrain\ll D_{\text{pretrain}},见 docs 继续预训练
  • 存储DD 翻倍等于清洗、去重、训练时间近乎线性增(通信优化见 3.5.7)。

代表工作

局限与注意点

  • 任务相关:代码/数学可能需要高于比例的 DD(相对 Chinchilla 常数)。
  • 污染:重复 benchmark 文本虚高下游指标。
  • 法律DD 扩大常触及 版权 边界。
  • 与涌现:能力跃迁未必在 DD^* 附近出现。

延伸说明

重复数据边际收益递减;优先扩 unique 数据再考虑第二 epoch。

实践检查清单

  • DeffD_{eff}
  • CPT
  • 代理实验

小结

本节核心:DeffD_{eff} 与全链路 CPT 协同;上线前用检查清单做回归。

相关章节