数据量与参数量的权衡
要解决的问题
给定参数量 ,应收集多少 unique token ?过少则欠拟合、浪费参数;过多 epoch 则过拟合重复、收益递减。本节在 Chinchilla 框架下细化 数据-参数 tradeoff 的工程含义,并与数据质量、混合配比联动。
核心概念
有效训练量:
为 epoch 数, 表示重复样本的边际收益折扣(启发式,非严格理论)。
Chinchilla 建议(固定 ):
| 区域 | 现象 |
|---|---|
| loss 随 快速下降,参数闲置 | |
| compute-optimal 拐点 | |
| loss 改善缓慢,数据管线成本上升 |
方法/算法
规划 checklist:
- 选定目标 (架构与推理约束);
- 查 Chinchilla 作首版目标 unique tokens;
- 评估语料是否够:不够则降 或扩充 数据来源;
- 若语料过剩:优先 提高质量与混合 而非盲目加 epoch;
- 用代理模型扫 看验证 loss 与 2~3 个下游任务。
数据质量乘数(工程经验,待验证):
低质数据 小,需要更多 token 或更强过滤。
工程实践
- 重复 epoch:LLaMA 1 对 1T tokens 训练 65B 接近 Chinchilla;部分中文模型 2T 语料训 7B 多 epoch,需报告 unique vs total。
- 课程学习:后期换 混合 不算增加 ,但改变有效分布。
- 继续预训练:下游 CPT 的 通常 ,见 docs 继续预训练。
- 存储: 翻倍等于清洗、去重、训练时间近乎线性增(通信优化见 3.5.7)。
代表工作
- Hoffmann et al.:https://arxiv.org/abs/2203.15556
- Muennighoff et al.(数据重复与遗忘):https://arxiv.org/abs/2305.16264
- Xie et al. Doremi(数据权重):https://arxiv.org/abs/2305.10409
局限与注意点
- 任务相关:代码/数学可能需要高于比例的 (相对 Chinchilla 常数)。
- 污染:重复 benchmark 文本虚高下游指标。
- 法律: 扩大常触及 版权 边界。
- 与涌现:能力跃迁未必在 附近出现。
延伸说明
重复数据边际收益递减;优先扩 unique 数据再考虑第二 epoch。
实践检查清单
- CPT
- 代理实验
小结
本节核心: 与全链路 CPT 协同;上线前用检查清单做回归。
相关章节
- 3.4.1 Kaplan · 3.4.2 Chinchilla
- 3.4.3 推理最优
- 数据混合:3.1.4
- 训练稳定:3.6.5 Loss Spike