跳到主要内容

Chinchilla Scaling Laws

要解决的问题

Kaplan 建议偏大模型、偏少数据;Hoffmann 等(DeepMind, 2022)在固定算力下重新拟合,发现多数已发布大模型处于「欠训练」状态。Chinchilla 定律给出参数量与 token 数的近似最优配比,指导在相同 FLOPs 下选更小 NN、更多 DD,往往得到更好下游表现。

核心概念

对 compute-optimal 预训练,经验关系(近似):

Dopt20×ND_{\text{opt}} \approx 20 \times N

其中 NN非 embedding 参数量,DD 为训练 token 数(不同论文常数在 10~20 间,以复现为准)。

Chinchilla-70B:用约 70B 参数 + 1.4T tokens(相对 Gopher 280B + 300B)在多项评测上更优。

对比Kaplan 倾向Chinchilla 倾向
固定 CC更大 NN更多 DD,适中 NN
代表早期 GPT-3 规划LLaMA 1(1T/65B)等

损失联合缩放(Hoffmann 式):

L(N,D)=E+ANα+BDβL(N,D) = E + \frac{A}{N^\alpha} + \frac{B}{D^\beta}

最优 N\*(C)N^\*(C)D\*(C)D^\*(C) 满足 NCaN \propto C^aDCbD \propto C^b,且 DND \propto N 近线性。

方法/算法

预算规划步骤:

  1. 确定 FLOPs 预算 C6NDC \approx 6 N D(每 token 约 6N6N FLOPs,系数随架构略变);
  2. DkND \approx k Nk20k\approx 20)解 NNDD
  3. 校验集群能否在合理时间内吃完 DD(IO 与 数据管道);
  4. 若推理延迟敏感,可故意 under-train 大模型(推理最优,见 3.4.3)。

工程实践

  • LLaMA 2/3、Qwen、DeepSeek 技术报告中的 token/参数比常高于 Chinchilla 常数(「过训练」换推理单次质量,属产品策略)。
  • 小模型复现:7B 模型按 Chinchilla 应 ~140B tokens,许多开源仅 2T 总数据但多 epoch,需区分 unique tokens vs 总见过次数
  • 监控:loss 随 DD 继续下降则尚未 Chinchilla-optimal。

代表工作

局限与注意点

  • 常数 20 非普适:代码/数学占比高时最优 DD 可能更大(待验证)。
  • 多 epoch:重复数据降低有效 DD;应用 unique token 计数。
  • MoE:活跃参数 NactiveN_{\text{active}} 与总参数量不同,scaling 需分开(见 MoE 报告)。
  • 与 Kaplan 并存:两者都是经验拟合,新数据清洗会移动曲线。

延伸说明

报告训练时 不重复 token 数;多 epoch 会降低有效 DD

实践检查清单

  • D20ND \approx 20N
  • 70B
  • 欠训练

小结

本节核心:D20ND \approx 20N 与全链路 70B 协同;上线前用检查清单做回归。

算力估算(便于排期)

训练 FLOPs 粗算:C6NDC \approx 6 N D(decoder-only,系数随实现略变)。

NNDD(Chinchilla 20N\approx 20NCC 量级
7B140B6×1021\sim 6\times 10^{21}
70B1.4T6×1023\sim 6\times 10^{23}

集群有效 tokens/s 决定墙钟时间;数据 IO 与 通信 常是瓶颈。

相关章节