跳到主要内容

Kaplan Scaling Laws

要解决的问题

训练大模型前需要回答:加参数、加数据还是加算力更划算?Kaplan 等(OpenAI, 2020)用系统实验拟合 loss 与规模的可预测曲线,使团队能在全量训练前用较小规模外推,并解释早期 GPT-3 路线中「参数优先」的资源分配。

核心概念

设模型参数量 NN、数据 token 数 DD、计算量 CC(近似 CNDC \propto N \cdot D)。交叉熵 loss 满足幂律:

L(N)(NcN)αN,L(D)(DcD)αDL(N) \approx \left(\frac{N_c}{N}\right)^{\alpha_N}, \quad L(D) \approx \left(\frac{D_c}{D}\right)^{\alpha_D}

联合形式(示意):

L(N,D)ANαN+BDαD+LL(N, D) \approx A N^{-\alpha_N} + B D^{-\alpha_D} + L_\infty
结论(Kaplan)含义
参数更重要固定算力时倾向更大 NN、相对较少 DD
宽深比深度与宽度需配合,过深/过浅偏离最优

方法/算法

实践用法:

  1. 在多个 (N,D)(N, D) 点上训练至收敛附近,记录 final loss;
  2. 对数坐标线性回归拟合 αN,αD\alpha_N, \alpha_D
  3. 给定预算 CC,解 minL(N,D)\min L(N,D) s.t. NDCN \cdot D \propto C → 得到推荐 NN vs DD
  4. 注意:Kaplan 与 Chinchilla 最优配比结论不同,因实验设定与 iso-loss 定义差异。

工程实践

  • 不要盲信系数:不同数据清洗、tokenizer、架构会使 LL_\infty 与指数变化。
  • 监控:用 1% 算力点验证预测 loss 是否落在置信区间。
  • 与数据工程联动3.1 数据 质量差会使幂律偏移。
  • docs预训练 Scaling Law 章节。

代表工作

局限与注意点

  • Chinchilla 修正:同等算力下应更均衡地增 DD,见下一节。
  • 下游任务:训练 loss 幂律不一定等于 benchmark 线性提升。
  • 推理成本:训练最优 NN 可能推理太贵,见 3.4.3
  • 涌现3.4.5 不一定在 Kaplan 曲线上显式出现。

延伸说明

Kaplan 系数随 tokenizer、数据质量变化;每次 data refresh 应重拟合小 sweep。

实践检查清单

  • 幂律
  • NN vs DD
  • iso-loss

小结

本节核心:幂律 与全链路 NN vs DD 协同;上线前用检查清单做回归。

新数据 refresh 后应重跑小规模 (N,D)(N,D) sweep,勿直接沿用旧论文系数。

相关章节