Kaplan Scaling Laws

要解决的问题

训练大模型前需要回答：加参数、加数据还是加算力更划算？Kaplan 等（OpenAI, 2020）用系统实验拟合 loss 与规模的可预测曲线，使团队能在全量训练前用较小规模外推，并解释早期 GPT-3 路线中「参数优先」的资源分配。

设模型参数量 $N$ 、数据 token 数 $D$ 、计算量 $C$ （近似 $C \propto N \cdot D$ ）。交叉熵 loss 满足幂律：

L(N) \approx \left(\frac{N_c}{N}\right)^{\alpha_N}, \quad L(D) \approx \left(\frac{D_c}{D}\right)^{\alpha_D}

联合形式（示意）：

L(N, D) \approx A N^{-\alpha_N} + B D^{-\alpha_D} + L_\infty

结论（Kaplan）	含义
参数更重要	固定算力时倾向更大 $N$ 、相对较少 $D$
宽深比	深度与宽度需配合，过深/过浅偏离最优

实践用法：

Kaplan 系数随 tokenizer、数据质量变化；每次 data refresh 应重拟合小 sweep。

本节核心：幂律与全链路 $N$ vs $D$ 协同；上线前用检查清单做回归。

新数据 refresh 后应重跑小规模 $(N,D)$ sweep，勿直接沿用旧论文系数。