数据量与参数量的权衡

要解决的问题

给定参数量 $N$ ，应收集多少 unique token $D$ ？过少则欠拟合、浪费参数；过多 epoch 则过拟合重复、收益递减。本节在 Chinchilla 框架下细化 数据-参数 tradeoff 的工程含义，并与数据质量、混合配比联动。

有效训练量：

D_{\text{eff}} = D_{\text{unique}} + (E-1)\cdot \eta \cdot D_{\text{unique}}

$E$ 为 epoch 数， $\eta \in [0,1]$ 表示重复样本的边际收益折扣（启发式，非严格理论）。

Chinchilla 建议（固定 $C$ ）：

D^* \propto N, \quad N^* \propto C^{0.5},\; D^* \propto C^{0.5}

规划 checklist：

数据质量乘数（工程经验，待验证）：

D_{\text{req}} \approx D^* / q_{\text{data}}^{\gamma}

低质数据 $q_{\text{data}}$ 小，需要更多 token 或更强过滤。

重复 epoch：LLaMA 1 对 1T tokens 训练 65B 接近 Chinchilla；部分中文模型 2T 语料训 7B 多 epoch，需报告 unique vs total。
课程学习：后期换混合不算增加 $D$ ，但改变有效分布。
继续预训练：下游 CPT 的 $D_{\text{cpt}}$ 通常 $\ll D_{\text{pretrain}}$ ，见 docs 继续预训练。
存储： $D$ 翻倍等于清洗、去重、训练时间近乎线性增（通信优化见 3.5.7）。

重复数据边际收益递减；优先扩 unique 数据再考虑第二 epoch。

本节核心： $D_{eff}$ 与全链路 CPT 协同；上线前用检查清单做回归。