因果语言建模（CLM）

要解决的问题

预训练需要可扩展的自监督信号：无需人工标注即可从海量文本学习。因果语言建模（Causal LM, CLM）通过预测「下一个 token」，迫使模型学习语法、事实关联、世界知识与长程依赖，并成为 GPT、LLaMA、Qwen 等 Decoder-only 模型的标准目标。

对序列 $x=(x_1,\ldots,x_T)$ ，模型参数 $\theta$ 最大化：

\mathcal{L}_{\text{CLM}} = -\sum_{t=1}^{T} \log p_\theta(x_t \mid x_{<t})

训练时使用因果掩码（causal mask），位置 $t$ 只能 attend 到 $\le t$ 的位置。推理时自回归解码同一分布。

实现要点：

Shift labels：输入 tokens[:-1]，预测 tokens[1:]，交叉熵在有效位置求平均。
packing：多条样本拼进固定长度，用 attention mask 或 cu_seqlens 防止跨样本 attend（FlashAttention 变长支持）。
loss 归一化：按 token 平均 vs 按样本平均会影响有效学习率。
特殊 token：BOS/EOS 是否计入 loss 需在 recipe 中固定。

与分词结合：监督在 subword 边界，改变 tokenizer 即改变任务难度。

packed 序列需在 attention mask 阻断跨样本注意力；FlashAttention varlen 需 cu_seqlens。

本节核心：causal mask 与全链路 shift labels 协同；上线前用检查清单做回归。

验证 PPL 时 held-out 集须使用与训练一致的 packing 与 mask 规则。