前缀语言建模、Span Corruption

要解决的问题

纯 CLM 无法利用前缀双向上下文；纯 MLM 不适合标准自回归生成。Prefix LM 与 Span Corruption（T5 风格）在统一 Transformer 上兼顾「理解式填空」与「条件生成」，为 Encoder-Decoder 与 UL2 等多目标训练提供中间形态。

Prefix LM（非因果前缀）

Span Corruption（T5）

UL2 用 模式 token 区分 Causal / Prefix / Span，实现 3.3.5 多任务。

Prefix LM 掩码矩阵示意（ $P$ =前缀， $S$ =后缀）：

Span corruption 步骤：

Tokenizer：T5 使用 SentencePiece + extra_id sentinels，见 3.2.4。
实现复杂度：高于单 CLM；需正确构造 attention mask 与 label shift。
现状：开源大模型主流仍为 Decoder-only CLM；Prefix/Span 多见于 Google T5/Flan 系与部分 API 模型内部（公开细节有限）。
数据：同一语料可随机切换模式，提升样本效率（UL2 论点）。

UL2 在每个 batch 随机 mode token，需保证各模式采样比例与论文 recipe 接近。

本节核心：sentinel 与全链路 Prefix 协同；上线前用检查清单做回归。