多任务预训练

要解决的问题

单一 CLM 目标在超大规模下已极强，但显式混合多种监督格式（去噪、问答、分类、翻译片段）可提升样本效率与下游零样本迁移。多任务预训练在「仍属预训练、非有标注 SFT」阶段，用统一模型与词表学习多种 token 布局与任务 token。

范式	做法
T5 text-to-text	一切任务转为文本到文本
UL2 模式混合	Causal / Prefix / Span 用特殊 mode token
GPT-3 语境学习	不显式任务 token，靠 CLM + 提示
ExT5 / mT0	继续扩任务集与语言

损失一般为各任务损失的加权和：

\mathcal{L} = \sum_k \lambda_k \mathcal{L}^{(k)}

$\lambda_k$ 可按任务 token 数或固定比例设定。

构建 multitask 语料：

数据管道：比纯 CLM 多 3～5× 工程复杂度（任务 ID、长度截断策略）。
评测：除 PPL 外需分任务 valid loss；零样本用 BIG-bench、MMLU 子集。
工业趋势：LLaMA 3、Qwen 等以 纯 CLM + 高质量 mixture 为主，Flan 式 multitask 更多在后训练（见指令微调）。
参考：预训练目标函数讨论。

记录每个 task 的 $\lambda_k$ 与有效 token 占比，防止大类任务淹没。

本节核心：Flan 与全链路 T0 协同；上线前用检查清单做回归。

translate English to German: ...
summarize: ...

模板字符串占用 token 预算；过长模板会降低有效内容密度。