字符级、词级、子词级分词

要解决的问题

神经网络需要将文本映射为离散 ID 序列。粒度太粗（词级）会导致超大词表、大量 UNK；太细（字符级）则序列过长、建模效率低。子词（Subword）在词表大小、序列长度、跨语言泛化之间取得平衡，成为 LLM 预训练的事实标准。

设文本 $x$ 经编码器 $E$ 得 token 序列 $(t_1,\ldots,t_T)$ ，解码 $D$ 满足 $D(E(x)) \approx x$ （可能丢失空格细节，取决于实现）。

压缩率：平均每 token 字符数（bytes-per-token）影响训练 FLOPs 与推理成本；英文 GPT-4 类约 4 字符/token，中文常更低，见 3.2.6 多语言。

选型决策树：

语种：多语优先 SentencePiece / BPE；中文避免纯空格分词。
词表大小 $V$ ：增大 $V$ 降低序列长度但增大 embedding 与 softmax 开销； $V \approx 32\text{k}\sim 128\text{k}$ 常见。
字节级：从 UTF-8 字节出发可覆盖任意 Unicode，见 3.2.5。
与目标函数一致：因果 LM 在 token 边界预测下一 token；分词错误会改变监督信号。

embedding 参数量 $\approx V \times d_{model}$ ，增大 $V$ 需同步评估 softmax 开销。

本节核心：BPT 与全链路 UNK 协同；上线前用检查清单做回归。

设 hidden $d$ ，序列长 $T$ ，词表 $V$ ：

增大 $V$ 降低 $T$ 但总参数可能上升；需在目标 GPU 上做 tokens/s 实测。