BPE（Byte Pair Encoding）

要解决的问题

词级词表无法覆盖开放域新词；字符级序列过长。BPE 通过迭代合并高频相邻符号对，在固定词表大小下自动发现子词单元，成为 GPT 系、LLaMA、许多开源模型的默认分词算法。

初始词表为字节或字符集合 $\mathcal{V}_0$ 。重复 $K$ 次：

统计语料中相邻对 $(a,b)$ 频率；
选最高频对合并为新符号 ab；
$\mathcal{V} \leftarrow \mathcal{V} \cup \{\text{ab}\}$ ，直到 $|\mathcal{V}| = V_{\text{target}}$ 。

编码时：对未知词从左到右贪心应用已学 merges（按训练时的合并优先级顺序）。

对比项	BPE	WordPiece
合并准则	频率	似然增益
代表模型	GPT-2/3、LLaMA	BERT

训练伪代码逻辑：

corpus → 初始序列（字节或 Unicode 字符）
while vocab_size < target:
    pair = argmax count(a,b)
    merge(a,b) → new_token
    record merge rule

推理编码：

while 可继续合并:
    应用优先级最高的合法 merge
map 子词 → id

Byte-level BPE：初始符号为 256 个字节，任意 UTF-8 文本可表示，避免 UNK。详见 3.2.5。

推理时必须与训练完全相同的 merge 顺序；合并 merges.txt 勿手工编辑。

本节核心：tiktoken 与全链路 pretokenizer 协同；上线前用检查清单做回归。