位置编码（正弦位置编码、可学习位置编码）

要解决的问题

Self-Attention 对 token 置换不变（仅依赖两两关系），无法区分顺序。位置编码（Positional Encoding）向表示中注入 位置信息。

PE_{(pos, 2i)} = \sin(pos / 10000^{2i/d}), \quad PE_{(pos, 2i+1)} = \cos(pos / 10000^{2i/d})

为每个位置 $pos \in [0, L_{\max})$ 学习向量 $\mathbf{p}_{pos}$ 。灵活但 超过 $L_{\max}$ 需外推或插值。

不在输入相加，而在 Q、K 上旋转，编码相对距离；长上下文外推见 2.3.1 位置编码改进（RoPE、ALiBi、YaRN）。

\mathbf{x}_t = \mathbf{E}_{token(t)} + \mathbf{PE}_t \quad \text{（绝对方案）}

Decoder-only LM 通常 因果 mask + RoPE 组合。