编码器结构

要解决的问题

Encoder 将 源序列 编码为上下文相关的表示，供 Decoder 在 cross-attention 中查询。在 Encoder-Decoder 模型（机器翻译、摘要）中承担「理解输入」角色。

\mathbf{H} = \text{Encoder}(\mathbf{X}) \in \mathbb{R}^{L \times d}

BERT 等仅用 Encoder + MLM，擅长分类与理解，不原生做自回归生成。现代 LLM 主线为 Decoder-only（见 2.2.3 三大范式）。