整体架构概览

要解决的问题

如何将 可变长序列 映射到 可变长输出（翻译、摘要）或 下一 token 分布（语言模型）？Transformer 用 自注意力 + 前馈网络 + 残差 堆叠，摆脱 RNN 的顺序瓶颈。

GPT、Llama、Qwen 等仅保留 Decoder 栈 + 因果掩码，预训练目标为 CLM（见 3.3.1）。三大范式对比见 2.2.3。

\mathbf{x}' = \mathbf{x} + \text{Attention}(\text{LN}(\mathbf{x}))

\mathbf{x}'' = \mathbf{x}' + \text{FFN}(\text{LN}(\mathbf{x}'))

组件专章：

序列长度 $L$ ，隐藏维 $d$ ，层数 $N$ ：自注意力约 $O(L^2 d)$ 每层；长上下文改进见 2.3.6 稀疏注意力。