跳到主要内容

整体架构概览

要解决的问题

如何将 可变长序列 映射到 可变长输出(翻译、摘要)或 下一 token 分布(语言模型)?Transformer 用 自注意力 + 前馈网络 + 残差 堆叠,摆脱 RNN 的顺序瓶颈。

Encoder-Decoder 整体(原始论文)

Vaswani et al., 2017 提出:

现代 LLM 主流:Decoder-only

GPT、Llama、Qwen 等仅保留 Decoder 栈 + 因果掩码,预训练目标为 CLM(见 3.3.1)。三大范式对比见 2.2.3

单层 Transformer Block(Pre-LN 常见)

x=x+Attention(LN(x))\mathbf{x}' = \mathbf{x} + \text{Attention}(\text{LN}(\mathbf{x})) x=x+FFN(LN(x))\mathbf{x}'' = \mathbf{x}' + \text{FFN}(\text{LN}(\mathbf{x}'))

组件专章:

组件章节
缩放点积注意力2.1.2
多头注意力2.1.3
位置编码2.1.4
FFN2.1.5
残差与归一化2.1.6

复杂度提示

序列长度 LL,隐藏维 dd,层数 NN:自注意力约 O(L2d)O(L^2 d) 每层;长上下文改进见 2.3.6 稀疏注意力

参考链接