整体架构概览
要解决的问题
如何将 可变长序列 映射到 可变长输出(翻译、摘要)或 下一 token 分布(语言模型)?Transformer 用 自注意力 + 前馈网络 + 残差 堆叠,摆脱 RNN 的顺序瓶颈。
Encoder-Decoder 整体(原始论文)
现代 LLM 主流:Decoder-only
GPT、Llama、Qwen 等仅保留 Decoder 栈 + 因果掩码,预训练目标为 CLM(见 3.3.1)。三大范式对比见 2.2.3。
单层 Transformer Block(Pre-LN 常见)
组件专章:
| 组件 | 章节 |
|---|---|
| 缩放点积注意力 | 2.1.2 |
| 多头注意力 | 2.1.3 |
| 位置编码 | 2.1.4 |
| FFN | 2.1.5 |
| 残差与归一化 | 2.1.6 |
复杂度提示
序列长度 ,隐藏维 ,层数 :自注意力约 每层;长上下文改进见 2.3.6 稀疏注意力。
参考链接
- 原论文:Attention Is All You Need
- docs 导读:Transformer(默认文档区)