第二部分 Transformer 架构2.1 Transformer 原理("Attention Is All You Need")残差连接与归一化本页总览残差连接与归一化 残差网络 作用: 主要缓解模型信息传递过程中的“退化”现象。 残差的本质在于:给梯度一个高速公路,避免梯度消失 PreNorm vs PostNorm 公式 因为 Pre-Norm 最后一层输出 x_L 没被 LN 过,整个网络末端通常会再补一个 final LayerNorm 再接 unembedding。 对比 Post-Nrom 对于下游 fine-tune 是更友好的(https://www.spaces.ac.cn/archives/9009)