Pre-LN vs Post-LN

要解决的问题

残差块中 LayerNorm 放在子层之前还是之后，影响训练稳定性与梯度传播。大模型时代 Pre-LN 成为默认。

\mathbf{x}' = \text{LN}(\mathbf{x} + \text{Sublayer}(\mathbf{x}))

\mathbf{x}' = \mathbf{x} + \text{Sublayer}(\text{LN}(\mathbf{x}))

去掉均值中心化，仅缩放 RMS，计算更省；见 2.3.2 归一化改进。

极深网络中的残差缩放策略，见 2.3.2。