跳到主要内容

归一化改进:RMSNorm、DeepNorm

要解决的问题

深层 Transformer 训练需 稳定激活尺度。LayerNorm 有效但略重;RMSNorm 在 LLM 中更常见;DeepNorm 针对极深网络的残差缩放。

RMSNorm

xˉ=xRMS(x),RMS(x)=1dixi2+ϵ\bar{\mathbf{x}} = \frac{\mathbf{x}}{\text{RMS}(\mathbf{x})}, \quad \text{RMS}(\mathbf{x}) = \sqrt{\frac{1}{d}\sum_i x_i^2 + \epsilon}

再乘可学习增益 g\mathbf{g}。相比 LayerNorm 不做减均值,少一次统计量,吞吐略优。

采用:Llama、Qwen、DeepSeek 等主流开源栈。

LayerNorm vs RMSNorm

LayerNormRMSNorm
中心化
计算略高略低
大模型实践早期 GPT-2/3当前主流

DeepNorm

通过 放大残差分支系数(随层数调整),缓解 Post-LN 深层梯度问题;多用于 Post-LN 架构的加深实验,与 Pre-LN+RMSNorm 路线并行存在。

与 Pre-LN 的配合

现代 recipe:Pre-LN + RMSNorm + SwiGLU FFN,见 2.2.4 Pre-LN2.3.3 激活

参考链接