激活函数改进:SwiGLU、GeGLU
要解决的问题
FFN 中间层需非线性。ReLU 简单但表达力有限;门控线性单元(GLU) 用 sigmoid 门控一路;SwiGLU / GeGLU 成为大模型 FFN 默认。
标准 FFN(原始)
FFN(x)=W2σ(W1x+b1)+b2
常 σ=ReLU,dff=4d。
SwiGLU(Llama 等)
SwiGLU(x)=(W1x)⊙Swish(W2x),Swish(t)=t⋅σ(t)
- 再经 W3 投影回 d
- 参数量略增(三路矩阵),实践中常调 dff 保持总参不变
GeGLU
将 Swish 换为 GELU 门控:(W1x)⊙GELU(W2x)。PaLM 等采用。
| 激活 | 特点 |
|---|
| ReLU | 简单,早期 Transformer |
| GELU | 平滑,BERT/GPT-2 |
| SwiGLU | 当前开源 LLM 最常见 |
| GeGLU | 闭源/部分 Google 路线 |
参考链接