神经网络与前向传播

要解决的问题

如何用可微分的函数堆叠，将输入（如文本 embedding、图像像素）映射到输出（如 logits、类别）？前向传播定义了从输入到预测的计算图，是训练与推理的基础。

\mathbf{z} = \mathbf{W}\mathbf{x} + \mathbf{b}, \quad \mathbf{h} = \sigma(\mathbf{z})

堆叠 $L$ 层： $\mathbf{h}^{(0)}=\mathbf{x}$ ， $\mathbf{h}^{(l)} = \sigma(\mathbf{W}^{(l)}\mathbf{h}^{(l-1)}+\mathbf{b}^{(l)})$ 。

Transformer 中 FFN 即两层 MLP + 激活（常 SwiGLU），见 2.1.5 前馈网络。

单层线性：参数量 $\approx d_{\text{in}} \times d_{\text{out}}$ ；FLOPs 与同阶。LLM 总参数主要集中在 Attention 与 FFN 的线性层。

前向得到 loss 后，反向传播（见 1.3.2）沿计算图求梯度，更新 $\mathbf{W},\mathbf{b}$ 。