混合精度训练（FP16、BF16、FP8）

要解决的问题

FP32 训练百亿参数模型显存与算力双倍浪费。混合精度用低精度做矩阵乘、高精度存关键状态，在几乎不损收敛的前提下将吞吐提升 1.5～2×，并释放显存给更大 batch 或更长序列。

自动混合精度（AMP）：前向/反向 matmul 用 BF16/FP16，权重主副本常 FP32（或 BF16 master weight），优化器更新 FP32。

Loss scaling（FP16）：

L' = s \cdot L, \quad \frac{\partial L}{\partial \theta} = \frac{1}{s}\frac{\partial L'}{\partial \theta}

$s$ 动态调整以防梯度下溢/上溢。

PyTorch 典型配置：

autocast(dtype=torch.bfloat16)
# GradScaler 仅 FP16 需要

Transformer Engine / torch.float8 路径：

与分布式结合时，注意 reduce 精度（FP32 累加梯度更稳）。

A100+ 优先 BF16；V100 用 FP16 + GradScaler；H100 再评估 FP8。

本节核心：amax 与全链路 master weight 协同；上线前用检查清单做回归。