附录 A 数学符号与公式速查
本附录汇总 LLM 大纲各章常用 符号、损失与复杂度,便于跨章节对照。详细推导见对应正文。
通用符号
| 符号 | 含义 |
|---|
| L | 序列长度(token 数) |
| B | batch size |
| d,dmodel | 隐藏维度 |
| H | 注意力头数 |
| dh | 每头维度,常 dh=d/H |
| N,Nl | Transformer 层数 |
| V | 词表大小 |
| θ | 模型参数 |
语言建模
下一 token 负对数似然(因果 LM):
LLM=−t=1∑Llogpθ(xt∣x<t)
交叉熵与 perplexity:
PPL=exp(−L1t∑logp(xt∣x<t))
注意力
Scaled dot-product:
Attention(Q,K,V)=softmax(dhQK⊤)V
多头:
headi=Attention(QWiQ,KWiK,VWiV),MHA=Concat(head1,…)WO
复杂度(稠密): 每层约 O(L2d) FLOPs,KV 存储 O(Ld) per layer。
位置编码(RoPE 直觉)
对二维子空间应用旋转矩阵 Rθ,m,θ 与维度、位置 m 相关;外推时调整 base 或插值(见 9.1.2)。
归一化
LayerNorm:
LN(x)=γ⊙σ+ϵx−μ+β
RMSNorm: 省略均值项,只 RMS 缩放。
AdamW 更新:
θt+1=θt−η(v^+ϵm^+λθt)
梯度裁剪: 若 ∥g∥2>τ,则 g←g⋅τ/∥g∥2。
对齐损失
DPO(示意):
LDPO=−E[logσ(βlogπref(yw∣x)πθ(yw∣x)−βlogπref(yl∣x)πθ(yl∣x))]
RLHF 奖励目标: maxθE[r(x,y)−βKL(πθ∥πref)]。
MoE
路由: top-k 专家选择,负载均衡 aux loss 或动态 bias(DeepSeek 无 aux)。
激活参数量: 每 token 仅计 k 个专家 FFN + 共享部分。
推理与 KV
KV cache 体积(每层、每序列,量级):
MemKV≈2×L×H×dh×bytes
(MLA 等压缩结构见 5.2.1。)
Scaling(Chinchilla 直觉)
最优 token 数 D 与参数量 N 近似 D∝N0.74(以 Hoffmann 等为准,具体指数随设定略变)。
相关章节