跳到主要内容

计算最优 vs 推理最优

要解决的问题

Chinchilla 回答「固定训练算力下如何配 NNDD」,但产品更关心「固定推理预算下哪个 checkpoint 最好用」。训练 compute-optimal 模型往往参数较小;部署时可能更想要大参数、相对欠训练的模型,因同延迟下宽模型有时更强。需在训练账单与 serving 成本间显式权衡。

核心概念

目标优化变量典型场景
Compute-optimal最小化训练 loss @ 固定 CC研究、单次预训练
Inference-optimal最大化任务质量 @ 固定延迟/显存API、边缘设备

推理成本粗估(自回归 decode):

LatencyNactive×Tout,MemoryN+Tdkv\text{Latency} \propto N_{\text{active}} \times T_{\text{out}}, \quad \text{Memory} \propto N + T \cdot d_{\text{kv}}

训练多吃的 token(更大 DD不增加推理参数,但增加训练时间与数据工程成本。

方法/算法

决策框架:

  1. 若训练一次、推理亿万次:可接受「过训练」小模型(Chinchilla)降低单次推理参数。
  2. 若推理必须最强、训练只做一次:可能选 NlargeN_{\text{large}} + 次优 DD(Gopher 类)。
  3. 蒸馏:训练大 teacher、部署小 student,解耦两阶段最优。
  4. MoE:训练大总参数、推理仅激活子集,见技术报告章节。

工程实践

  • API 定价:按 token 计费时,BPT(分词)与 NN 共同决定毛利。
  • 量化与剪枝第五部分推理 可弥补选大 NN 的劣势。
  • SLA:P99 延迟固定时,profile 不同 checkpoint 的 quality-latency 曲线。
  • 开源权重:Hugging Face 上 7B/13B 常比 70B Chinchilla-optimal 更易部署,生态选择影响「实际最优」。

代表工作

局限与注意点

  • 缺少统一公式:推理最优 N,DN,D 依赖硬件(A100 vs H100 vs NPU)、批大小、量化位宽。
  • 测试时计算第六部分 改变「推理」定义。
  • 多租户:连续批处理下 throughput-optimal 又与单请求 latency-optimal 冲突。
  • 环境成本:大模型训练碳排放与「更大 NN」政策考量。

延伸说明

在目标 TPS 下扫 checkpoint,画 quality–latency 曲线再定发布版本。

实践检查清单

  • 蒸馏
  • MoE
  • 量化

小结

本节核心:蒸馏 与全链路 MoE 协同;上线前用检查清单做回归。

决策矩阵(示意)

约束倾向策略
训练预算固定Chinchilla 小 NNDD
单次推理质量优先较大 NN、相对少 DD
边缘部署NN + 量化 + 蒸馏

产品期应重新测量,训练期最优 ≠ 上线最优。

相关章节