推理延迟的关键指标（TTFT、TPS、TPOT）

要解决的问题

业务方关心「首字多久出来」「每秒多少 token」，工程师关心 Prefill 与 Decode 谁更慢。若指标定义不一致，GPU 优化（KV、FlashAttention、量化）的效果无法在团队间对齐。本节统一 TTFT、TPOT、TPS、ITL 等常用口径。

指标	英文	定义	主要受谁影响
TTFT	Time To First Token	请求发出 → 首个输出 token 可见	Prompt 长度、Prefill、排队
TPOT	Time Per Output Token	Decode 阶段平均每输出 token 耗时	模型大小、量化、KV、批大小
TPS	Tokens Per Second	系统吞吐：输出 token 数 / 墙钟时间	连续批处理、并行度、硬件
ITL	Inter-Token Latency	相邻两个输出 token 的时间间隔	近似 TPOT（单请求）
E2E Latency	End-to-End	整段生成完成时间	TTFT + (#out tokens × TPOT)

近似关系（单请求、忽略排队）：

\text{E2E} \approx \text{TTFT} + N_{\text{out}} \times \text{TPOT}

\text{TPS}_{\text{system}} \approx \frac{\sum_i N_{\text{out},i}}{\text{wall time}} \quad (\text{多请求并发})

分层 profiling：NVIDIA Nsight、PyTorch profiler 区分 prefill vs decode kernel。
负载规格：固定 prompt 长度分布（如 p50=512, p99=8k）与输出长度；否则 TPS 无意义。
并发档位：Reporting 应注明 concurrent requests（1、8、64…）与 batch 策略（见 5.6.2 连续批处理）。

硬件换算（粗估）：Decode 常为 memory-bound；提升 TPOT 优先减 KV 体积（5.2）、量化（5.3）、Speculative（5.5）。