跳到主要内容

推理框架对比(vLLM、TGI、TensorRT-LLM、SGLang、LMDeploy)

要解决的问题

同一 Hugging Face checkpoint 在不同 serving 栈上 TPS、TTFT、功能 可差数倍。选型需对齐业务:高 QPS API、长上下文 Agent、单卡边缘、还是 NVIDIA 全家桶 TensorRT。

核心概念

框架强项KV/注意力典型用户
vLLM连续批处理、PagedAttention、生态Paged + FA云 API、开源首选
TGI (HF)Hub 集成、生产成熟Paged、多硬件企业 HF 栈
TensorRT-LLMNVIDIA 最优 kernel、FP8TRT engineH100 数据中心
SGLangRadixAttention、前端语言、结构化输出Radix + FAAgent、复杂 prompt
LMDeploy中文社区、TurboMindCache + FA昇腾/英伟达混合

功能对比(2025–2026 概览,细节以官方文档为准)

能力vLLMSGLangTRT-LLMTGI
OpenAI API 兼容
Speculative部分
FP8/AWQ/GPTQ
Prefix cacheRadix部分
多模态演进中

方法 / 选型清单

  1. 硬件:仅 NVIDIA → TRT-LLM/vLLM;含 AMD/昇腾 → 查各框架 backend。
  2. 工作负载:高前缀重复 → SGLang(5.2.4)。
  3. 量化格式:与 5.3 导出格式匹配。
  4. 压测:固定并发下测 5.1.4 + 7.1 基准 抽检。

工程实践

  • 版本锁定:推理 kernel 与 transformers、CUDA 强绑定,Docker 镜像固化。
  • 可观测:Prometheus + Grafana:TTFT p99、TPS、KV usage、queue depth。
  • 多模型:路由层 + 独立 replica,避免单进程加载多 giant 模型 OOM。

代表工作

  • vLLM 项目(PagedAttention)
  • SGLang: Efficiently Programming Large Language Models with SGLang
  • NVIDIA TensorRT-LLM 文档

实践检查清单

  • 固定评测/推理配置(温度、max_tokens、parser 版本)便于回归
  • 记录硬件:GPU 型号、驱动、框架 commit
  • 对比基线:未优化前 TTFT/TPOT 或 Acc
  • 文档化失败案例:OOM、解析失败率、拒答率
  • 交叉阅读本章「相关章节」避免孤立优化

局限与注意点

  • 框架间 数值微差 导致评测分数波动(见 7.2.4)。
  • TRT-LLM 编译 engine 耗时,不适合频繁换 checkpoint 的研究迭代。
  • 个人理解:中小团队默认 vLLM;Agent 重前缀场景试 SGLang。

延伸阅读

  • 本仓库 LLMs 入口 可回溯全局大纲;修改单点优化前建议先读上下游章节链接。
  • 技术报告精读见 llms/08-technical-reports/paper-reading 专栏。
  • 工程复现优先锁定:框架版本 + 量化格式 + 评测 harness commit,三者缺一即难以对齐论文数字。

相关章节