给从业者的建议
要解决的问题
信息过载、榜单焦虑、工具链日更——如何 投入时间 才能稳定交付 可评测、可维护 的 LLM 产品?
按角色的最短路径
| 角色 | 优先精读 | 动手 |
|---|---|---|
| 应用工程师 | 4.1 SFT、5.1 解码、5.6 服务、docs RAG/Agent | vLLM + 一个小 benchmark |
| 训练工程师 | 3.1 数据、3.5 并行、3.6 稳定、4.3–4.4 对齐 | LoRA/QLoRA 复现 |
| 推理工程师 | 5.2 KV、5.3 量化、5.5 投机解码 | 压测 TTFT/tokens/s |
| 研究员 | 2.3 改进、6.2 测试时、7.2 评测、8 报告 | 复现一篇论文 ablation |
| 管理者 | 3.4 Scaling、7.1 基准、9.4 边界 | 定义 业务指标 非 MMLU |
十条实践原则
- 评测先行:上线前固定 prompt 集与 回归脚本。
- 基线朴素:先 zero-shot + RAG,再上大模型微调。
- 记录配方:数据 hash、超参、权重版本 可复现。
- 分离思考成本:推理模型设 token 预算 与超时。
- 工具验证:数学/代码 执行器 优先于 CoT 自洽。
- 监控幻觉率:抽样人工 + 自动事实核查(能做的域)。
- 对齐合规:用户数据 不进 默认训练;隐私删除路径。
- 别追每一个新模型:等 推理栈成熟 再迁移(2–4 周)。
- 读 primary source:技术报告 > 自媒体摘要。
- 贡献开源:修文档、报 vLLM issue,反哺社区。
学习资源(本仓库)
- 深度领读:paper-reading
- Agent:docs
- 附录工具表:附录 D
- 面试题:附录 G