跳到主要内容

给从业者的建议

要解决的问题

信息过载、榜单焦虑、工具链日更——如何 投入时间 才能稳定交付 可评测、可维护 的 LLM 产品？

按角色的最短路径

角色	优先精读	动手
应用工程师	4.1 SFT、5.1 解码、5.6 服务、`docs` RAG/Agent	vLLM + 一个小 benchmark
训练工程师	3.1 数据、3.5 并行、3.6 稳定、4.3–4.4 对齐	LoRA/QLoRA 复现
推理工程师	5.2 KV、5.3 量化、5.5 投机解码	压测 TTFT/tokens/s
研究员	2.3 改进、6.2 测试时、7.2 评测、8 报告	复现一篇论文 ablation
管理者	3.4 Scaling、7.1 基准、9.4 边界	定义业务指标非 MMLU

十条实践原则

评测先行：上线前固定 prompt 集与 回归脚本。
基线朴素：先 zero-shot + RAG，再上大模型微调。
记录配方：数据 hash、超参、权重版本 可复现。
分离思考成本：推理模型设 token 预算 与超时。
工具验证：数学/代码 执行器 优先于 CoT 自洽。
监控幻觉率：抽样人工 + 自动事实核查（能做的域）。
对齐合规：用户数据不进默认训练；隐私删除路径。
别追每一个新模型：等 推理栈成熟 再迁移（2–4 周）。
读 primary source：技术报告 > 自媒体摘要。
贡献开源：修文档、报 vLLM issue，反哺社区。

学习资源（本仓库）

深度领读：paper-reading
Agent：docs
附录工具表：附录 D
面试题：附录 G

常见陷阱

陷阱	对策
只看 MMLU	加业务端到端指标
微调一切	先 prompt + RAG
忽视上下文截断	测真实日志长度分布
开源权重无许可审查	法务看商用条款

职业趋势（个人理解，待验证）

「LLM 工程师」 分化：数据、对齐、推理、Agent 四条线。
评测与红队 需求上升。
纯提示词岗位 被 Agent 编排 吸收，但 领域知识 更值钱。

检查清单（自学 / 落地）

步骤	动作
1	阅读官方 primary source（报告、博客、模型卡）
2	固定 prompt 与解码参数，在自有验证集上建基线
3	记录延迟、成本、上下文长度与是否启用思考模式
4	与相邻章节对照，画出与上下游模块的数据流
5	在 paper-reading 或本大纲相关节做深度笔记

常见误区

误区	澄清
公开基准 = 产品表现	必须用业务端到端任务回归
长窗口 = 长理解	需 Needle + 真实文档任务验证
单次实验可定论	固定随机种子、数据版本与评测脚本

延伸练习

复现表中 一行关键结论（ablation 或小型对照实验）。
用附录 D 工具或 lm-eval 跑通评测脚本。
将未知参数整理进 9.5.3 开放问题个人笔记。

相关章节

全景回顾：9.5.1
开放问题：9.5.3
PEFT 选型：4.6.5