跳到主要内容

附录 G　常见面试题与思考题

面向 算法、训练、推理、应用 岗位。答案要点指向大纲章节，面试时应结合 项目经历 展开。

基础与 Transformer

自回归 LM 损失如何写？与 MLM 有何区别？
→ 1.1.1、3.3.1
Scaled dot-product 为何要除以 $\sqrt{d_h}$ ？
→ 2.1.2
RoPE 相对位置编码的核心思想？
→ 2.1.4
GQA 相比 MHA 省什么？
→ KV 头数减少，推理省显存。

预训练与 Scaling

Chinchilla 法则对数据/参数配比的建议？
→ 3.4.2
MoE 负载均衡为何重要？DeepSeek 无 aux-loss 怎么做？
→ 8.1.1
BPE 与 WordPiece 差异？
→ 3.2

对齐

RLHF 三阶段 pipeline？
→ 4.3.1
DPO 相对 PPO 的优缺点？
→ 4.4.1
灾难性遗忘如何缓解？
→ replay、LoRA、4.1.4

推理与系统

KV cache 显存如何估算？
→ 5.2.1、附录 A
PagedAttention 解决什么问题？
→ 5.2.2
投机解码成立条件？
→ 草稿与目标分布接近，5.5.1
INT4 量化为何可能掉点？
→ 5.3

推理与 Agent

GRPO 与 PPO 的关键区别？
→ 无 critic，组内基线，6.3.1
测试时 compute 与训练 scaling 关系？
→ 正交杠杆，6.2.5
RAG 何时优于微调？
→ 知识更新频、可解释检索、docs

评估与前沿

基准污染如何检测？
→ 7.2.4
Needle 测试局限？
→ 9.1.3
LLM 幻觉根因与缓解？
→ 生成式目标、工具验证、RAG，9.4.1

系统设计题（白板）

设计一个日活百万的 Chat API：模型服务、限流、缓存、评测回归。
→ 5.6
如何在 8×A100 上微调 70B？
→ QLoRA、FSDP、DeepSpeed ZeRO，4.6.3
Agent 调用工具失败如何重试？
→ 状态机、指数退避、人工升级，docs Agent

思考题（无标准答案）

开源权重是否加速或阻碍 AGI 安全？
→ 9.4.3
五年后主导架构仍是 Transformer 吗？
→ 9.3

相关章节

术语：附录 B
模型表：附录 C
从业者建议：9.5.2