跳到主要内容

附录 G 常见面试题与思考题

面向 算法、训练、推理、应用 岗位。答案要点指向大纲章节,面试时应结合 项目经历 展开。

基础与 Transformer

  1. 自回归 LM 损失如何写?与 MLM 有何区别?
    1.1.13.3.1

  2. Scaled dot-product 为何要除以 dh\sqrt{d_h}
    2.1.2

  3. RoPE 相对位置编码的核心思想?
    2.1.4

  4. GQA 相比 MHA 省什么?
    → KV 头数减少,推理省显存。

预训练与 Scaling

  1. Chinchilla 法则对数据/参数配比的建议?
    3.4.2

  2. MoE 负载均衡为何重要?DeepSeek 无 aux-loss 怎么做?
    8.1.1

  3. BPE 与 WordPiece 差异?
    3.2

对齐

  1. RLHF 三阶段 pipeline?
    4.3.1

  2. DPO 相对 PPO 的优缺点?
    4.4.1

  3. 灾难性遗忘如何缓解?
    → replay、LoRA、4.1.4

推理与系统

  1. KV cache 显存如何估算?
    5.2.1附录 A

  2. PagedAttention 解决什么问题?
    5.2.2

  3. 投机解码成立条件?
    → 草稿与目标分布接近,5.5.1

  4. INT4 量化为何可能掉点?
    5.3

推理与 Agent

  1. GRPO 与 PPO 的关键区别?
    → 无 critic,组内基线,6.3.1

  2. 测试时 compute 与训练 scaling 关系?
    → 正交杠杆,6.2.5

  3. RAG 何时优于微调?
    → 知识更新频、可解释检索、docs

评估与前沿

  1. 基准污染如何检测?
    7.2.4

  2. Needle 测试局限?
    9.1.3

  3. LLM 幻觉根因与缓解?
    → 生成式目标、工具验证、RAG,9.4.1

系统设计题(白板)

  1. 设计一个日活百万的 Chat API:模型服务、限流、缓存、评测回归。
    5.6

  2. 如何在 8×A100 上微调 70B?
    → QLoRA、FSDP、DeepSpeed ZeRO,4.6.3

  3. Agent 调用工具失败如何重试?
    → 状态机、指数退避、人工升级,docs Agent

思考题(无标准答案)

  1. 开源权重是否 加速阻碍 AGI 安全?
    9.4.3

  2. 五年后主导架构仍是 Transformer 吗?
    9.3

相关章节