附录 G 常见面试题与思考题
面向 算法、训练、推理、应用 岗位。答案要点指向大纲章节,面试时应结合 项目经历 展开。
基础与 Transformer
预训练与 Scaling
-
Chinchilla 法则对数据/参数配比的建议?
→ 3.4.2 -
MoE 负载均衡为何重要?DeepSeek 无 aux-loss 怎么做?
→ 8.1.1 -
BPE 与 WordPiece 差异?
→ 3.2
面向 算法、训练、推理、应用 岗位。答案要点指向大纲章节,面试时应结合 项目经历 展开。
Chinchilla 法则对数据/参数配比的建议?
→ 3.4.2
MoE 负载均衡为何重要?DeepSeek 无 aux-loss 怎么做?
→ 8.1.1
BPE 与 WordPiece 差异?
→ 3.2