附录 E 经典论文阅读清单(按主题)
每主题 3–8 篇 奠基或高引 工作;优先读 原始论文 + 本仓库 paper-reading 领读。年份供排序,非完整引用格式。
| 论文 | 主题 | 大纲章节 |
|---|
| Attention Is All You Need (2017) | Transformer | 2.1 |
| RoFormer (2021) | RoPE | 2.1.4 |
| GQA (2023) | 分组查询 | 2.2 |
| Switch Transformer (2021) | MoE | 3.5 |
| DeepSeek-V2/V3 报告 | MLA、MoE | 8.1 |
预训练与 Scaling
| 论文 | 主题 | 章节 |
|---|
| Scaling Laws (Kaplan 2020) | 早期 scaling | 3.4.1 |
| Chinchilla (2022) | 最优 token | 3.4.2 |
| LLaMA (2023) | 数据质量 | 8.3 |
| Dolma / OLMo 2 | 开放数据 | 8.6.4 |
| 论文 | 主题 | 章节 |
|---|
| InstructGPT (2022) | SFT+RLHF | 4.3 |
| Constitutional AI (2022) | 原则对齐 | 4.5.1 |
| DPO (2023) | 直接偏好 | 4.4.1 |
| LoRA (2021) | PEFT | 4.6.3 |
推理与系统
| 论文 | 主题 | 章节 |
|---|
| FlashAttention (2022–23) | IO-aware attention | 5.2.3 |
| PagedAttention (2023) | vLLM | 5.2.2 |
| Speculative Decoding (2023) | 投机解码 | 5.5.1 |
| GPTQ / AWQ | 量化 | 5.3 |
推理能力与测试时 compute
| 论文 | 主题 | 章节 |
|---|
| Chain-of-Thought (2022) | CoT | docs 提示词工程 |
| DeepSeek-R1 (2025) | GRPO 推理 | 8.1.2 |
| Let's Verify Step by Step (2023) | PRM | 6.2.3 |
| AlphaGo / MCTS 经典 | 搜索 | 6.2.4 |
长上下文与新架构
| 论文 | 主题 | 章节 |
|---|
| MMLU (2020) | 综合基准 | 7.1.1 |
| HumanEval (2021) | 代码 | 7.1.1 |
| Judging LLM-as-a-Judge (2023) | 自动评测 | 7.2.2 |
本仓库深度领读