跳到主要内容

附录 E 经典论文阅读清单(按主题)

每主题 3–8 篇 奠基或高引 工作;优先读 原始论文 + 本仓库 paper-reading 领读。年份供排序,非完整引用格式。

Transformer 与架构

论文主题大纲章节
Attention Is All You Need (2017)Transformer2.1
RoFormer (2021)RoPE2.1.4
GQA (2023)分组查询2.2
Switch Transformer (2021)MoE3.5
DeepSeek-V2/V3 报告MLA、MoE8.1

预训练与 Scaling

论文主题章节
Scaling Laws (Kaplan 2020)早期 scaling3.4.1
Chinchilla (2022)最优 token3.4.2
LLaMA (2023)数据质量8.3
Dolma / OLMo 2开放数据8.6.4

对齐

论文主题章节
InstructGPT (2022)SFT+RLHF4.3
Constitutional AI (2022)原则对齐4.5.1
DPO (2023)直接偏好4.4.1
LoRA (2021)PEFT4.6.3

推理与系统

论文主题章节
FlashAttention (2022–23)IO-aware attention5.2.3
PagedAttention (2023)vLLM5.2.2
Speculative Decoding (2023)投机解码5.5.1
GPTQ / AWQ量化5.3

推理能力与测试时 compute

论文主题章节
Chain-of-Thought (2022)CoTdocs 提示词工程
DeepSeek-R1 (2025)GRPO 推理8.1.2
Let's Verify Step by Step (2023)PRM6.2.3
AlphaGo / MCTS 经典搜索6.2.4

长上下文与新架构

论文主题章节
YaRN (2023)位置外推9.1.2
Mamba (2023)SSM9.3.1
RWKV (2023)线性 RNN9.3.2
Jamba (2024)混合架构9.3.3

评估

论文主题章节
MMLU (2020)综合基准7.1.1
HumanEval (2021)代码7.1.1
Judging LLM-as-a-Judge (2023)自动评测7.2.2

本仓库深度领读

路径内容
tech-report 索引开源模型技术报告
paper-reading 根论文笔记
weekly-paper周刊

阅读顺序建议

  1. Transformer → GPT-3/LLaMA → InstructGPT → DPO
  2. FlashAttention → vLLM 博客 → 量化 GPTQ
  3. CoT → R1 报告 → 自选 Agent 论文

相关章节