跳到主要内容

附录 E　经典论文阅读清单（按主题）

每主题 3–8 篇 奠基或高引 工作；优先读 原始论文 + 本仓库 paper-reading 领读。年份供排序，非完整引用格式。

Transformer 与架构

论文	主题	大纲章节
Attention Is All You Need (2017)	Transformer	2.1
RoFormer (2021)	RoPE	2.1.4
GQA (2023)	分组查询	2.2
Switch Transformer (2021)	MoE	3.5
DeepSeek-V2/V3 报告	MLA、MoE	8.1

预训练与 Scaling

论文	主题	章节
Scaling Laws (Kaplan 2020)	早期 scaling	3.4.1
Chinchilla (2022)	最优 token	3.4.2
LLaMA (2023)	数据质量	8.3
Dolma / OLMo 2	开放数据	8.6.4

对齐

论文	主题	章节
InstructGPT (2022)	SFT+RLHF	4.3
Constitutional AI (2022)	原则对齐	4.5.1
DPO (2023)	直接偏好	4.4.1
LoRA (2021)	PEFT	4.6.3

推理与系统

论文	主题	章节
FlashAttention (2022–23)	IO-aware attention	5.2.3
PagedAttention (2023)	vLLM	5.2.2
Speculative Decoding (2023)	投机解码	5.5.1
GPTQ / AWQ	量化	5.3

推理能力与测试时 compute

论文	主题	章节
Chain-of-Thought (2022)	CoT	`docs` 提示词工程
DeepSeek-R1 (2025)	GRPO 推理	8.1.2
Let's Verify Step by Step (2023)	PRM	6.2.3
AlphaGo / MCTS 经典	搜索	6.2.4

长上下文与新架构

论文	主题	章节
YaRN (2023)	位置外推	9.1.2
Mamba (2023)	SSM	9.3.1
RWKV (2023)	线性 RNN	9.3.2
Jamba (2024)	混合架构	9.3.3

评估

论文	主题	章节
MMLU (2020)	综合基准	7.1.1
HumanEval (2021)	代码	7.1.1
Judging LLM-as-a-Judge (2023)	自动评测	7.2.2

本仓库深度领读

路径	内容
tech-report 索引	开源模型技术报告
paper-reading 根	论文笔记
weekly-paper	周刊

阅读顺序建议

Transformer → GPT-3/LLaMA → InstructGPT → DPO
FlashAttention → vLLM 博客 → 量化 GPTQ
CoT → R1 报告 → 自选 Agent 论文

相关章节