跳到主要内容

LLMs 占位文档补全清单

已完成（2026-06-04）：138 篇占位正文已全部替换为深度笔记。下文保留批次索引供查阅。

B1 — 预训练数据（5）✅

03-pre-training/01-pretraining-data/01-data-sources.md
03-pre-training/01-pretraining-data/02-cleaning-deduplication.md
03-pre-training/01-pretraining-data/03-quality-filtering.md
03-pre-training/01-pretraining-data/04-data-mixture.md
03-pre-training/01-pretraining-data/05-data-licensing.md

B2 — 分词 + 预训练目标（11）

B3 — Scaling + 分布式（12）

B4 — 训练稳定性（5）

03-pre-training/06-training-stability/01-mixed-precision.md
03-pre-training/06-training-stability/02-gradient-accumulation-clipping.md
03-pre-training/06-training-stability/03-checkpointing-recomputation.md
03-pre-training/06-training-stability/04-divergence-diagnosis.md
03-pre-training/06-training-stability/05-loss-spike.md

B5 — SFT / 指令 / RLHF（17）

B6 — DPO / CAI / PEFT（13）

B7 — 推理部署（23）

见 rg -l "正文由大纲自动补全生成" llms/05-inference-deployment

B8 — 推理能力 + 评估（22）

见 llms/06-reasoning-test-time-compute 与 llms/07-evaluation

B9 — 技术报告占位（11）

见 llms/08-technical-reports（排除已 rich 的 K2、GLM-4.6、V3.2、gpt-oss）

B10 — 前沿（18）

见 llms/09-frontier-future（排除 01-mamba-ssm.md）

B11 — 附录（7）

见 llms/10-appendix