跳到主要内容

LLM 发展简史(从图灵到 GPT-4 / Claude / Gemini)

更完整时间线见 LLMs 发展历程

要解决的问题

理解 LLM 从何而来,有助于判断 哪些思想是长期主线(缩放、Transformer、自监督),哪些是 工程阶段性方案(特定对齐算法、推理加速)。

阶段划分

时期里程碑要点
1950s–2010s图灵测试、统计 LM、神经网络复兴N-gram → Word2Vec → LSTM/Seq2Seq
2017Transformer自注意力取代 RNN 主干
2018–2019BERT、GPT-2双向编码 vs 自回归生成
2020GPT-3少样本提示、规模效应进入公众视野
2022ChatGPT、开源 LlamaRLHF 产品化、开源生态爆发
2023–2024GPT-4、Claude 3、Gemini、开源 MoE多模态、长上下文、Agent
2024–2026o1/R1、DeepSeek-V3/V4、Qwen3推理时计算、稀疏注意力、百万上下文、超稀疏 MoE

三条技术主线

  1. 架构:RNN → Transformer → MoE / 稀疏注意力 / SSM 探索
  2. 训练:预训练规模 ↑ → 指令微调 → 偏好优化 / 纯 RL 推理(R1)
  3. 系统:单卡 → 3D 并行 → FlashAttention / FP8 / 推测解码 / SGLang

开源 vs 闭源

2023 年后 Llama、Qwen、DeepSeek 等缩小与闭源旗舰的能力差距;技术报告领读见 第八部分paper-reading/tech-report

与本大纲的对应

时代关键词本仓库章节
Transformer第二部分
预训练 / Scaling第三部分
对齐 / DPO / RLHF第四部分
推理 / 量化第五部分
推理模型 o1/R1第六部分

参考链接