LLMs 发展历程
大语言模型(Large Language Models, LLMs)的发展历程是人工智能领域的一个重要里程碑,其演进标志着从传统的统计语言模型到基于深度学习的模型的转变,并最终发展为今天我们所见的高效、多功能的AI系统。
发展时间线
2017年:Transformer 架构诞生
Attention Is All You Need
Google 发布论文《Attention Is All You Need》,提出了 Transformer 架构,引入了自注意力机制(Self-Attention)。这一架构彻底改变了自然语言处理(NLP)领域,成为现代几乎所有大型语言模型(如 GPT、BERT 等)的基石。
2018年:预训练语言模型时代开启
BERT 与 GPT-1
- BERT(Bidirectional Encoder Representations from Transformers):Google 发布,采用双向编码器架构,在多项 NLP 任务上取得突破性进展
- GPT-1(Generative Pre-trained Transformer):OpenAI 发布首个 GPT 模型,拥有 1.17亿参数,通过无监督学习在大量文本数据上进行预训练,标志着预训练语言模型时代的开始
2019年:模型规模扩大
GPT-2
OpenAI 发布 GPT-2,参数量达到 15亿。GPT-2 在多项自然语言处理任务上取得显著进步,包括阅读理解、文本生成和翻译等。其生成文本质量之高,以至于初期 OpenAI 出于对潜在滥用的担忧,决定暂时不完全开放模型。
2020年:大模型革命
GPT-3
GPT-3 的问世彻底改变了游戏规则:
- 参数量达到 1750亿
- 展现了"少量学习"(Few-shot Learning)的能力,即在仅给定少量示例的情况下就能完成特定任务
- 极大地扩展了 AI 在写作、编程、艺术创作等领域的应用范围
2022年:ChatGPT 引爆全球
ChatGPT 发布
- 基于 GPT-3.5 架构,经过人类反馈强化学习(RLHF)的微调
- 能够生成流畅、连贯、有逻辑的对话
- 在两个月内用户数突破 1 亿,成为历史上增长最快的消费级应用
2023年:多模态与推理能力突破
GPT-4
- OpenAI 发布 GPT-4,支持多模态输入(文本+图像)
- 在理解复杂文本、逻辑推理和跨领域知识整合等方面取得重大突破
- 进一步提高了文本生成的质量和准确性
开源模型崛起
- LLaMA(Meta):开源大语言模型,推动开源社区发展
- ChatGLM(智谱AI):中文大语言模型
- 文心一言(百度)、通义千问(阿里)等国产大模型相继发布