跳到主要内容

AGI 时间线与争论

要解决的问题

「何时实现 AGI / 超越人类智能？」影响 投资、监管、职业规划。需区分 预测市场、专家调查、公司营销 与 可操作的技术指标。

AGI 定义分歧

定义流派	标准
通用任务	多数认知工作 ≥ 人类中位
经济影响	自动化 50% 有偿工作
图灵强	长期对话不可区分人类
科学发现	自主做出诺奖级突破

定义不同 → 时间线 不可比。

常见论据

乐观：

Scaling law 仍有效；测试时 compute 补训练不足。
多模态 + Agent + 工具 → 闭环能力 快速提升。

谨慎：

基准 饱和≠AGI；真实经济部署摩擦大。
数据墙、电力、芯片出口限制。
缺 持续学习与世界模型（见 9.4.1、9.4.2）。

调查与预测（动态，勿死记年份）

Metaculus、AI Impacts 等聚合预测 中位年份 常随新闻摆动。
厂商路线图 非承诺；以 可复现评测 为准。

政策时间线（独立于技术）

EU AI Act、美国 EO、中国备案等 合规节奏 可能早于/晚于技术 AGI。
开源权重 政策与 算力集群 审批影响落地速度。

对从业者的含义

投资 可验证技能（评测、对齐、系统）而非赌年份。
关注 窄域超人类（代码、数学）已发生，≠ 全域 AGI。
参与 安全与红队 是长期需求。

个人理解（待验证）

更可能先出现 「AGI-like 产品」（极强 Agent 套件）而非 单模型全能。时间线 5–15 年 宽区间仍合理；突发 RSI 低概率但高影响，值得预案而非日常焦虑。

检查清单（自学 / 落地）

步骤	动作
1	阅读官方 primary source（报告、博客、模型卡）
2	固定 prompt 与解码参数，在自有验证集上建基线
3	记录延迟、成本、上下文长度与是否启用思考模式
4	与相邻章节对照，画出与上下游模块的数据流
5	在 paper-reading 或本大纲相关节做深度笔记

常见误区

误区	澄清
公开基准 = 产品表现	必须用业务端到端任务回归
长窗口 = 长理解	需 Needle + 真实文档任务验证
单次实验可定论	固定随机种子、数据版本与评测脚本

延伸练习

复现表中 一行关键结论（ablation 或小型对照实验）。
用附录 D 工具或 lm-eval 跑通评测脚本。
将未知参数整理进 9.5.3 开放问题个人笔记。

外部参考（精选）

类型	入口
原始报告	见正文 arXiv / 官方博客链接
权重与配置	Hugging Face `config.json` 与 model card
深度领读	见上文 `:::tip` 或 tech-report 索引
工具链	附录 D　工具生态
术语	附录 B　术语表

相关章节

能力边界：9.4.1
自我改进：9.4.3
结语：9.5 结语