AGI 时间线与争论
要解决的问题
「何时实现 AGI / 超越人类智能?」影响 投资、监管、职业规划。需区分 预测市场、专家调查、公司营销 与 可操作的技术指标。
AGI 定义分歧
| 定义流派 | 标准 |
|---|---|
| 通用任务 | 多数认知工作 ≥ 人类中位 |
| 经济影响 | 自动化 50% 有偿工作 |
| 图灵强 | 长期对话不可区分人类 |
| 科学发现 | 自主做出诺奖级突破 |
定义不同 → 时间线 不可比。
常见论据
乐观:
- Scaling law 仍有效;测试时 compute 补训练不足。
- 多模态 + Agent + 工具 → 闭环能力 快速提升。
谨慎:
调查与预测(动态,勿死记年份)
- Metaculus、AI Impacts 等聚合预测 中位年份 常随新闻摆动。
- 厂商路线图 非承诺;以 可复现评测 为准。
政策时间线(独立于技术)
- EU AI Act、美国 EO、中国备案等 合规节奏 可能早于/晚于技术 AGI。
- 开源权重 政策与 算力集群 审批影响落地速度。
对从业者的含义
- 投资 可验证技能(评测、对齐、系统)而非赌年份。
- 关注 窄域超人类(代码、数学)已发生,≠ 全域 AGI。
- 参与 安全与红队 是长期需求。
个人理解(待验证)
更可能先出现 「AGI-like 产品」(极强 Agent 套件)而非 单模型全能。时间线 5–15 年 宽区间仍合理;突发 RSI 低概率但高影响,值得预案而非日常焦虑。
检查清单(自学 / 落地)
| 步骤 | 动作 |
|---|---|
| 1 | 阅读官方 primary source(报告、博客、模型卡) |
| 2 | 固定 prompt 与解码参数,在自有验证集上建基线 |
| 3 | 记录延迟、成本、上下文长度与是否启用思考模式 |
| 4 | 与相邻章节对照,画出与上下游模块的数据流 |
| 5 | 在 paper-reading 或本 大纲相关节做深度笔记 |
常见误区
| 误区 | 澄清 |
|---|---|
| 公开基准 = 产品表现 | 必须用业务端到端任务回归 |
| 长窗口 = 长理解 | 需 Needle + 真实文档任务验证 |
| 单次实验可定论 | 固定随机种子、数据版本与评测脚本 |
延伸练习
- 复现表中 一行关键结论(ablation 或小型对照实验)。
- 用 附录 D 工具 或 lm-eval 跑通评测脚本。
- 将未知参数整理进 9.5.3 开放问题 个人笔记。
外部参考(精选)
| 类型 | 入口 |
|---|---|
| 原始报告 | 见正文 arXiv / 官方博客链接 |
| 权重与配置 | Hugging Face config.json 与 model card |
| 深度领读 | 见上文 :::tip 或 tech-report 索引 |
| 工具链 | 附录 D 工具生态 |
| 术语 | 附录 B 术语表 |