世界模型与具身智能
要解决的问题
文本 LLM 仅在 符号界 学习统计关联;具身智能 需要感知-行动闭环与世界 动态模型(预测下一状态)。世界模型(World Model)研究如何让 AI 在脑中模拟物理与社会后果。
核心概念
| 术语 | 含义 |
|---|
| 世界模型 | 给定状态 st 与动作 at,预测 st+1 或观测 |
| 具身(Embodied) | 智能体有传感器与执行器(机器人、游戏 avatar) |
| Sim-to-real | 仿真训练迁移真实硬件 |
与 LLM 的结合路径
| 路径 | 描述 |
|---|
| LLM 作高层规划 | 语言分解任务 → 低层策略网络执行 |
| 多模态 LLM | 图像/深度输入 → 语言推理 → 动作 token |
| 视频世界模型 | Sora 类生成模型作 想象 rollout(研究热) |
| VLA 模型 | Vision-Language-Action 端到端策略 |
代表方向(2024–2026)
- RT 系列(Google):机器人 Transformer。
- OpenVLA / π0:开源 VLA 栈。
- 游戏与模拟:Minecraft、MuJoCo 中 LLM 指挥工具 API。
工程栈
- 仿真:Isaac Gym、MuJoCo、Habitat。
- 数据:遥操作演示、人类视频。
- 安全:真实机器人 力矩限制、急停、沙箱。
与纯文本 Agent 对比
| 文本 Agent | 具身 Agent |
|---|
| 反馈 | 工具 stdout | 物理噪声、延迟 |
| 错误成本 | 低(可重试) | 高(损坏、伤人) |
| 数据 | 互联网文本 | 稀缺、贵 |
局限与注意点
- LLM 空间几何 推理仍弱;需 专用感知 模块。
- 世界模型 幻觉 在物理域可 灾难性。
- 伦理:劳动力替代、军事 应用需治理。
- 个人理解:中期产品形态是 「LLM + 仿真规划 + 小模型控制」 分层(待验 证)。
检查清单(自学 / 落地)
| 步骤 | 动作 |
|---|
| 1 | 阅读官方 primary source(报告、博客、模型卡) |
| 2 | 固定 prompt 与解码参数,在自有验证集上建基线 |
| 3 | 记录延迟、成本、上下文长度与是否启用思考模式 |
| 4 | 与相邻章节对照,画出与上下游模块的数据流 |
| 5 | 在 paper-reading 或本大纲相关节做深度笔记 |
常见误区
| 误区 | 澄清 |
|---|
| 公开基准 = 产品表现 | 必须用业务端到端任务回归 |
| 长窗口 = 长理解 | 需 Needle + 真实文档任务验证 |
| 单次实验可定论 | 固定随机种子、数据版本与评测脚本 |
延伸练习
外部参考(精选)
相关章节