跳到主要内容

LLM 能力边界与局限

要解决的问题

在 榜单分数快速上升 时，厘清 LLM 能做什么、不能可靠做什么，避免产品过度承诺与 安全/合规 事故。

相对强项（2025 共识）

领域	表现
开放域语言	摘要、翻译、风格改写
模式丰富的任务	代码补全、模板化分析
启发式推理	中等难度数学/逻辑（带 CoT）
工具编排	在可验证环境下 Agent 循环

系统性弱项

弱项	机制
事实幻觉	最大似然生成，非知识库查询
长链错误累积	多步推理一步错全盘错
分布外鲁棒	新 API、新格式易崩
因果与物理	缺乏 grounded 世界模型
持续学习	权重静态，更新昂贵

能力 vs 评测分数

饱和基准（MMLU 高分）≠ 专业域可靠。
LLM-as-judge 循环加分风险。
污染使公开榜乐观（见 7.2.4）。

安全边界

对齐降低有害输出，不能消除越狱与 提示注入。
高能力模型 在 Agent 场景可放大滥用（自动钓鱼、漏洞利用辅助）。

工程含义

人在回路 用于高后果决策（医疗、法律、金融）。
工具验证 优先于模型自说自话。
监控漂移、异常输出率、工具失败率。

个人理解（待验证）

「通用人工智能雏形」可能 = 强模式匹配 + 大规模工具生态，而非人类式 单一世界模型。边界会随 测试时 compute 上移，但 可验证性缺口 仍将存在。

检查清单（自学 / 落地）

步骤	动作
1	阅读官方 primary source（报告、博客、模型卡）
2	固定 prompt 与解码参数，在自有验证集上建基线
3	记录延迟、成本、上下文长度与是否启用思考模式
4	与相邻章节对照，画出与上下游模块的数据流
5	在 paper-reading 或本大纲相关节做深度笔记

常见误区

误区	澄清
公开基准 = 产品表现	必须用业务端到端任务回归
长窗口 = 长理解	需 Needle + 真实文档任务验证
单次实验可定论	固定随机种子、数据版本与评测脚本

延伸练习

复现表中 一行关键结论（ablation 或小型对照实验）。
用附录 D 工具或 lm-eval 跑通评测脚本。
将未知参数整理进 9.5.3 开放问题个人笔记。

外部参考（精选）

类型	入口
原始报告	见正文 arXiv / 官方博客链接
权重与配置	Hugging Face `config.json` 与 model card
深度领读	见上文 `:::tip` 或 tech-report 索引
工具链	附录 D　工具生态
术语	附录 B　术语表

相关章节

世界模型：9.4.2
自我改进：9.4.3
评估：第七部分