跳到主要内容

LLM 能力边界与局限

要解决的问题

榜单分数快速上升 时,厘清 LLM 能做什么、不能可靠做什么,避免产品过度承诺与 安全/合规 事故。

相对强项(2025 共识)

领域表现
开放域语言摘要、翻译、风格改写
模式丰富的任务代码补全、模板化分析
启发式推理中等难度数学/逻辑(带 CoT)
工具编排可验证环境 下 Agent 循环

系统性弱项

弱项机制
事实幻觉最大似然生成,非知识库查询
长链错误累积多步推理一步错全盘错
分布外鲁棒新 API、新格式易崩
因果与物理缺乏 grounded 世界模型
持续学习权重静态,更新昂贵

能力 vs 评测分数

  • 饱和基准(MMLU 高分)≠ 专业域可靠。
  • LLM-as-judge 循环加分风险。
  • 污染 使公开榜 乐观(见 7.2.4)。

安全边界

  • 对齐 降低有害输出,不能消除 越狱提示注入
  • 高能力模型 在 Agent 场景可 放大 滥用(自动钓鱼、漏洞利用辅助)。

工程含义

  1. 人在回路 用于高后果决策(医疗、法律、金融)。
  2. 工具验证 优先于模型自说自话。
  3. 监控 漂移、异常输出率、工具失败率。

个人理解(待验证)

「通用人工智能雏形」可能 = 强模式匹配 + 大规模工具生态,而非人类式 单一世界模型。边界会随 测试时 compute 上移,但 可验证性缺口 仍将存在。

检查清单(自学 / 落地)

步骤动作
1阅读官方 primary source(报告、博客、模型卡)
2固定 prompt 与解码参数,在自有验证集上建基线
3记录延迟、成本、上下文长度与是否启用思考模式
4与相邻章节对照,画出与上下游模块的数据流
5paper-reading 或本大纲相关节做深度笔记

常见误区

误区澄清
公开基准 = 产品表现必须用业务端到端任务回归
长窗口 = 长理解需 Needle + 真实文档任务验证
单次实验可定论固定随机种子、数据版本与评测脚本

延伸练习

外部参考(精选)

类型入口
原始报告见正文 arXiv / 官方博客链接
权重与配置Hugging Face config.json 与 model card
深度领读见上文 :::tiptech-report 索引
工具链附录 D 工具生态
术语附录 B 术语表

相关章节