LLM 能力边界与局限
要解决的问题
在 榜单分数快速上升 时,厘清 LLM 能做什么、不能可靠做什么,避免产品过度承诺与 安全/合规 事故。
相对强项(2025 共识)
| 领域 | 表现 |
|---|
| 开放域语言 | 摘要、翻译、风格改写 |
| 模式丰富的任务 | 代码补全、模板化分析 |
| 启发式推理 | 中等难度数学/逻辑(带 CoT) |
| 工具编排 | 在 可验证环境 下 Agent 循环 |
系统性弱项
| 弱项 | 机制 |
|---|
| 事实幻觉 | 最大似然生成,非知识库查询 |
| 长链错误累积 | 多步推理一步错全盘错 |
| 分布外鲁棒 | 新 API、新格式易崩 |
| 因果与物理 | 缺乏 grounded 世界模型 |
| 持续学习 | 权重静态,更新昂贵 |
能力 vs 评测分数
- 饱和基准(MMLU 高分)≠ 专业域可靠。
- LLM-as-judge 循环加分风险。
- 污染 使公开榜 乐观(见 7.2.4)。
安全边界
- 对齐 降低有害输出,不能消除 越狱 与 提示注入。
- 高能力模型 在 Agent 场景可 放大 滥用(自动钓鱼、漏洞利用辅助)。
工程含义
- 人在回路 用于高后果决策(医疗、法律、金融)。
- 工具验证 优先于模型自说自话。
- 监控 漂移、异常输出率、工具失败率。
个人理解(待验证)
「通用人工智能雏形」可能 = 强模式匹配 + 大规模工具生态,而非人类式 单一世界模型。边界会随 测试时 compute 上移,但 可验证性缺口 仍将存在。
检查清单(自学 / 落地)
| 步骤 | 动作 |
|---|
| 1 | 阅读官方 primary source(报告、博客、模型卡) |
| 2 | 固定 prompt 与解码参数,在自有验证集上建基线 |
| 3 | 记录延迟、成本、上下文长度与是否启用思考模式 |
| 4 | 与相邻章节对照,画出与上下游模块的数据流 |
| 5 | 在 paper-reading 或本大纲相关节做深度笔记 |
常见误区
| 误区 | 澄清 |
|---|
| 公开基准 = 产品表现 | 必须用业务端到端任务回归 |
| 长窗口 = 长理解 | 需 Needle + 真实文档任务验证 |
| 单次实验可定论 | 固定随机种子、数据版本与评测脚本 |
延伸练习
外部参考(精选)
相关章节