逻辑与符号推理
要解决的问题
自然语言 CoT 对严格逻辑(蕴涵、量化、规划)不可靠:模型会「听起来合理」却违反规则。符号推理要求与形式系统、约束求解器或程序执行结合,基准涵盖逻辑谜题、定理证明、规划与知识图谱问答。
核心概念
| 类型 | 代表基准 | 特点 |
|---|---|---|
| 命题/一阶逻辑 | FOLIO、LogicNLI | 需形式化步骤 |
| 规划 | Blocksworld、PlanBench | 状态转移合法 |
| 定理证明 | miniF2F、Lean 社区 | 需证明助手 |
| 知识推理 | ARC(抽象推理)、ReClor | 模式归纳 |
符号执行混合:
LLM 负责 翻译 自然语言 → 符号;求解器保证_soundness_(在规格正确前提下)。
方法 / 技术路线
- Neuro-symbolic:LLM + Z3/SMT;错误时反馈 counterexample 再生成。
- Toolformer 类:训练模型调用
python、wolfram(见docs/工具使用)。 - 纯 CoT:在简单逻辑集上可用,复杂集掉点快(见 6.1.4)。
- 测试时:PRM 对每步逻辑打分(6.2.3 PRM vs ORM)。
工程实践
代表工作
- Han et al., FOLIO;Clark et al., Think you have Solved Question Answering? Try ARC
- AlphaProof(DeepMind)方向:RL + Lean
- GPT-4 逻辑评测博客;开源 Logic-LM 系列
实践检查清单
- 固定评测/推理配置(温度、max_tokens、parser 版本)便于回归
- 记录硬件:GPU 型号、驱动、框架 commit
- 对比基线:未优化前 TTFT/TPOT 或 Acc
- 文档化失败案例:OOM、解析失败率、拒答率
- 交叉阅读本章「相关章节」避免孤立优化