推理基准(GPQA、ARC-AGI、HumanEval、SWE-bench)
要解决的问题
综合榜(7.1.1 MMLU)无法区分 深度推理。推理基准覆盖专家科学问答、抽象模式、代码与软件工程,是 o1/R1 类模型的主战场,需与数学专榜(6.1.1)对照阅读。
核心概念
| 基准 | 领域 | 指标 | 备注 |
|---|---|---|---|
| GPQA | 研究生级科学 MCQ | Acc | 专家难度,钻石子集 |
| ARC-AGI | 抽象网格推理 | 任务 Acc | 抗记忆,极低饱和 |
| HumanEval | Python 函数 | pass@k | 经典代码 |
| MBPP | 入门编程 | pass@1 | 补充 HumanEval |
| SWE-bench | 修真实 GitHub issue | resolve % | Docker 环境 |
| LiveCodeBench | 持续新题 | pass@1 | 抗污染 |
pass@k(HumanEval):
GPQA:常报 Diamond 子集 Acc;需 CoT + 强 extractor。
方法 / 评测要点
- GPQA:闭卷;禁止检索;多选题选项打乱。
- ARC-AGI:少样本示例在 prompt;测试泛化非记忆。
- HumanEval:
temperature=0.2, n=200等论文设置需写明。 - SWE-bench Verified:子集环境稳定,优先报 Verified。
- 推理预算:o1/R1 需足够
max_tokens与reasoning_effort(6.2.1)。
工程实践
- 代码评测 必须沙箱;SWE 需 GPU+磁盘配额。
- 与 5.1.2 采样 对齐:代码低温、推理可高温。
- 开源榜:LiveCodeBench、BigCodeBench leaderboard 持续更新。
代表工作
- Rein et al., GPQA;Chollet, ARC
- Chen et al., HumanEval;Jimenez et al., SWE-bench
- DeepSeek-R1、OpenAI o3 系统卡分数
实践检查清单
- 固定评测/推理配置(温度、max_tokens、parser 版本)便于回归
- 记录硬件:GPU 型号、驱动、框架 commit
- 对比基线:未优化前 TTFT/TPOT 或 Acc
- 文档化失败案例:OOM、解析失败率、拒答率
- 交叉阅读本章「相关章节」避免孤立优化
局限与注意点
- HumanEval 饱和,需 LiveCodeBench + SWE。
- ARC-AGI 样本少,方差大。
- SWE 环境版本漂移导致复现难(7.2.4)。
延伸阅读
- 本仓库 LLMs 入口 可回溯全局大纲;修改单点优化前建议先读上下游章节链接。
- 技术报告精读见
llms/08-technical-reports/与 paper-reading 专栏。 - 工程复现优先锁定:框架版本 + 量化格式 + 评测 harness commit,三者缺一即难以对齐论文数字。