跳到主要内容

推理基准(GPQA、ARC-AGI、HumanEval、SWE-bench)

要解决的问题

综合榜(7.1.1 MMLU)无法区分 深度推理。推理基准覆盖专家科学问答、抽象模式、代码与软件工程,是 o1/R1 类模型的主战场,需与数学专榜(6.1.1)对照阅读。

核心概念

基准领域指标备注
GPQA研究生级科学 MCQAcc专家难度,钻石子集
ARC-AGI抽象网格推理任务 Acc抗记忆,极低饱和
HumanEvalPython 函数pass@k经典代码
MBPP入门编程pass@1补充 HumanEval
SWE-bench修真实 GitHub issueresolve %Docker 环境
LiveCodeBench持续新题pass@1抗污染

pass@k(HumanEval):

pass@k=E[1(nck)(nk)]\text{pass@k} = \mathbb{E}\left[1-\frac{\binom{n-c}{k}}{\binom{n}{k}}\right]

GPQA:常报 Diamond 子集 Acc;需 CoT + 强 extractor。

方法 / 评测要点

  1. GPQA:闭卷;禁止检索;多选题选项打乱。
  2. ARC-AGI:少样本示例在 prompt;测试泛化非记忆。
  3. HumanEvaltemperature=0.2, n=200 等论文设置需写明。
  4. SWE-bench Verified:子集环境稳定,优先报 Verified。
  5. 推理预算:o1/R1 需足够 max_tokensreasoning_effort6.2.1)。

工程实践

  • 代码评测 必须沙箱;SWE 需 GPU+磁盘配额。
  • 5.1.2 采样 对齐:代码低温、推理可高温。
  • 开源榜:LiveCodeBench、BigCodeBench leaderboard 持续更新。

代表工作

  • Rein et al., GPQA;Chollet, ARC
  • Chen et al., HumanEval;Jimenez et al., SWE-bench
  • DeepSeek-R1、OpenAI o3 系统卡分数

实践检查清单

  • 固定评测/推理配置(温度、max_tokens、parser 版本)便于回归
  • 记录硬件:GPU 型号、驱动、框架 commit
  • 对比基线:未优化前 TTFT/TPOT 或 Acc
  • 文档化失败案例:OOM、解析失败率、拒答率
  • 交叉阅读本章「相关章节」避免孤立优化

局限与注意点

  • HumanEval 饱和,需 LiveCodeBench + SWE。
  • ARC-AGI 样本少,方差大。
  • SWE 环境版本漂移导致复现难(7.2.4)。

延伸阅读

  • 本仓库 LLMs 入口 可回溯全局大纲;修改单点优化前建议先读上下游章节链接。
  • 技术报告精读见 llms/08-technical-reports/paper-reading 专栏。
  • 工程复现优先锁定:框架版本 + 量化格式 + 评测 harness commit,三者缺一即难以对齐论文数字。

相关章节