综合基准(MMLU、MMLU-Pro、BIG-Bench、HELM)
要解决的问题
模型厂商宣称「最强」,需 覆盖面广、可复现 的横评。综合基准测评多领域知识、指令遵循与常识推理,是论文与模型卡片的第一指标,但也最易遭遇 数据污染 与提示词过拟合(见 7.2.4)。
核心概念
| 基准 | 规模 | 形式 | 指标 |
|---|---|---|---|
| MMLU | 57 科、~14k MCQ | 4 选一 | Acc |
| MMLU-Pro | 更难、10 选项 | 抗猜测 | Acc |
| BIG-Bench | 200+ 任务 | 多样 | 归一化分 |
| BIG-Bench Hard (BBH) | 23 难任务 | CoT 友好 | Acc |
| HELM | 场景框架 | 多指标 | 准、鲁棒、公平等 |
MCQ 准确率:
零样本常用 5-shot 或 CoT + extract 两种设置,不可混报。
方法 / 评测规范
- 提示:统一
Answer: (A)模板;CoT 需固定Let's think step by step。 - 提取:正则取选项字母;失败样本记错(parser 敏感性)。
- 框架:
lm-eval-harness、opencompass锁定版本与temperature=0。 - 子集:MMLU-Pro、MMLU-redux 减少标签噪声。
工程实践
代表工作
- Hendrycks et al., MMLU;Wang et al., MMLU-Pro
- Srivastava et al., BIG-Bench;Liang et al., HELM
- Gao et al.,
lm-evaluation-harness
实践检查清单
- 固定评测/推理配置(温度、max_tokens、parser 版本)便于回归
- 记录硬件:GPU 型号、驱动、框架 commit
- 对比基线:未优化前 TTFT/TPOT 或 Acc
- 文档化失败案例:OOM、解析失败率、拒答率
- 交叉阅读本章「相关章节」避免孤立优化
局限与注意点
- MMLU 训练集泄漏 普遍,高分需配合 held-out 或 Pro/redux。
- BBH CoT 长度影响 5.1.3 max_tokens。
- HELM 全跑成本高,常采子场景。