基于参考答案的自动评估
要解决的问题
开放生成任务需要 可扩展、可复现 的打分方式。有标准答案或参考文本时,可用精确匹配、F1、BLEU、ROUGE、代码执行等 reference-based 指标,无需调用更强模型作 Judge,成本最低、方差最小(在 parser 正确前提下)。
核心概念
| 指标 | 适用 | 公式/定义 |
|---|---|---|
| Exact Match (EM) | QA、短答案 | |
| Token F1 | 抽取式 QA | on tokens |
| BLEU | 翻译、摘要 | n-gram 精确率几何平均 |
| ROUGE-L | 摘要 | LCS F1 |
| pass@k | 代码 | 见 7.1.2 |
| ANLS | DocVQA | 编辑距离阈值 |
归一化 EM(数学常用):
norm 含去 LaTeX、sympy 化简、浮点容差。
方法 / 实践清单
- 选择题:取
(A)正则;与 7.1.1 MMLU 一致。 - 数学:
\\boxed{}+ sympy;失败样本人工抽检 100 条估 parser 误差。 - 代码:sandbox 跑官方 tests;超时记 fail。
- 生成摘要:BLEU/ROUGE 仅作辅助,与人类评相关性弱。
工程实践
- 固化 后处理脚本 版本于评测 repo。
- 报告 parse failure rate;高则说明指标低估模型。
- 与 5.1.2 采样 固定
temperature=0用于 MCQ。
代表工作
- Rajpurkar et al., SQuAD EM/F1;Papineni et al., BLEU
- Chen et al., HumanEval pass@k
实践检查清单
- 固定评测/推理配置(温度、max_tokens、parser 版本)便于回归
- 记录硬件:GPU 型号、驱动、框架 commit
- 对比基线:未优化前 TTFT/TPOT 或 Acc
- 文档化失败案例:OOM、解析失败率、拒答率
- 交叉阅读本章「相关章节」避免孤立优化
局限与注意点
- 开放问答 无单一参考答案 时 EM 失效 → 7.2.2 Judge。
- 同义改写被判错(中文尤甚);可考虑语义 EM(待验证成本)。
- RLVR 验证器即 reference-based reward(6.3.2)。
术语速记
正文英文术语与开源实现(GitHub、Hugging Face)命名一致,便于检索源码与 Issue。
延伸阅读
- 本仓库 LLMs 入口 可回溯全局大纲;修改单点优化前建议先读上下游章节链接。
- 技术报告精读见
llms/08-technical-reports/与 paper-reading 专栏。 - 工程复现优先锁定:框架版本 + 量化格式 + 评测 harness commit,三者缺一即难以对齐论文数字。
相关章节
- 同章:7.2.2 LLM Judge · 7.2.3 人类评 · 7.2.4 污染
- 基准:7.1.1 · 7.1.2