数学推理(GSM8K、MATH、AIME)
要解决的问题
LLM 在小学应用题到竞赛级数学上表现悬殊:会套模板却算错中间步、单位混淆、无法自我验证。数学推理是检验链式思维(CoT)、工具调用与测试时计算(第六部分)的标杆域,基准从 GSM8K 扩展到 MATH、AIME、Olympiad。
核心概念
| 基准 | 难度 | 答案形式 | 常用指标 |
|---|---|---|---|
| GSM8K | 小学多步 | 整数/有理数 | Acc(末行数字匹配) |
| MATH | 竞赛分类 | LaTeX | 分级 Acc |
| MATH-500 | MATH 子集 | 同上 | 快速评测 |
| AIME / AMC | 美国竞赛 | 0–999 整数 | 近年推理模型主打 |
| OlympiadBench | 奥数 | 证明/构造 | 更难,人工多 |
CoT 提示(标准):
可验证奖励(RLVR,见 6.3.2):答案 与标准 经规则/parser 比对:
方法 / 提升路径
- SFT on CoT:高质量步骤数据(4.1 SFT)。
- 测试时 compute:采样多条链 + majority vote(6.2.4 MCTS)。
- RL:GRPO + 可验证奖励(6.3.1 GRPO、DeepSeek-R1)。
- 工具:Python 解释器执行中间式(符号混合见 6.1.3)。
工程实践
- 评测:固定
temperature=0或 pass@k;报告 k=1/16/64。 - 解析器:
\\boxed{}、\answer多模板;parser 错误会系统性低估模型。 - 成本:AIME 级单题可消耗 10k+ thinking tokens(6.2.5 Scaling)。
代表工作
- Cobbe et al., GSM8K;Hendrycks et al., MATH dataset
- OpenAI o1;DeepSeek-R1(paper-reading 领读)
- 技术报告:8.1.2 DeepSeek-R1
实践检查清单
- 固定评测/推理配置(温度、max_tokens、parser 版本)便于回归
- 记录硬件:GPU 型号、驱动、框架 commit
- 对比基线:未优化前 TTFT/TPOT 或 Acc
- 文档化失败案例:OOM、解析失败率、拒答率
- 交叉阅读本章「相关章节」避免孤立优化
局限与注意点
- 训练集与 GSM8K/MATH 重叠 导致分数虚高(7.2.4 污染)。
- 纯自然语言 CoT 无保证逻辑正确;需 RLVR 或工具。
- 中文竞赛(CMATH 等)见 7.1.3 中文基准。
延伸阅读
- 本仓库 LLMs 入口 可回溯全局大纲;修改单点优化前建议先读上下游章节链接。
- 技术报告精读见
llms/08-technical-reports/与 paper-reading 专栏。 - 工程复现优先锁定:框架版本 + 量化格式 + 评测 harness commit,三者缺一即难以对齐论文数字。