跳到主要内容

数学推理(GSM8K、MATH、AIME)

要解决的问题

LLM 在小学应用题到竞赛级数学上表现悬殊:会套模板却算错中间步、单位混淆、无法自我验证。数学推理是检验链式思维(CoT)、工具调用与测试时计算(第六部分)的标杆域,基准从 GSM8K 扩展到 MATH、AIME、Olympiad。

核心概念

基准难度答案形式常用指标
GSM8K小学多步整数/有理数Acc(末行数字匹配)
MATH竞赛分类LaTeX分级 Acc
MATH-500MATH 子集同上快速评测
AIME / AMC美国竞赛0–999 整数近年推理模型主打
OlympiadBench奥数证明/构造更难,人工多

CoT 提示(标准):

Prompt=Question+“Let’s think step by step”\text{Prompt} = \text{Question} + \text{``Let's think step by step''}

可验证奖励(RLVR,见 6.3.2):答案 yy 与标准 y\*y^\* 经规则/parser 比对:

r=1[normalize(y)=normalize(y\*)]r = \mathbb{1}[\text{normalize}(y) = \text{normalize}(y^\*)]

方法 / 提升路径

  1. SFT on CoT:高质量步骤数据(4.1 SFT)。
  2. 测试时 compute:采样多条链 + majority vote(6.2.4 MCTS)。
  3. RL:GRPO + 可验证奖励(6.3.1 GRPODeepSeek-R1)。
  4. 工具:Python 解释器执行中间式(符号混合见 6.1.3)。

工程实践

  • 评测:固定 temperature=0 或 pass@k;报告 k=1/16/64。
  • 解析器\\boxed{}\answer 多模板;parser 错误会系统性低估模型。
  • 成本:AIME 级单题可消耗 10k+ thinking tokens(6.2.5 Scaling)。

代表工作

实践检查清单

  • 固定评测/推理配置(温度、max_tokens、parser 版本)便于回归
  • 记录硬件:GPU 型号、驱动、框架 commit
  • 对比基线:未优化前 TTFT/TPOT 或 Acc
  • 文档化失败案例:OOM、解析失败率、拒答率
  • 交叉阅读本章「相关章节」避免孤立优化

局限与注意点

  • 训练集与 GSM8K/MATH 重叠 导致分数虚高(7.2.4 污染)。
  • 纯自然语言 CoT 无保证逻辑正确;需 RLVR 或工具。
  • 中文竞赛(CMATH 等)见 7.1.3 中文基准

延伸阅读

  • 本仓库 LLMs 入口 可回溯全局大纲;修改单点优化前建议先读上下游章节链接。
  • 技术报告精读见 llms/08-technical-reports/paper-reading 专栏。
  • 工程复现优先锁定:框架版本 + 量化格式 + 评测 harness commit,三者缺一即难以对齐论文数字。

相关章节