# MathArena

> 仓库地址：https://github.com/eth-sri/matharena
> 作者/组织：ETH Zurich SRI Lab
> 成熟度：production
> 分析日期：2026-05-06

## 一句话总结
ETH Zurich 开发的数学竞赛题评估平台，使用真实数学竞赛题目评估 LLM 的数学推理能力。

## 项目定位与架构
- 使用真实数学竞赛（如 AIME、AMC、IMO 等）的题目作为 benchmark
- 定位为高难度数学推理评估，区分度高于 GSM8K 等基础 benchmark
- 持续更新新的竞赛题目，天然抗 data contamination
- 提供标准化的评估代码和评分逻辑

## 关键技术特性
- **真实竞赛数据**：题目来源于正式数学竞赛，难度有保证
- **Anti-contamination**：使用最新竞赛题目，模型训练数据中不可能包含
- **多难度层级**：从 AMC（入门）到 IMO（顶尖）覆盖不同难度
- **Automated grading**：支持数值答案和证明题的自动评分
- **Leaderboard**：维护公开排行榜展示各模型表现

## 设计亮点与创新
- 利用竞赛题目的时效性天然解决 data leakage 问题
- 难度梯度设计精良，能有效区分不同水平的模型
- 与人类竞赛选手成绩可直接对比，提供直观的能力定位

## 局限性与风险
- 仅评估数学能力，覆盖面有限
- 竞赛题型可能不代表真实应用中的数学推理需求
- 某些题目需要数学直觉和创造性思维，可能对 LLM 不公平
- 评分标准对证明题可能不够精确

## 与生态系统的关联
- 补充了 GSM8K、MATH 等已趋饱和的数学 benchmark
- 与 Open LLM Leaderboard 使用的 MATH Lvl 5 形成更高难度的延伸
- 可结合 SCORE（Nvidia）的评估框架进行更全面的数学推理分析