# GAIA: A Benchmark for General AI Assistants

> 原文链接：https://arxiv.org/abs/2311.12983
> 作者/来源：Meta AI, Hugging Face 等 (2023)
> 阅读日期：2026-05-06

## 一句话总结
评估 AI assistant 完成真实世界复杂任务能力的 benchmark，强调多步骤推理、工具使用和信息整合。

## 核心论点
- 传统 benchmark 过于简单，无法反映 AI assistant 处理真实复杂任务的能力
- GAIA 设计的题目对人类简单（92%+ 准确率）但对 AI 极难（< 10%）
- 真正的 general AI assistant 需要综合运用搜索、计算、文件处理等多种工具
- 评估应关注 end-to-end 任务完成能力，而非孤立技能

## 关键概念
- **Multi-step reasoning**：需要多步推理才能得到答案的任务
- **Tool use**：需要调用外部工具（搜索引擎、计算器、代码执行）
- **Information synthesis**：需要从多个来源整合信息
- **Levels of difficulty**：三个难度级别，逐步增加所需步骤和工具复杂度
- **Exact-match evaluation**：答案唯一且可自动验证

## 实践建议
- 作为 agent 能力的评估 benchmark，比传统 QA 更能反映真实价值
- 三级难度设计允许追踪模型的渐进式进步
- Exact-match 评估消除了主观性，结果可重复
- 适合评估 RAG 系统和 tool-augmented LLM

## 独到观点
- "对人类简单但对 AI 难"的设计理念非常独特——揭示了 AI 与人类能力的真正差距
- 强调了当前 LLM 在真实任务中的"最后一公里"问题
- 暗示 benchmark saturation 的真正解决方案是提升任务复杂度而非数据新颖性

## 与其他文章的关联
- 与 AutoGenBench、Magentic-One 等 agent 评估工具共同构成 agent 评估生态
- GAIA 排行榜托管在 Hugging Face 上，与 Open LLM Leaderboard 互补
- 理念与 SWE-bench 类似——评估端到端任务完成能力
