# Evaluation of OpenAI o1: AGI Opportunities

> 原文链接：https://arxiv.org/abs/2409.18486
> 作者/来源：arXiv (2024)
> 阅读日期：2026-05-06

## 一句话总结
对 OpenAI o1 推理模型的全面评估，分析其在数学、编程、科学等领域的推理能力突破及局限性。

## 核心论点
- o1 的 chain-of-thought 推理代表了一种新的能力范式，需要新的评估方法
- 在需要深度推理的任务上（数学、编程竞赛），o1 有质的飞跃
- 但在需要创造性、常识或多模态理解的任务上进步有限
- "Thinking tokens"机制改变了 cost-quality 权衡的计算方式

## 关键概念
- **Reasoning Tokens**：o1 使用内部推理 token 进行深度思考
- **Compute-optimal Scaling**：通过增加推理时计算而非模型参数提升能力
- **Mathematical Reasoning**：在 AIME、竞赛数学等上的突破性表现
- **Code Reasoning**：编程竞赛级别的算法设计能力
- **Reasoning-Evaluation Gap**：现有评估可能低估了推理模型的能力

## 实践建议
1. 评估推理模型需要包含需要多步推理的困难问题
2. 传统 benchmark 可能无法区分推理模型和知识模型
3. 考虑推理成本：token 消耗远高于普通模型
4. 为推理模型设计新的 cost-normalized 评估指标

## 独到观点
o1 揭示了一个评估范式的挑战：当模型能"思考更久"时，如何公平比较不同计算预算下的能力？这可能需要评估指标本身的重新设计。

## 与其他文章的关联
- 推理能力评估与 ARC-AGI-2、BBH 的任务设计直接相关
- 与 MMLU-Pro+ 的高阶推理评估需求一致
- 成本维度与 Humanloop 的 cost-performance frontier 讨论相关
- 为 Zvi "On GPT-4.5" 中的能力边界分析提供了对照