# ScreenSpot-Pro: GUI Grounding for Computer Use

> 原文链接：https://arxiv.org/abs/2504.07981
> 作者/来源：arXiv (2025)
> 阅读日期：2026-05-06

## 一句话总结
评估 AI 模型在 GUI 界面中定位和操作元素能力的 benchmark，面向 Computer Use agent 场景。

## 核心论点
- Computer Use 是 AI Agent 的重要前沿方向，需要专门的评估
- GUI grounding（将自然语言指令映射到屏幕元素）是基础能力
- Pro 版本增加了更多专业软件界面和复杂操作场景
- 准确的元素定位是所有 GUI 自动化的前提

## 关键概念
- **GUI Grounding**：将文字描述映射到屏幕上具体 UI 元素的能力
- **Element Localization**：精确定位按钮、输入框、菜单等界面元素
- **Professional Software**：覆盖 IDE、设计工具、办公软件等专业界面
- **Action Prediction**：预测完成任务需要的交互操作序列
- **Resolution Robustness**：在不同分辨率和界面缩放下的稳定性

## 实践建议
1. Computer Use agent 必须先通过 grounding 测试再进行端到端评估
2. 评估应覆盖多种软件类型和界面风格
3. 分辨率和 DPI 变化对 grounding 准确率有影响
4. 将 grounding 准确率与任务完成率关联分析

## 独到观点
GUI grounding 是连接"理解意图"和"执行操作"的桥梁——没有准确的定位，再好的规划能力也无法落地。

## 与其他文章的关联
- 与 Anthropic agent evals 中的 Computer Use Agent 评估直接相关
- 与 MCP Atlas 的工具使用评估在 agent 能力维度互补
- 是 SWE-Bench 的补充：代码编辑 vs GUI 操作
