# τ²-Bench: Conversational Agents Evaluation

> 原文链接：https://arxiv.org/abs/2506.07982
> 作者/来源：arXiv (2025)
> 阅读日期：2026-05-06

## 一句话总结
专门评估 LLM 作为对话式 Agent 的 benchmark，测试在多轮交互中完成复杂任务的能力。

## 核心论点
- 对话式 Agent 评估需要超越单轮 QA 的多轮交互框架
- Agent 需要在对话中维持目标一致性、记忆连贯性和任务进展
- 真实世界的 Agent 任务通常需要信息收集、确认和执行等多步骤
- 现有 benchmark 对多轮交互中的 Agent 能力覆盖不足

## 关键概念
- **Multi-turn Evaluation**：评估跨多轮对话的任务完成能力
- **Goal Consistency**：在长对话中保持原始目标的能力
- **Information Gathering**：主动提问和收集信息的能力
- **State Tracking**：跟踪对话状态和已知信息
- **Task Completion Rate**：最终是否成功完成用户任务

## 实践建议
1. 对话 Agent 评估必须包含多轮交互场景
2. 评估应覆盖 happy path 和各种异常路径
3. 中间步骤的质量（如提问是否合理）也需评估
4. 模拟用户的多样性影响评估的全面性

## 独到观点
τ² 命名暗示了"time × task"的双重复杂度——Agent 既要管理时间维度的对话流，又要推进任务维度的完成度。

## 与其他文章的关联
- 与 Anthropic agent evals 中的 Conversational Agent 评估直接相关
- 补充了 Vending-Bench 的长期 Agent 连贯性评估
- 与 MCP Atlas 的工具使用评估在 Agent 能力维度互补
