# Vending-Bench: Long-Term Agent Coherence

> 原文链接：https://arxiv.org/abs/2502.15840
> 作者/来源：arXiv (2025)
> 阅读日期：2026-05-06

## 一句话总结
评估 AI Agent 在长期交互中保持目标一致性和行为连贯性的 benchmark，检测随时间推移的性能退化。

## 核心论点
- Agent 在短期交互中表现良好不代表长期可靠
- 随着交互轮次增加，Agent 可能出现目标漂移、遗忘和不一致
- 长期连贯性是 Agent 投入实际生产的关键可靠性指标
- 现有 benchmark 偏向短期任务，对长期行为覆盖不足

## 关键概念
- **Long-term Coherence**：在长时间交互中保持行为和目标一致
- **Goal Drift**：Agent 逐渐偏离原始目标的现象
- **Memory Degradation**：随对话长度增加的信息遗忘
- **Behavioral Consistency**：相似情况下给出一致反应的能力
- **Temporal Robustness**：性能不随时间/交互次数退化

## 实践建议
1. 生产 Agent 必须经过长期交互测试，不能仅凭短期表现判断
2. 监控 Agent 在长 session 中的性能趋势
3. 设计机制防止 goal drift（如周期性目标重申）
4. 评估应包含 100+ 轮次的压力测试

## 独到观点
"Vending"隐喻巧妙——像自动售货机一样，Agent 需要在反复服务中保持一致的可靠性，而不是"越用越差"。

## 与其他文章的关联
- 与 τ²-Bench 在多轮对话评估上互补
- 补充了 Anthropic agent evals 中 reliability 的时间维度
- 长期一致性问题与 o1 evaluation 中的推理稳定性相关
