# State of What Art? A Call for Multi-Prompt LLM Evaluation

> 原文链接：https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00681/123885
> 作者/来源：TACL (Transactions of the ACL)
> 阅读日期：2026-05-06

## 一句话总结
强烈呼吁 LLM 评估必须使用多种 prompt 变体，因为单一 prompt 的结果不具代表性，且不同 prompt 可导致截然不同的排名。

## 核心论点
- 当前"state-of-the-art"声称通常基于单一 prompt 配置，缺乏泛化性
- 同一模型在不同 prompt 下表现差异巨大，单点评估不可靠
- Multi-prompt evaluation 是获得可靠评估结果的最低要求

## 关键概念
- **Multi-Prompt Evaluation**：使用多种 prompt 变体进行评估并报告分布
- **Prompt Sensitivity**：模型对 prompt 措辞的敏感度
- **Evaluation Variance**：由 prompt 选择引入的评估方差
- **Robust Ranking**：在多种 prompt 下稳定的排名才有意义

## 实践建议
- 至少使用 5-10 种不同的 prompt 变体进行评估
- 报告评估分数的分布（均值、方差、最小/最大值）
- "SOTA"声称应附带 prompt 敏感性分析
- 设计 prompt 模板库作为标准化工具

## 独到观点
- "State of What Art?"标题的反问暗示：如果评估不稳健，"SOTA"本身就是空话
- 多 prompt 评估的成本可控但信息量大增

## 与其他文章的关联
- 与 SCORE 直接相关：SCORE 框架系统化了 multi-prompt 评估
- 与 "Adding Error Bars" 互补：multi-prompt 方差是 error bars 的一个来源
- 与 "Lessons from Trenches" 相关：prompt 选择是可复现性的关键
- 与 "Measuring What Matters" 相关：prompt 敏感性是 construct-irrelevant variance
