# Evaluating Question Answering Evaluation

> 原文链接：https://aclanthology.org/D19-5817/
> 作者/来源：ACL 2019 Workshop
> 阅读日期：2026-05-06

## 一句话总结
早期对问答评估方法的元评估研究，分析 EM、F1 等标准 QA 指标的有效性和局限性。

## 核心论点
- 标准 QA 评估指标（Exact Match、F1）有系统性缺陷
- 正确答案的表述多样性导致自动评估低估模型表现
- 需要更灵活的评估方法来处理答案等价性（answer equivalence）

## 关键概念
- **Exact Match (EM)**：完全匹配——过于严格
- **Token F1**：token 级别的 F1——部分解决但仍不完美
- **Answer Equivalence**：语义等价的不同表述
- **Evaluation Metrics Agreement**：不同指标间的一致性
- **Human Upper Bound**：人类评估者之间的一致性上界

## 实践建议
- QA 评估不应仅依赖 EM，至少应结合 F1 和语义相似度
- 建立答案别名集（alias set）来处理等价表述
- 定期检查自动指标与人类判断的对齐度
- 考虑 partial credit（部分得分）机制

## 独到观点
- 2019 年的研究但问题至今仍然相关——说明评估方法论进步缓慢
- 为后来 LLM-as-Judge 解决开放式评估问题奠定了问题意识

## 与其他文章的关联
- 与 "Evaluating Open-QA Evaluation" 直接延续：同一问题的更新版
- 与 LLM-as-Judge 系列相关：LLM judge 是解决 QA 评估局限的一种方案
- 与 "What Will Fix Benchmarking" 相关：QA 评估问题是 benchmark 危机的缩影