# Which Prompts Make Difference: Data Prioritization

> 原文链接：https://arxiv.org/abs/2310.14424
> 作者/来源：arXiv (2023)
> 阅读日期：2026-05-06

## 一句话总结
研究哪些评估数据点对模型区分最有信息量，提出数据优先级排序方法以提高评估效率。

## 核心论点
- 不是所有评估数据点都同等有价值——某些 prompts 区分力更强
- 可以用更少的精选数据点达到与全量评估相似的区分效果
- 数据优先级排序可显著降低评估成本
- "难但有意义"的题目比"难但随机"的题目更有评估价值

## 关键概念
- **Data Prioritization**：按信息价值对评估数据排序
- **Discriminative Power**：单个数据点区分不同模型能力的能力
- **Evaluation Efficiency**：用更少数据达到相同评估精度
- **Item Response Theory (IRT)**：借鉴心理测量学的项目分析方法
- **Adaptive Testing**：根据已有答案动态选择下一个测试题

## 实践建议
1. 对评估集进行 discriminative power 分析，淘汰低区分度题目
2. 使用 IRT 方法量化每道题的信息价值
3. 在资源有限时优先运行高区分度的评估子集
4. 定期更新优先级排序——模型进步会改变题目的区分力
5. 自适应测试策略可大幅减少评估所需时间

## 独到观点
将心理测量学的成熟方法（IRT、自适应测试）引入 LLM 评估领域是一个巧妙的跨学科迁移——人类考试中积累了数十年的测试理论可直接应用。

## 与其他文章的关联
- 为 BBH "从大集合中筛选挑战性子集"提供了理论方法
- 可应用于 Eugene Yan 的评估集构建：优先标注高价值样本
- 效率优化思路与 Mozilla AI 的 scale evaluation 相关
- 与 ACL robustness 论文互补：关注哪些数据点可靠有用
