# Measuring What Matters: Construct Validity in LLM Evaluation

> 原文链接：https://oxrml.com/measuring-what-matters/
> 作者/来源：Oxford Responsible ML (OxRML) / NeurIPS 2025
> 阅读日期：2026-05-06

## 一句话总结
从心理测量学的 construct validity（构建有效性）角度审视 LLM 评估，指出当前 benchmark 常常测量的并非我们真正关心的能力。

## 核心论点
- LLM 评估需要满足 construct validity：测量工具必须真正衡量其声称要衡量的潜在构念（latent construct）
- 当前许多 benchmark 存在 construct-irrelevant variance（构念无关方差），如格式偏好、prompt 敏感性等干扰因素
- 评估设计应借鉴心理测量学（psychometrics）的成熟方法论

## 关键概念
- **Construct Validity**：测量是否真正捕捉目标能力而非其他混淆因素
- **Content Validity**：测试题目是否充分代表目标能力的范围
- **Criterion Validity**：测量结果是否与外部标准（如人类判断、下游任务表现）相关
- **Construct-Irrelevant Variance**：由非目标因素（如 prompt 措辞、选项顺序）引入的噪声

## 实践建议
- 设计 benchmark 前先明确定义要测量的 construct
- 通过多种操作化方式（multiple operationalizations）验证测量的稳健性
- 报告 benchmark 分数时应附带 validity evidence
- 区分 benchmark 的"表面效度"（face validity）与真正的构建有效性

## 独到观点
- 将评估视为测量科学而非工程任务，是一种范式转换
- 心理测量学已有百年积累，LLM 评估领域无需从零开始

## 与其他文章的关联
- 与 "What Are We Measuring: Latent Factors and Bias" 直接相关：都在探究 benchmark 究竟衡量了什么
- 与 SCORE 框架互补：SCORE 关注 robustness，本文关注 validity
- 与 "State of What Art" 相关：multi-prompt 评估正是验证 construct validity 的手段
