# What Are We Measuring When We Evaluate Large Language Models: Latent Factors and Bias

> 原文链接：https://arxiv.org/abs/2404.02415
> 作者/来源：（学术论文）
> 阅读日期：2026-05-06

## 一句话总结
通过因子分析等统计方法揭示 LLM benchmark 背后的潜在因子结构，发现许多表面不同的 benchmark 实际上在测量相同的东西。

## 核心论点
- 表面多样的 benchmark 可能受少数几个 latent factors 驱动
- benchmark 分数中包含系统性偏差（bias），与真实能力无关
- 通过因子分析可以识别评估体系中的冗余和盲区

## 关键概念
- **Latent Factors**：驱动多个 benchmark 表现的隐藏共因
- **Factor Analysis**：从观测分数中提取潜在维度的统计方法
- **Evaluation Bias**：与目标能力无关但系统性影响分数的因素
- **Construct Overlap**：多个 benchmark 实际测量同一底层能力
- **Dimensionality of Intelligence**：LLM "智能"有多少独立维度？

## 实践建议
- 选择 benchmark 组合时应考虑因子结构，避免重复测量同一维度
- 通过因子分析识别现有评估体系的盲区
- 将 bias 分离出来后报告去偏后的能力估计
- 设计新 benchmark 时瞄准未被现有因子覆盖的维度

## 独到观点
- 如果 10 个 benchmark 的方差主要由 2-3 个因子解释，那么大部分排名信息是冗余的
- "LLM 能力的维度是什么？"是一个根本性的未回答问题

## 与其他文章的关联
- 与 "Measuring What Matters" 高度相关：都在追问 benchmark 到底测量了什么
- 与 MixEval 互补：MixEval 混合 benchmark，本文分析混合是否有意义
- 与 "Are Emergent Abilities a Mirage?" 相关：因子结构可能解释表面上的"涌现"
- 与 HELM 相关：HELM 的多维评估是否真的多维？
