# SCORE: Systematic COnsistency and Robustness Evaluation

> 原文链接：https://arxiv.org/abs/2503.00137v1
> 作者/来源：NVIDIA Research
> 阅读日期：2026-05-06

## 一句话总结
NVIDIA 提出的 LLM 评测鲁棒性框架，通过系统性地对评测输入施加变换（paraphrase、格式变化等）来衡量模型性能的一致性和稳健性。

## 核心论点
1. 当前 LLM benchmark 得分的微小差异可能仅反映 prompt 格式敏感性而非真实能力差距
2. 一个真正"掌握"某能力的模型应对输入的非语义变换保持稳定表现
3. 需要一个系统性框架来量化评测结果对 surface-level 变化的敏感程度
4. Consistency score 应作为 accuracy 的补充指标被标准化报告

## 关键概念
- **Evaluation Robustness**：模型在语义等价但形式不同的输入上表现的一致程度
- **Perturbation Taxonomy**：对评测输入的系统性变换分类（paraphrase、reorder、format change 等）
- **Consistency Score**：衡量模型在扰动前后答案一致性的量化指标
- **Spurious Sensitivity**：模型对无关表面特征的虚假敏感性
- **Robustness-Accuracy Trade-off**：某些模型高准确但低鲁棒，反之亦然

## 实践建议
- 在报告 benchmark 结果时同时报告 consistency score
- 对关键决策（如模型选型）应在多种 prompt 变体上验证结论稳定性
- 将 robustness 作为模型选型的额外维度而非仅看 top-line accuracy
- 使用 SCORE 框架诊断模型的 spurious correlation 问题

## 独到观点
- Leaderboard 上 1-2% 的差异在 robustness 视角下可能无统计意义
- 模型的 consistency 与 accuracy 并不总正相关——有些模型"碰巧答对"
- Evaluation robustness 是模型可信部署的前提条件

## 与其他文章的关联
- 与 Eureka 框架论文共同关注评测方法论的科学性
- 为 lm-evaluation-harness 等框架的结果解读提供新视角
- 与 DynaBench 的动态评测理念相呼应
- 对 Open LLM Leaderboard 的排名稳定性提出方法论挑战