# SCORE: Systematic COnsistency and Robustness Evaluation for LLMs

> 原文链接：https://arxiv.org/abs/2503.00137v1
> 作者/来源：Grigor Nalbandyan, Rima Shahbazyan, Evelina Bakhturina (Nvidia)
> 阅读日期：2026-05-06

## 一句话总结
提出 SCORE 框架，通过非对抗性的系统化测试揭示 LLM 在简单变化下的惊人不一致性，主张评估应报告一致性而非仅报告最佳表现。

## 核心论点
- 传统 benchmark 报告单一最优条件下的指标，无法反映真实世界的可靠性
- 简单的 prompt 改述（paraphrasing）导致 MMLU-Pro 准确率波动高达 10%
- 答案选项重排序导致准确率差异高达 6.1%
- 模型需要在多种非对抗性变化下保持一致表现

## 关键概念
- **Non-Adversarial Evaluation**：不需要设计对抗样本，仅通过合理变化就能暴露不一致性
- **Consistency vs. Accuracy**：一致性与准确率是两个独立维度
- **Prompt Sensitivity**：对 prompt 措辞的过度敏感是当前 LLM 的通病
- **Order Effect**：选项顺序影响答案选择（position bias）
- **Robustness Leaderboard**：公开的鲁棒性排行榜

## 实践建议
- 评估 LLM 时应使用多种 prompt 变体并报告方差
- 选择题评估中应随机化选项顺序并报告一致性
- 将 consistency score 作为模型选择的重要指标（与准确率并列）
- 使用 SCORE 框架的开源工具进行标准化评估

## 独到观点
- "非对抗性"是关键洞察：不需要精心设计的攻击，日常使用中的自然变化就能暴露问题
- 一致性比单点准确率更能预测模型在生产环境的可靠性
- 10% 的波动意味着排行榜上很多"差异"其实是噪声

## 与其他文章的关联
- 与 "Adding Error Bars to Evals" 互补：Error bars 量化统计不确定性，SCORE 量化行为不一致性
- 与 "State of What Art: Multi-Prompt Evaluation" 直接相关：都在探索多 prompt 评估
- 与 "The Leaderboard Illusion" 呼应：解释了排行榜幻觉的技术根源
- 与 "Measuring What Matters" 相关：不一致性是 construct-irrelevant variance 的表现
