# MixEval: Deriving Wisdom of Crowd from LLM Benchmark Mixtures

> 原文链接：https://proceedings.neurips.cc/paper_files/paper/2024/hash/b1f34d7b4a03a3d80be8e72eb430dd81
> 作者/来源：NeurIPS 2024
> 阅读日期：2026-05-06

## 一句话总结
通过混合多个现有 benchmark 并利用"群体智慧"原理，构建更稳健、更具代表性的 LLM 评估体系。

## 核心论点
- 单一 benchmark 视角有限，但简单聚合多个 benchmark 也未必最优
- 借鉴"群体智慧"（Wisdom of Crowd）概念，通过合理混合策略可以获得比任何单一 benchmark 更可靠的评估
- 关键在于确定各 benchmark 的混合权重以最大化与人类偏好的对齐度

## 关键概念
- **Benchmark Mixture**：将多个异质 benchmark 按比例组合
- **Wisdom of Crowd**：多个独立信号源的聚合可以消除个体噪声
- **Human Preference Alignment**：以与人类偏好的相关性作为优化目标
- **Dynamic Weighting**：根据 benchmark 的信息量动态调整权重

## 实践建议
- 不要只依赖单一 benchmark，组合多个评估维度
- 设计混合评估时需要考虑各 benchmark 间的互补性和冗余度
- 以人类偏好对齐度（如 Chatbot Arena）作为 ground truth 来校准混合权重
- 定期更新混合比例以反映评估需求的变化

## 独到观点
- 将 benchmark 设计问题转化为一个优化问题：什么样的混合能最好地预测人类偏好？
- 暗示现有 benchmark 的主要价值可能不在于单独使用，而在于作为集成的信号源

## 与其他文章的关联
- 与 "Trade-Offs Between Diversity and Stability" 直接相关：混合增加多样性但可能降低稳定性
- 与 "Re-evaluating Automatic LLM System Ranking" 呼应：如何设计可靠的自动评估
- 与 Chatbot Arena (Elo) 相关：以 Arena 作为校准目标
- 与 "Lifelong Benchmarks" 相关：动态更新评估体系
