# BIG-Bench: Beyond the Imitation Game

> 原文链接：https://arxiv.org/abs/2206.04615
> 仓库地址：https://github.com/google/BIG-bench
> 作者/来源：Google + 社区协作 (2022)
> 阅读日期：2026-05-06

## 一句话总结
由 200+ 研究者协作构建的 204 个 NLP 任务集合，旨在全面探测语言模型能力的边界和盲区。

## 核心论点
- 单一 benchmark 无法覆盖 LLM 的全部能力维度
- 社区协作构建的大型任务集能发现出乎意料的能力和缺陷
- 模型能力随规模呈现非线性涌现（emergent abilities）
- 评估应包含模型被认为"不可能做到"的任务

## 关键概念
- **204 Tasks**：涵盖语言、数学、常识、推理、创造性等多维度
- **Emergent Abilities**：某些能力在模型规模超过阈值时突然涌现
- **Community-sourced**：开放式社区贡献任务设计
- **BIG-Bench Hard (BBH)**：筛选出最具挑战性的任务子集
- **Scaling Analysis**：分析能力如何随模型规模变化

## 实践建议
1. BBH 子集是评估推理能力的高效选择
2. 用于发现模型的意外能力和意外缺陷
3. 不同规模模型的对比可揭示 scaling laws
4. 社区贡献模式值得在内部评估中借鉴

## 独到观点
BIG-Bench 最深远的贡献是"emergent abilities"的发现和量化——某些能力在小模型中完全不存在，但在大模型中突然出现，这改变了我们对 scaling 的理解。

## 与其他文章的关联
- BBH 是 Meta Llama 3 评估套件的核心组件之一
- Emergent abilities 讨论与 o1 evaluation 中的推理涌现相关
- 与 MMLU 互补：MMLU 测知识广度，BIG-Bench 测能力多样性
- Challenging BIG-Bench Tasks 是其精选子集