# Challenging BIG-Bench Tasks

> 原文链接：https://arxiv.org/abs/2210.09261
> 作者/来源：Google (2022)
> 阅读日期：2026-05-06

## 一句话总结
从 BIG-Bench 204 个任务中筛选出人类表现远超模型的 23 个最具挑战性任务，形成 BIG-Bench Hard (BBH) 子集。

## 核心论点
- 并非所有 BIG-Bench 任务都有区分力——许多已被当前模型"解决"
- 筛选标准：人类表现显著高于模型表现的任务
- BBH 更适合作为前沿模型的评估工具
- Chain-of-Thought prompting 在 BBH 上的提升尤为显著

## 关键概念
- **BBH (BIG-Bench Hard)**：23 个最具挑战性的任务子集
- **Human-model Gap**：以人类-模型表现差距作为难度指标
- **Task Categories**：算法推理、语言理解、世界知识等
- **CoT Boost**：Chain-of-Thought 在难题上的提升效果
- **Benchmark Curation**：从大集合中精选高价值子集的方法

## 实践建议
1. 使用 BBH 而非完整 BIG-Bench 进行高效评估
2. BBH 特别适合评估推理能力和 CoT 效果
3. 定期更新"challenging"标准——模型进步可能使旧 BBH 饱和
4. 结合 MMLU 和 BBH 获得知识+推理的综合评估

## 独到观点
"从已有 benchmark 中筛选挑战性子集"是一种高效的 benchmark 设计方法——不必从头设计，只需识别现有资源中最有价值的部分。

## 与其他文章的关联
- 是 BIG-Bench 的精华子集
- 与 GPQA 在"只保留困难题目"的设计哲学上一致
- CoT 效果分析预见了 o1 系列推理模型的方向
- 是 Meta Llama 3 等评估报告中的标准组件
