# Are Emergent Abilities of Large Language Models a Mirage?

> 原文链接：https://arxiv.org/abs/2304.15004
> 作者/来源：（学术论文，NeurIPS 2023）
> 阅读日期：2026-05-06

## 一句话总结
论证 LLM 的"涌现能力"（emergent abilities）可能是评估指标选择的假象而非模型的真实属性。

## 核心论点
- 所谓的"涌现"（突然从不能到能的跳跃）可能是非线性评估指标造成的统计假象
- 当使用连续/线性指标时，能力变化是平滑的，不存在突然"涌现"
- 指标选择（如 exact match vs. token-level accuracy）本身决定了是否观察到"涌现"

## 关键概念
- **Emergent Abilities**：模型在达到某一规模后突然表现出的新能力
- **Metric-Induced Mirage**：由非线性指标造成的阶跃式表现变化
- **Discontinuous vs. Continuous Metrics**：离散指标（全对/全错）vs. 连续指标
- **Phase Transition Illusion**：表面上的"相变"可能只是测量方式的产物

## 实践建议
- 报告"涌现能力"时应同时使用多种指标验证
- 优先使用连续/渐进式指标以获得更真实的能力图景
- 区分"评估分辨率不足"和"能力突然出现"
- 对非线性指标上的突变保持怀疑

## 独到观点
- 这是一篇"元评估"经典：问题不在于模型，而在于我们如何测量
- 动摇了"涌现"叙事——这一叙事对 AI 治理和公众认知有重大影响
- 优雅地展示了测量方法如何创造/消除科学"发现"

## 与其他文章的关联
- 与 "What Are We Measuring" 直接相关：评估指标本身是认知的透镜
- 与 "Measuring What Matters" 相关：指标的 construct validity 问题
- 与 "Same Pre-training Loss, Better Downstream" 相关：挑战简单的 scaling 叙事
- 与 "What Will Fix Benchmarking" 相关：指标设计是 benchmark 设计的核心
