# Michelangelo: Long Context Evaluations

> 原文链接：https://arxiv.org/abs/2409.12640v2
> 作者/来源：Google DeepMind (2024)
> 阅读日期：2026-05-06

## 一句话总结
DeepMind 开发的长上下文评估方法，系统测试模型在超长输入中检索、推理和综合信息的能力。

## 核心论点
- 模型声称支持的上下文长度不等于有效利用的上下文长度
- 长上下文能力随输入长度增加通常呈现退化
- 信息位置对检索成功率有显著影响（"lost in the middle"现象）
- 需要超越 needle-in-a-haystack 的更综合的长上下文评估

## 关键概念
- **Effective Context Window**：模型真正能有效利用的上下文长度
- **Position Sensitivity**：信息在上下文中的位置对检索准确率的影响
- **Lost in the Middle**：模型对中间位置信息的关注度低于首尾
- **Multi-hop Reasoning**：需要关联上下文中多个位置信息的推理
- **Context Scaling Analysis**：性能随上下文长度变化的系统分析

## 实践建议
1. 不要仅凭"支持 1M tokens"判断长上下文能力
2. 评估应测试不同位置和不同深度的信息检索
3. Multi-hop 推理比单一检索更能反映真实能力
4. 为具体应用确定有效上下文窗口（可能远小于声称值）

## 独到观点
"Michelangelo"命名暗示了精雕细琢——不是粗暴地测试"能否找到针"，而是精细地刻画长上下文能力的多维特征。

## 与其他文章的关联
- 为 Video-MMMU 的长视频理解提供了评估方法论基础
- 与 Humanity's Last Exam 中可能需要大量上下文的问题相关
- 长上下文可靠性与 Vending-Bench 的长期连贯性主题相关
