# OpenICL: An Open-Source Framework for In-Context Learning

> 原文链接：https://arxiv.org/abs/2303.02913
> 作者/来源：Shanghai AI Lab / Fudan University
> 阅读日期：2026-05-06

## 一句话总结
面向 In-Context Learning (ICL) 研究的开源框架，系统化地支持 retriever 选择、prompt template 构建和 inferencer 配置，为 ICL 方法的评测和对比提供标准化基础设施。

## 核心论点
1. In-Context Learning 是 LLM 的核心能力，但缺乏统一的实验框架导致研究结果难以对比
2. ICL 的效果高度依赖于 exemplar 选择策略（random、similarity-based、diversity-based）
3. 需要将 ICL 流程解耦为独立模块（Retriever、Inferencer、Template）以支持系统性消融实验
4. 标准化框架可以加速 ICL 研究迭代速度

## 关键概念
- **Retriever**：从训练集中选择 in-context exemplar 的模块（TopK、VotedK、MDL 等策略）
- **Inferencer**：执行推理的模块（Direct、PPL-based、Chain-of-Thought）
- **Template**：将 exemplar 和 query 组装为 prompt 的格式化模块
- **ICL Pipeline**：Retriever → Template → Inferencer 的标准流水线
- **Task Adaptation**：通过不同的 retriever/template 组合适配各类 NLP 任务

## 实践建议
- 使用 similarity-based retriever 通常优于 random selection
- Few-shot 的 exemplar 数量需要在 context window 限制和信息量之间权衡
- 不同任务适合不同的 inferencer（分类用 PPL、生成用 Direct）
- 消融实验应分别控制 retriever、template 和 inferencer 的变量

## 独到观点
- ICL 本身就是一种评测范式——few-shot 评测的质量取决于 ICL 方法的选择
- Retriever 的选择对结果的影响可能超过模型本身的差异
- 框架化思维有助于发现 ICL 研究中的实验设计漏洞

## 与其他文章的关联
- 为 lm-evaluation-harness 的 few-shot 评测提供了方法论基础
- 与 HELM 在标准化评测框架的理念上一致
- 影响了后续 RAG 评测中 retriever 选择的研究
- 与 Eureka 论文同样关注评测流程标准化
