# Prediction-Powered Inference

> 原文链接：https://arxiv.org/abs/2301.09633
> 作者/来源：（学术论文，Science 2023）
> 阅读日期：2026-05-06

## 一句话总结
提出 Prediction-Powered Inference (PPI) 框架，利用少量人工标注 + 大量模型预测进行有效统计推断，是一种将 AI 预测与统计严谨性结合的方法。

## 核心论点
- 大量 AI 预测 + 少量金标准标注可以产生比纯人工标注更高效的统计推断
- 传统统计推断需要大量真实标签，成本高昂
- PPI 在保持统计有效性（valid confidence intervals）的同时利用 AI 预测降低标注成本

## 关键概念
- **Prediction-Powered Inference (PPI)**：结合 AI 预测和少量人工标签的推断框架
- **Rectifier**：校正 AI 预测偏差的统计估计量
- **Valid Confidence Intervals**：PPI 产生的置信区间具有正确覆盖率
- **Label Efficiency**：以更少的人工标注获得同等质量的统计结论
- **Distribution-Free**：不需要对数据分布做假设

## 实践建议
- 在 LLM 评估中：用少量人工评估校正大量 LLM-as-Judge 评分
- 用 PPI 为 model-based metrics 提供统计保证
- 设计评估时可以战略性地分配人工标注预算
- 适用于任何需要大规模评估但人工标注昂贵的场景

## 独到观点
- PPI 是 LLM-as-Judge 和人类评估之间的桥梁方法论
- 将 AI 辅助评估从"近似"提升到"有统计保证"的水平
- 理论上解决了"人工评估准确但贵，自动评估便宜但不确定"的两难

## 与其他文章的关联
- 与 "PPI++" 直接相关：效率改进版
- 与 "Adding Error Bars" 互补：PPI 是生成 error bars 的一种具体方法
- 与 "Faithful Model Evaluation" 相关：PPI 是使 model-based metrics faithful 的工具
- 与 "Can LLMs Replace Human Evaluators?" 相关：PPI 表明不需要完全替代
