# Measuring Political Bias in Claude

> 原文链接：https://anthropic.com/news/political-even-handedness
> 作者/来源：Anthropic
> 阅读日期：2026-05-06

## 一句话总结
Anthropic 开发了"Paired Prompts"自动化评估方法来测量 AI 模型在政治议题上的公正性，Claude 模型得分领先行业。

## 核心论点
- 政治偏见评估需要系统化方法论，不能依赖主观感知
- "Even-handedness"（公正性）是可量化的：对相反立场提供一致深度和质量的分析
- 模型应愿意参与讨论（低 refusal rate）同时承认对立观点
- 不存在定义和衡量政治偏见的普遍共识

## 关键概念
- **Paired Prompts 方法**：1,350 个 prompt pairs 覆盖 150 个政治话题，从对立意识形态视角测试
- **三个评估维度**：Even-handedness（一致的分析深度）、Opposing perspectives（承认反面论点）、Refusals（参与意愿）
- **评估结果**：Claude Sonnet 4.5 (94%)、Claude Opus 4.1 (95%)、GPT-5 (89%)、Llama 4 (66%)
- **训练方法**：使用 reinforcement learning + character traits 强调平衡参与

## 实践建议
1. 政治偏见评估应使用配对设计（相同话题，对立立场）
2. 低 refusal rate 是重要指标——过度拒绝本身也是一种偏见
3. 评估需承认局限性：文化语境、多轮对话、国际视角
4. 开源方法论推动行业标准化

## 独到观点
将"偏见"操作化为可测量的"even-handedness"是一个重要的方法论贡献。传统的左右光谱打分过于简化，而配对分析能更细腻地捕捉不对称性。

## 与其他文章的关联
- 属于 AI Safety 评估的子领域，与 DeepMind Frontier Safety Framework 相关
- 评估方法论本身也是 "LLM-as-a-Judge" 的应用实例
- Llama 4 的低分可对照 Meta 的 eval_details.md 了解其训练侧重
