# Style Over Substance: Evaluation Biases for LLM-as-Judge

> 原文链接：https://arxiv.org/abs/2307.03025
> 作者/来源：arXiv 2023
> 阅读日期：2026-05-06

## 一句话总结
揭示 LLM Judge 严重的"形式偏好"问题：模型倾向于根据回答的格式、长度、语气等表面特征而非实质内容质量来打分。

## 核心论点
- LLM Judge 对"风格"的敏感度远超对"内容质量"的敏感度——这是一个严重的系统性偏差
- 具体表现：更长的回答、使用 markdown 格式的回答、使用专业术语的回答倾向于获得更高评分
- 即使内容有事实错误，只要"包装"得好（结构清晰、用词专业），judge 也可能给高分
- 这种偏差可能源于 RLHF 训练：人类标注者在快速标注时也可能受风格影响
- 通过控制实验（内容相同但风格不同、风格相同但内容不同）精确量化了这一效应
- 根本问题：我们评估的是"看起来好"还是"实际好"？

## 关键概念
- **Style Bias**：对回答风格/格式的系统性偏好
- **Substance**：回答的实质内容质量（准确性、完整性、深度）
- **Surface Features**：表面特征（长度、格式、术语密度、语气）
- **Verbosity Preference**：偏好更长的回答，即使额外内容是冗余的
- **Format Gaming**：通过优化格式而非内容来获得 judge 高分
- **Fluency-Factuality Trade-off**：流畅度和准确度的权衡

## 实践建议
- 在 rubric 中明确声明"不应因格式/长度差异而影响评分"
- 构造控制实验检测你的 judge 是否有 style bias：同内容不同格式应得分相同
- 考虑对被评估文本进行"格式标准化"预处理（去除 markdown 等）
- 在训练 reward model 时，加入"风格好但内容差"的反面案例
- 评估标准应明确区分内容质量和呈现质量
- 使用专门的事实核查步骤补充整体质量评估

## 独到观点
这一发现对 RLHF 有深远影响：如果用于训练 reward model 的 judge 偏好风格，那么模型会被训练出"写作风格好但内容可能空洞"的倾向。这可能解释了为什么当前 LLM 回答往往"看起来很好但仔细看有问题"。"Style over substance"不仅是 LLM judge 的问题，也是人类评估中的文化问题。

## 与其他文章的关联
- 与 "Inconsistent and Biased Evaluators" 高度互补：本文深入分析 style bias 这一具体偏差
- 与 "ALLURE" 相关：ALLURE 可以检测 judge 是否被风格欺骗
- 与 "Judging the Judges" 相关：style bias 是 judge 的一种可利用的脆弱性
- 与 "Learning to Plan & Reason" 相关：结构化推理可帮助 judge 关注实质