# Large Language Models Are State-of-the-Art Evaluators of Translation Quality

> 原文链接：https://arxiv.org/abs/2302.14520
> 作者/来源：（学术论文，2023）
> 阅读日期：2026-05-06

## 一句话总结
证明 LLM（特别是 GPT-4）在机器翻译质量评估上已达到甚至超越传统指标和人类评估者的水平。

## 核心论点
- 传统 MT 评估指标（BLEU、COMET 等）有已知局限性
- GPT-4 作为翻译评估者，与人类专家评估的相关性超过传统指标
- LLM 可以提供细粒度的错误分析而非仅给整体分数
- 这是 LLM-as-Judge 在专业评估领域的成功案例

## 关键概念
- **Translation Quality Estimation**：机器翻译质量评估
- **GEMBA**：使用 GPT 评估 MT 的方法框架
- **MQM (Multidimensional Quality Metrics)**：多维度翻译质量评估框架
- **Human Correlation**：与人类评估的相关系数
- **Error Span Detection**：错误定位能力

## 实践建议
- 在 MT 评估中可以大规模使用 LLM judge 替代昂贵的人工评估
- LLM judge 适合初筛和批量评估，人工评估保留给高风险/争议样本
- 要求 LLM 同时输出评分和具体错误分析
- 定期用人类评估校准 LLM judge 的标准

## 独到观点
- 翻译评估是 LLM-as-Judge 最早的成功应用领域之一
- 专业领域评估可能比通用评估更容易达到人类水平（因为标准更明确）

## 与其他文章的关联
- 与 "Can LLMs Replace Human Evaluators?" 相关：翻译领域的正面案例
- 与 "Faithful Model Evaluation" 相关：MT 评估中的 model-based metrics
- 与 PPI 相关：少量人工+大量 LLM 评估的结合
- 是 LLM-as-Judge 在特定领域成功的范例