# LLMs as State-of-Art Translation Evaluators

> 原文链接：https://arxiv.org/abs/2302.14520
> 作者/来源：arXiv 2023
> 阅读日期：2026-05-06

## 一句话总结
验证 LLM 在机器翻译质量评估任务上已达到或超过传统自动评估指标（如 BLEU、COMET），成为新的 state-of-the-art 评估器。

## 核心论点
- 传统翻译评估指标（BLEU、METEOR、COMET）虽然自动化但与人类判断相关性有限
- LLM（特别是 GPT-4）在翻译质量评估上与人类判断的相关性显著超过传统指标
- LLM 能够评估翻译的多个维度：流畅性、准确性、风格保持、文化适当性
- 无需 reference translation 即可评估（reference-free evaluation），大幅降低评估门槛
- 在多种语言对上验证了这一优势，包括低资源语言

## 关键概念
- **Translation Quality Estimation (QE)**：不依赖参考翻译的质量估计
- **Reference-Free Evaluation**：无需人工翻译参考即可评估翻译质量
- **MQM (Multidimensional Quality Metrics)**：多维度翻译质量评估框架
- **Human Correlation**：与人类判断的相关系数（Kendall's tau, Pearson）
- **Error Annotation**：LLM 可以不仅打分还标注具体翻译错误

## 实践建议
- 对翻译质量评估，优先考虑使用 LLM 而非 BLEU/COMET
- Prompt 设计应包含翻译质量的具体维度（accuracy, fluency, terminology）
- 要求 LLM 不仅给分，还要指出具体错误，提升可操作性
- 对于低资源语言，先在高资源语言上验证 judge 表现再迁移
- 可以结合 MQM 框架设计评估 prompt，确保维度覆盖

## 独到观点
翻译评估是 LLM-as-Judge 最早且最成功的应用之一，其成功的原因值得分析：翻译质量相对客观、维度明确、人类标注数据丰富。这暗示 LLM-as-Judge 在其他"相对客观"的任务上也应该优先考虑。

## 与其他文章的关联
- 是 LLM-as-Judge 的早期成功案例，证明了该范式的可行性
- 与 "Judging LLM-as-Judge with Chatbot Arena" 时间线相近，都是奠基性工作
- 与 "Can LLMs Replace Human Evaluators?" 相关：翻译评估是 LLM 成功替代人类的案例
- 与 "Systematic Evaluation" 相关：翻译评估的 prompt 设计经验可推广到其他任务