# MemAlign: Better LLM Judges from Human Feedback

> 原文链接：Databricks 研究
> 作者/来源：Databricks
> 阅读日期：2026-05-06

## 一句话总结
Databricks 提出 MemAlign 方法，通过将人类反馈（偏好记忆）注入 LLM Judge 的评估过程，使其判断更贴近人类标准。

## 核心论点
- LLM Judge 的一大问题是其评判标准与人类偏好存在系统性偏差（misalignment）
- MemAlign 的核心思想是利用少量人类标注的偏好数据，构建"记忆"（memory），在推理时检索相关案例来校准 judge 的判断
- 这是一种 retrieval-augmented judging 的思路：不需要微调模型，而是通过 in-context examples 来对齐
- 相比直接 fine-tune 一个 judge 模型，MemAlign 更灵活，可以适应不同任务和不同用户群体的偏好

## 关键概念
- **Memory Bank**：存储人类偏好判断的案例库，每个案例包含输入、两个输出、人类偏好
- **Alignment Gap**：LLM 原生判断与人类偏好之间的差距
- **Retrieval-Augmented Judging**：评估时检索相似案例作为参考，类似 RAG 但用于评估
- **Preference Calibration**：通过示例校准模型的评分标准
- **Few-shot Alignment**：少量示例即可显著提升对齐度

## 实践建议
- 构建领域特定的偏好记忆库：收集 50-200 条人类标注的偏好对即可见效
- 检索时注意相似度计算要基于任务语义而非表面文本相似
- 可以为不同评估维度（helpfulness、safety、accuracy）分别构建记忆库
- 适合企业场景：不同客户有不同质量标准，通过切换记忆库即可适配

## 独到观点
MemAlign 提供了一种无需训练的 judge 对齐方案，特别适合需要快速适应新领域或新标准的场景。这暗示了未来 judge 系统可能走向"可配置化"——通过插拔不同的偏好记忆来服务不同用户。

## 与其他文章的关联
- 与 "Aligning with Human Judgement" 主题一致，都在解决 LLM 与人类判断的对齐问题
- 与 "Judging LLM-as-Judge with Chatbot Arena" 相关，Arena 的人类数据可作为 MemAlign 的记忆源
- 与 "Inconsistent and Biased Evaluators" 的发现互补：MemAlign 提供了一种修正偏差的方案
