# Framework for Micro Metrics in LLM Evaluation

> 原文链接：https://infoq.com/articles/micro-metrics-llm-evaluation/
> 作者/来源：InfoQ
> 阅读日期：2026-05-06

## 一句话总结
提出用细粒度"微指标"(Micro Metrics)替代粗粒度评估分数，实现对 LLM 输出质量的精准诊断和针对性优化。

## 核心论点
- 整体性评估分数（如总体质量 4/5）掩盖了具体维度的优劣，无法指导优化方向
- Micro metrics 将评估分解为独立的、可操作的细粒度维度
- 每个微指标应对应一个可执行的改善策略
- 微指标框架使 A/B 测试更敏感，能检测到整体分数变化不明显的局部改善

## 关键概念
- **Micro Metrics 定义**：将 LLM 输出质量分解为 10-20 个独立可测量的小维度
- **维度示例**：factual accuracy、completeness、conciseness、tone consistency、instruction adherence、format compliance 等
- **Actionability 原则**：每个指标必须对应明确的改善手段（prompt 调整、retrieval 优化等）
- **Aggregation strategy**：如何从微指标聚合为有意义的整体评判

## 实践建议
- 从产品需求出发定义微指标，而非从通用框架出发
- 每个微指标用 binary（pass/fail）判定而非连续分数
- 将微指标与具体的优化杠杆对应：哪些可通过 prompt 改善、哪些需要 retrieval 改善
- 建立 dashboard 追踪各微指标的趋势变化
- 新增功能时同步新增对应的微指标

## 独到观点
- "If you can't act on it, don't measure it" — 评估指标的价值在于可操作性而非信息量
- 微指标框架本质上是将产品需求翻译为技术评估语言的桥梁
- 可以揭示"整体分数不变但质量内部结构变化"的隐性退化

## 与其他文章的关联
- 与 Eugene Yan 的 per-dimension evaluator 理念高度一致
- 与 Humanloop "Optimizing LLMs" 的优化方法论互补
- 为 Anthropic Demystifying Evals 中的 partial credit 提供了更系统的框架
