# How to Maximize LLM Performance

> 原文链接：https://humanloop.com/blog/optimizing-llms
> 作者/来源：Humanloop
> 阅读日期：2026-05-06

## 一句话总结
Humanloop 提出 LLM 性能优化的系统方法论，将优化手段按成本和效果排序，强调评估是优化的前提。

## 核心论点
- 优化 LLM 性能的前提是有可靠的评估体系——没有度量就无法改善
- 优化手段应按"低成本高收益"到"高成本高收益"顺序尝试
- Prompt engineering → RAG → Fine-tuning 是推荐的渐进路径
- 每次优化迭代都需要评估验证，避免"感觉变好了"的幻觉

## 关键概念
- **Optimization hierarchy**：Prompt engineering < Few-shot examples < RAG < Fine-tuning < Model selection
- **Evaluation as prerequisite**：在优化前必须建立 baseline 评估
- **Diminishing returns**：每种优化手段有其上限，需要识别何时切换到下一级
- **Regression awareness**：优化一个维度可能退化另一个维度
- **Cost-performance frontier**：在给定预算下找到最优配置

## 实践建议
- 先建立评估 → 再优化，不要反过来
- Prompt engineering 通常是 ROI 最高的第一步
- RAG 适合需要外部知识的场景，是 fine-tuning 前的低成本替代
- Fine-tuning 适合有大量标注数据且需要特定风格/格式的场景
- 每次改动后用固定的 eval set 验证效果

## 独到观点
- 将 LLM 优化类比为漏斗(funnel)：从最便宜的手段开始，只在必要时才投入更昂贵的方法
- 强调"evaluation-first"文化：团队应花 30% 时间在评估上
- 识别"pseudo-improvements"——在 eval set 上变好但实际场景变差

## 与其他文章的关联
- 与 Eugene Yan 的三步 eval 方法互补：本文聚焦评估之后的优化
- 与 InfoQ micro metrics 文章配合：微指标帮助定位优化方向
- Evaluation 作为前提的思路与 Anthropic Demystifying Evals 一致
- 与 Andrew Ng "About Evals" 的教学目标类似
