# Comparing LLM Performance: Introducing the Open Source Leaderboard for LLM Performance

> 原文链接：https://anyscale.com/blog/comparing-llm-performance-introducing-the-open-source-leaderboard-for-llm
> 作者/来源：Anyscale
> 阅读日期：2026-05-06

## 一句话总结
Anyscale 介绍其 LLM 性能排行榜的设计理念和方法论，解释为何推理性能评估对实际部署决策至关重要。

## 核心论点
- 学术 benchmark 忽视了一个关键问题：模型在真实服务中的推理性能
- 用户体验不仅取决于回答质量，还取决于响应速度
- 不同 API 提供商的性能差异可达数倍，但这些信息缺乏透明度
- 需要标准化的性能测试方法来帮助用户做出知情选择

## 关键概念
- **Inference performance**：模型推理时的延迟和吞吐量
- **TTFT**：首 token 延迟，影响用户感知的"思考时间"
- **Streaming performance**：流式输出场景下的 token 间延迟
- **Scalability**：在高并发负载下的性能衰减情况
- **Cost-performance tradeoff**：性能与成本的权衡

## 实践建议
- 模型选型时应同时考虑 accuracy 和 performance
- 在不同时间段进行性能测试，以了解波动范围
- 对实时应用（chatbot、code completion），TTFT 可能比吞吐量更重要
- 建议建立持续的性能监控而非一次性测试

## 独到观点
- 揭示了 LLM 评估中被广泛忽视的性能维度
- 指出"最准确的模型"不一定是"最佳选择"——需要综合考虑
- 为 LLM API 市场引入了更多透明度

## 与其他文章的关联
- 是 llmperf-leaderboard 仓库的配套说明文章
- 与能力评估类排行榜（Open LLM Leaderboard 等）形成正交互补
- 对使用 Phoenix (Arize) 等可观测性工具的用户有参考意义