# Ray/Anyscale LLM Performance Leaderboard

> 仓库地址：https://github.com/ray-project/llmperf-leaderboard
> 作者/组织：Anyscale / Ray Project
> 成熟度：production
> 分析日期：2026-05-06

## 一句话总结
专注于 LLM 推理性能（延迟、吞吐量）的排行榜，评估不同 LLM API 提供商的服务质量。

## 项目定位与架构
- 与能力评估（accuracy）互补，专注 inference performance 评估
- 测量指标包括 TTFT（Time to First Token）、TPS（Tokens Per Second）、延迟等
- 覆盖主流 LLM API 提供商（OpenAI、Anthropic、Together AI 等）
- 使用标准化的测试负载进行公平比较

## 关键技术特性
- **TTFT (Time to First Token)**：首 token 生成延迟
- **Inter-token latency**：token 间延迟
- **Throughput (TPS)**：每秒生成 token 数
- **Request completion rate**：请求成功率
- **Concurrent request handling**：并发场景下的性能表现
- **Multiple model sizes**：不同规模模型的性能对比

## 设计亮点与创新
- 填补了 LLM 评估中"性能"这一关键维度的空白
- 对实际部署决策有直接参考价值（用户关心速度和成本）
- 标准化的测试方法使不同提供商可以公平对比
- 与 accuracy-focused benchmark 互补

## 局限性与风险
- LLM API 性能波动大，测试时间点不同结果可能差异显著
- 不同地理位置的网络延迟影响结果
- 提供商可能为 benchmark traffic 做特殊优化
- 仅测量 API 性能，不包含自部署场景

## 与生态系统的关联
- 与 Anyscale 的商业服务有关联
- 补充了 Open LLM Leaderboard 等 accuracy-focused 排行榜的盲区
- 对选择 LLM 提供商的企业用户有直接参考价值
- 与 LLMPerf 工具（同一团队开发）配合使用