# Berkeley Function Calling Leaderboard

> 原文链接：https://gorilla.cs.berkeley.edu/blogs/8_berkeley_function_calling_leaderboard.html
> 作者/来源：UC Berkeley (Gorilla Project)
> 成熟度：production
> 分析日期：2026-05-06

## 一句话总结
专门评估 LLM function calling（工具调用）能力的排行榜，涵盖多种调用场景和复杂度。

## 项目定位与架构
- 聚焦 LLM 的 function/tool calling 能力评估
- 由 Gorilla 项目团队（UC Berkeley）维护
- 覆盖从简单函数调用到复杂多步工具链的多种场景
- 使用精确匹配和语义匹配的混合评估方式

## 关键技术特性
- **Multiple call types**：simple、multiple、parallel、nested function calls
- **AST-based evaluation**：基于抽象语法树的函数调用正确性判断
- **API relevance detection**：模型是否正确判断需要调用哪个 API
- **Diverse function schemas**：多种函数签名格式和参数类型
- **Real-world APIs**：基于真实 API（如天气、搜索、数据库等）设计

## 设计亮点与创新
- 填补了 function calling 这一关键能力维度的评估空白
- 难度梯度设计合理：从单次调用到嵌套调用
- 评估方法客观（AST 匹配），减少主观性
- 对 agent/tool-use 应用的模型选择有直接参考价值

## 局限性与风险
- Function calling 格式在不同模型间不统一，可能引入格式偏差
- 测试场景相对简单，真实应用中的 tool use 更复杂
- 更新频率可能跟不上模型发展速度
- 某些模型可能针对该 benchmark 的格式做了特殊优化

## 与其他文章的关联
- 与 GAIA benchmark 在 tool use 评估维度上互补
- 对 agent 框架（如 AutoGen、LangChain）的模型选择有指导意义
- 补充了通用 benchmark（如 MMLU）在工具使用方面的评估空白