news 2026/6/22 21:38:26

LiveMCPBench:在大型工具环境中评估 LLM 代理的新基准

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
LiveMCPBench:在大型工具环境中评估 LLM 代理的新基准

总结

本文提出了一种新的基准–LiveMCPBench,用于评估大型工具使用环境中代理的能力。

传统基准假定只有少量的应用程序接口和模拟工具环境,不能充分反映现实中多样和动态的工具环境。

因此,作者利用标准化接口–模型上下文协议(MCP),构建了 LiveMCPTool,其中包括 70 个 MCP 服务器和 527 个真实工具。

此外,他们还引入了可实现评估自动化的 LiveMCPEval,通过使用 LLM 作为评估者,他们实现了与人类评估者 81% 的一致率。

我们还提出了可实现工具探索和顺序使用的 MCP Copilot Agent,并对十种最先进的模型进行了比较。
结果证实,Claude-Sonnet-4 的成功率约为 79%,而大多数模型的成功率仅为 30%-50%,这表明在大规模工具环境中的能力存在显著差异。

这项研究为评估提供了一个现实的、可重复的基础,并为未来的代理研究奠定了基础。

建议采用的方法

作者设计了一个由四个主要元素组成的框架,以评估代理是否能有效利用大型 MCP 工具套件。

首先,设计了各种日常任务,并收集了六个领域的 95 项实际任务,包括办公室工作、生活信息、金融、旅行和购物。
这提供了现实世界中需要时间变化和综合使用多种工具的任务。

其次,我们建立了LiveMCPTool,其中包含70个服务器和527个工具,不依赖外部API密钥,并随时提供给研究人员使用。

第三,我们提出了 LiveMCPEval,这是一种由 LLM 判断代理工具使用过程的方法。
这样就能在包含解决方案多样性和时间依赖性的环境中进行稳健的评估。

最后,我们开发了 MCP Copilot Agent,它基于 ReACT 策略,集成了工具探索和顺序执行功能。
该框架克服了传统方法中应用程序接口(API)不稳定性和小规模性的问题,并提供了一个现实的、可重复的评估环境。

实验

在 Claude-Opus-4、Claude-Sonnet-4、GPT-4.1、Gemini-2.5-Pro 和 DeepSeek-V3 等 10 个主要模型上进行了实验,使用 95 个任务来比较性能。

在使用DeepSeek-V3进行评估时,采用了LLM-as-a-Judge方法,并与人工评估结果进行了核对。
结果显示,Claude-Sonnet-4 的成功率最高,达到 78.95%,其次是 Claude-Opus-4,为 70.53%。

另一方面,GPT-4.1 和 Gemini-2.5-Pro 的成功率仅为 40%左右,这证实了许多模型都无法找到和组合工具。
其中,工具使用不当、未指定参数和 “检索错误”(未找到合适的工具)是主要的失败因素。

此外,对每个模型利用行为的分析表明,克劳德系统积极探索和利用多种工具,而其他模型则倾向于依赖单一工具。
此外,性价比权衡分析确定 Claude-Sonnet-4 和 Qwen2.5-72B 为具有成本效益的模型。

这些结果得出结论,目前的许多模型在大型工具环境中仍有局限性,未来需要改进任务分解和动态规划能力。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 18:27:58

Lsyncd排除路径配置终极指南:避开常见陷阱

Lsyncd排除路径配置终极指南:避开常见陷阱 【免费下载链接】lsyncd Lsyncd (Live Syncing Daemon) synchronizes local directories with remote targets 项目地址: https://gitcode.com/gh_mirrors/ls/lsyncd Lsyncd作为一款优秀的实时文件同步工具&#xf…

作者头像 李华
网站建设 2026/6/23 0:11:55

告别“从零开始”,百考通源码图纸库,你的项目开发加速器!

在软件工程、嵌入式开发、自动化控制乃至人工智能等领域,一个成功的项目往往始于一个扎实的起点。然而,对于广大的开发者、学生和工程师而言,“从零开始”构建一个复杂系统,不仅意味着漫长的学习曲线和巨大的工作量,更…

作者头像 李华
网站建设 2026/6/23 8:30:24

构建电商智能决策支持平台

构建电商智能决策支持平台 关键词:电商、智能决策支持平台、数据挖掘、机器学习、决策算法、大数据分析、实时决策 摘要:本文旨在深入探讨构建电商智能决策支持平台的相关技术和方法。随着电商行业的快速发展,企业面临着海量的数据和复杂的决策场景,智能决策支持平台能够帮…

作者头像 李华
网站建设 2026/6/23 15:55:37

Bazel插件生态:3步解决多语言项目构建难题

Bazel插件生态:3步解决多语言项目构建难题 【免费下载链接】bazel a fast, scalable, multi-language and extensible build system 项目地址: https://gitcode.com/GitHub_Trending/ba/bazel 还在为复杂的多语言项目构建而头疼?Bazel插件生态系统…

作者头像 李华
网站建设 2026/6/22 23:42:31

高端成果与需求端断层如何破局?区域科技创新体系可借助知识产权智能运营平台实现闭环的体系化竞争壁垒。

观点作者:科易网AI技术转移研究院在科技创新日益成为国家核心竞争力的今天,高校院所作为科技成果的重要源头,其成果转化效率直接影响着创新链与产业链的深度融合。然而,长期以来,“高端成果与需求端断层”问题一直是制…

作者头像 李华