news 2025/12/28 14:22:58

Tool-to-Agent_Retrieval:连接工具与智能体的统一检索框架,让大模型多智能体系统更高效

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Tool-to-Agent_Retrieval:连接工具与智能体的统一检索框架,让大模型多智能体系统更高效

Tool-to-Agent Retrieval:连接工具与智能体的统一检索框架,让大模型多智能体系统更高效

大语言模型多智能体系统正迎来一场革命性突破!最新研究提出的Tool-to-Agent Retrieval框架,通过将工具和智能体嵌入共享向量空间,实现了前所未有的检索效率提升。在LiveMCPBench基准测试中,该方法在Recall@5指标上提升19.4%,在nDCG@5指标上提升17.7%,为构建可扩展的LLM多智能体系统开辟了新路径。

论文标题: Tool-to-Agent Retrieval: Bridging Tools and Agents for Scalable LLM Multi-Agent Systems
来源: arXiv:2511.01854v2 + https://arxiv.org/abs/2511.01854

PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 AI极客熊 」 即刻免费解锁

文章核心

研究背景:

随着大语言模型智能体和Model Context Protocol (MCP)的快速发展,助手能够在推理时发现、装备和使用大量外部工具和MCP服务器。在实际应用中,单个助手可能会委托给专门的子智能体进行代码分析、数据库操作或网络搜索,每个智能体在单一接口背后捆绑了数十个工具。核心挑战在于路由:给定用户查询,系统应该选择特定工具还是利用整个智能体(如MCP服务器)提供的一组协调的工具?将所有工具描述转发给模型是不现实的,例如一个包含26个工具的MCP服务器可能消耗超过4,600个token,使得高效检索对于可扩展性变得至关重要。

研究问题:

  1. Agent-first路由局限性:现有的智能体优先管道将查询与简短的智能体描述匹配,然后仅在该智能体内操作,这会隐藏那些父描述与查询明显不对齐的高度相关工具。
  2. Tool-only检索缺陷:仅工具检索独立处理每个工具,忽略了多步任务中周围工具包的互补优势。
  3. 上下文稀释问题:当许多工具被折叠成单一粗粒度描述时,会导致上下文稀释,影响检索精度。

主要贡献:

  1. 统一检索框架:引入了一种新颖的工具检索策略,将工具及其父智能体嵌入共享向量空间,通过工具到智能体元数据遍历进行链接,实现统一检索并达到最先进的性能。
  2. 细粒度路由机制:提出了一种检索程序,既保留细粒度工具级细节,又维持智能体级上下文,缓解了粗粒度摘要带来的上下文稀释问题,提高了多步查询的鲁棒性。
  3. 全面评估:在LiveMCPBench上使用八个嵌入模型评估方法,证明了相比先前最先进方法在Recall@5上提升17.7%,在nDCG@5上提升19.4%的性能改进。

方法论精要

Tool-to-Agent Retrieval的核心创新在于将工具和其父智能体同时嵌入统一的向量空间中,并通过元数据关系显式链接每个工具到其父智能体。该方法考虑了一个包含MCP服务器及其对应智能体的目录,表示为a ∈ A a \in AaA。每个智能体a aa拥有一组工具T a T^aTa,由该智能体暴露的API调用、函数或操作组成。整个系统被建模为一个二分图G = ( A , T , E ) G=(A,T,E)G=(A,T,E),其中边E EE表示工具和智能体之间的所有权关系。

索引构建:研究构建了一个统一的工具-智能体目录C \mathcal{C}C,集成了工具和智能体用于检索。该目录由两个语料库组成:工具语料库C T \mathcal{C}^TCT和智能体语料库C A \mathcal{C}^ACA。工具语料库包含直接索引检索的工具名称和描述,每个工具条目包括显式链接到其父MCP服务器或智能体的元数据,表示为o w n e r ( T ) = A owner(T)=Aowner(T)=A。这种映射使得在查询解析期间能够从检索的工具遍历到相应的可执行智能体。智能体语料库类似地包含智能体名称和描述,表示更高级别的能力并作为检索图中的父节点。

检索过程:检索过程修改了标准的top-K排序程序。目标是识别给定查询或子查询的前K个最相关智能体。为实现这一目标,首先从统一的工具-智能体目录C \mathcal{C}C中检索前N ≫ K N \gg KNK个实体,按与查询的语义相似度排序。这种方法结合了语义和词汇匹配策略以提高召回率,利用BM25与密集向量检索并行使用。然后聚合相应的父智能体,并选择前K个唯一智能体。

查询策略:Tool-to-Agent Retriever的输入可以是原始用户查询、从中分解的子步骤,或两者的组合。研究评估了两种查询范式:第一种是直接查询,直接使用用户的高级问题作为检索查询,无需任何预处理;第二种是逐步查询,将原始查询分解为一系列较小的子任务,然后每个步骤独立提交给检索器,允许系统在多步工作流中根据需要识别不同的智能体。

该方法的算法实现如Algorithm 1所示,输入包括查询q qq、语料库C \mathcal{C}C(智能体∪工具)、类型函数τ ( ⋅ ) ∈ { agent , tool } \tau(\cdot) \in \{\text{agent}, \text{tool}\}τ(){agent,tool}、所有者映射o w n ( ⋅ ) own(\cdot)own()、相似度函数s ( q , ⋅ ) s(q,\cdot)s(q,)和截断值N , K N,KN,K。算法首先检索前N NN个实体,然后通过遍历工具到智能体的关系,最终返回前K KK个唯一智能体。

实验洞察

研究在LiveMCPBench数据集上评估了所提出的Tool-to-Agent Retriever的有效性,该数据集包含70个MCP服务器和527个工具,以及95个真实世界问题,标注了逐步分解和相关工具-智能体映射。这种结构支持细粒度、步骤级的检索性能评估。平均每个问题跨越2.68个步骤,涉及2.82个工具和1.40个MCP智能体。

实验设置:研究评估了多个嵌入模型的检索性能,使用了8个嵌入模型,包括闭源和开源模型。使用每个模型对数据集进行嵌入,并执行语义相似度搜索以检索相关实体。首先从工具-智能体目录中检索前N ≫ K N \gg KNK个实体,然后使用Algorithm 1选择前K KK个唯一智能体。通过将检索的智能体与评估集中每个查询相关联的真实智能体进行比较来计算检索准确性。

性能结果:如表1和表2所示,Tool-to-Agent Retrieval在Recall、mAP和nDCG指标上始终优于先前方法。该方法在所有基线上实现了卓越性能,在多个嵌入系列中观察到增益,包括Vertex AI、Gemini、Titan、OpenAI和MiniLM。这些改进主要源于更丰富的检索语料库,该语料库共同索引工具和智能体,实现了更细粒度的语义对齐。

重要的是,性能提升不能仅归因于工具级检索。联合索引支持细致的匹配,同时保留智能体上下文,证据显示39.13%的检索前K项来自智能体语料库C A \mathcal{C}^ACA,34.44%的匹配前K工具也追溯到C A \mathcal{C}^ACA。这些结果共同表明,显式链接工具到其父智能体缓解了上下文稀释,改善了多步路由,而不牺牲细粒度精度。

在所有八个嵌入模型上,Tool-to-Agent Retrieval表现出 remarkably 稳定的改进,相对于MCPZero,Recall@5的标准偏差为0.02,nDCG@5的标准偏差为0.01。这种一致性表明增益是架构无关的,主要由统一索引设计驱动,而非特定嵌入行为。最强的相对改进在Amazon Titan v2上观察到(Recall@5从0.66提高到0.85,相对增益+28%),即使是紧凑的All-MiniLM-L6-v2模型也实现了+13%的改进,确认了在专有和开源嵌入中的通用性。

消融分析:为了分离工具级信息的贡献,研究还构建了一个仅包含MCP服务器名称和描述的仅智能体基线数据集。实验结果表明,仅智能体检索在处理细粒度工具功能时存在显著限制,而Tool-to-Agent Retrieval通过联合索引成功平衡了细粒度工具匹配和智能体级上下文保留。

这项研究为统一工具和智能体选择开辟了有希望的方向,激励未来研究更复杂的代理网络的可扩展检索架构。通过显式建模工具能力并启用工具级和智能体级表示之间的遍历,该方法支持保留细粒度上下文的细粒度检索决策,避免了粗粒度智能体摘要引入的稀释。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/25 10:18:51

【Matlab】matlab代码实现随机潮流计算

以下是一个基本的 MATLAB 代码实现随机潮流计算的示例。这个示例假设你已经有了潮流方程和雅可比矩阵的函数,并且已经定义了系统的节点和支路数据。% 系统数据 节点数据 [1, 100, 1.05, 0, 0; 2, 0, 1, 0, 0; 3, 0, 1, 0, 0]; % 节点数据:节点编号&…

作者头像 李华
网站建设 2025/12/27 18:12:26

【Agent服务Docker隔离实战】:20年专家揭秘高效环境隔离的5大核心策略

第一章:Agent服务Docker隔离的核心价值 在现代分布式系统架构中,Agent服务承担着监控、日志采集、配置同步等关键任务。将Agent服务运行于Docker容器中,不仅能实现环境一致性,还能通过资源隔离提升系统整体的稳定性与安全性。 环…

作者头像 李华
网站建设 2025/12/27 1:53:38

WVP-GB28181-Pro视频监控平台实战部署:企业级解决方案深度解析

WVP-GB28181-Pro视频监控平台实战部署:企业级解决方案深度解析 【免费下载链接】wvp-GB28181-pro 项目地址: https://gitcode.com/GitHub_Trending/wv/wvp-GB28181-pro 在数字化转型浪潮中,企业面临着视频监控系统部署的诸多挑战:设备…

作者头像 李华
网站建设 2025/12/26 21:49:46

揭秘机器视觉环形光源:95%的检测难题迎刃而解!

在智能制造飞速发展的今天,机器视觉技术正成为工业自动化的"火眼金睛"。而在这双"慧眼"背后,环形光源扮演着至关重要的角色——它是确保检测精度的"灵魂之光"!为什么环形光源如此重要?想象一下&…

作者头像 李华
网站建设 2025/12/26 23:54:02

计算机毕设java的水果销售系统 基于Java的水果销售管理系统设计与实现 Java技术驱动的水果销售信息化平台开发

计算机毕设java的水果销售系统e636p9(配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。 随着互联网技术的飞速发展,传统的水果销售模式已经难以满足现代消费者的需求。…

作者头像 李华
网站建设 2025/12/25 23:15:01

项目的时间线项目从启动到这周 大概是5周的时间10/28-10/31 Week 1项目初始化/需求讨论/设计文档/后端next.js, typescript技术熟悉 项目运行/调试基

项目的时间线 项目从启动到这周 大概是5周的时间 10/28-10/31 Week 1 项目初始化/需求讨论/设计文档/后端next.js, typescript技术熟悉 项目运行/调试基础框架搭建 设计表结构ddl, 集成mysql, 编写crud接口阶段 11/03-11/07 Week 2 产品PRD 提供xxxx等表设计 11/10-11/14 Week …

作者头像 李华