news 2025/12/26 17:09:40

大模型进阶之路:Agent+RL代表项目全解析,建议收藏学习!!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型进阶之路:Agent+RL代表项目全解析,建议收藏学习!!

简介

本文系统分析了15个将强化学习(RL)与大型语言模型(LLM)结合的创新项目,展示了RL在增强LLM推理、搜索和交互能力中的重要作用。这些项目通过创新的RL框架优化了LLM在搜索优化、工具调用、多轮交互和深度研究等复杂任务中的表现。随着RL算法和LLM的进一步融合,LLM智能体能力有望提升,为知识密集型任务和自动化决策提供更强大解决方案。


引言

Agent落地元年,大家一直在用各种方式做创新,比如拿Graph做Memory,拿SFT+RL增强调用tools的能力等,研究者们探索了将RL与LLM结合,开发出能够自主调用外部工具、优化搜索策略并在多轮交互中实现复杂推理的智能体,RL在各种场景中频繁出现。

本文通过对一系列创新性项目的系统分析,全面综述了RL在增强LLM推理、搜索和交互能力中的应用,探讨了其方法论、实践价值及未来发展方向,欢迎关注阿东玩AI。

目录如下:

一、ReSearch

  • 论文: https://arxiv.org/pdf/2503.19470
  • GitHub仓库: https://github.com/Agent-RL/ReCall

  • 摘要: 大型语言模型(LLM)展现出卓越的推理能力,如OpenAI-o1和DeepSeek-R1的成功所示。然而,将推理与外部搜索过程结合仍具挑战性,尤其是在需要多步检索的复杂多跳问题上。我们提出了ReSearch框架,通过强化学习训练LLM在无需推理步骤监督数据的情况下使用搜索进行推理。搜索操作被视为推理链的一部分,由基于文本的思维引导,搜索结果进一步影响推理过程。我们在Qwen2.5-7B和Qwen2.5-32B模型上训练ReSearch,实验表明其在多基准测试中具有强大的泛化能力,展现出反思和自我修正等高级推理能力。

  • 描述: ReSearch通过强化学习优化LLM的搜索与推理能力,将搜索操作融入推理链,强调基于文本的动态决策。
  • 实践价值: 适合研究RL如何提升LLM在复杂推理任务中的表现,特别是涉及多步搜索优化的场景。

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份LLM大模型资料分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以扫描下方二维码领取🆓↓↓↓


二、Search-R1

  • 论文: https://arxiv.org/pdf/2503.19470

  • GitHub仓库: https://github.com/PeterGriffinJin/Search-R1

  • 支持本地稀疏检索器(例如 BM25)。✔️
  • 支持本地密集检索器(平面索引和 ANN 索引)✔️
  • 支持谷歌搜索/必应搜索/勇敢搜索 API 等。✔️ Support off-the-shelf neural rerankers. ✔️
  • 支持现成的神经重新排序器。✔️
  • 支持不同的 RL 方法(例如 PPO、GRPO、强化)。✔️
  • 支持不同的 LLM(例如 llama3、Qwen2.5 等)。✔️
  • 摘要: 高效获取外部知识对LLM的推理和生成至关重要,但直接让推理能力强的LLM使用搜索引擎并非最佳选择。本文提出Search-R1,通过强化学习扩展推理框架,使LLM在逐步推理中自主生成搜索查询。Search-R1通过多轮搜索交互优化推理轨迹,利用检索到的token掩码进行稳定RL训练,并采用基于结果的奖励函数。实验表明,Search-R1在七个问答数据集上性能显著优于RAG基线,Qwen2.5-7B和Qwen2.5-3B模型分别提升41%和20%。
  • 描述: Search-R1通过RL训练LLM优化查询生成和结果解读,提升任务解决能力。
  • 实践价值: 适合探索LLM与外部工具(如搜索引擎)结合的场景,研究RL如何优化信息获取。

三、R1-Searcher

  • 论文: https://arxiv.org/pdf/2503.05592

  • GitHub仓库: https://github.com/RUCAIBox/R1-Searcher

  • Model:
  • Qwen-2.5-7B-Base-RAG-RL: https://huggingface.co/XXsongLALA/Qwen-2.5-7B-base-RAG-RL
  • Llama-3.1-8B-Instruct-RAG-RL: https://huggingface.co/XXsongLALA/Llama-3.1-8B-instruct-RAG-RL
  • Train-data: https://huggingface.co/datasets/XXsongLALA/RAG-RL-Hotpotqa-with-2wiki
  • 摘要: 现有大型推理模型通过RL提升复杂推理能力,但依赖内部知识可能导致不准确或幻觉问题。我们提出R1-Searcher,一种基于结果的两阶段RL方法,增强LLM的搜索能力,使其在推理中自主调用外部搜索系统。实验表明,R1-Searcher显著优于RAG方法,甚至超越闭源的GPT-4o-mini。
  • 描述: R1-Searcher通过RL激励LLM发展搜索能力,专注于从外部资源获取和利用信息。
  • 实践价值: 适用于知识密集型问答或数据分析等高效信息检索任务。

四、RAGEN

  • 论文: https://arxiv.org/pdf/2504.20073

  • GitHub仓库: https://github.com/ZihanWang314/RAGEN

  • 摘要: 训练LLM为交互式智能体面临长期决策和随机环境反馈的挑战。我们提出StarPO框架和RAGEN系统,用于轨迹级智能体RL训练。研究发现“回声陷阱”模式,并通过StarPO-S解决。实验表明,多样化初始状态和推理感知奖励信号对RL部署至关重要。
  • 描述: RAGEN通过多轮RL实现LLM代理的自我进化,优化轮次级别的信用分配。
  • 实践价值: 适合研究多轮交互和自我改进的代理,应用于对话系统或任务规划。

有三个主要模块:环境状态管理器(ragen/llm_agent/es_manager.py)、上下文管理器(ragen/llm_agent/ctx_manager.py)和代理代理(ragen/llm_agent/agent_proxy.py)。

  1. 环境状态管理器(es_manager):

支持多种环境(不同环境、相同环境不同种子、相同环境相同种子) 记录部署过程中每个环境的状态 处理来自ctx_manager的操作,执行步骤,并以批处理方式将操作结果(观察结果)返回给ctx_manager

  1. 上下文管理器(ctx_manager):

将原始代理令牌解析为es_manager的结构化操作 格式化来自es_manager的观察,解析并制定它们以供接下来的代理推出。 收集最终的推出轨迹并将其编译成标记、注意力掩码、奖励分数和损失掩码,以供 llm 更新。

  1. Agent Proxy(agent_proxy): 作为执行单轮或多轮部署的接口

五、ReTool[字节出品,必属精品]

  • 论文: https://arxiv.org/pdf/2504.11536

  • GitHub仓库: https://github.com/ReTool-RL/ReTool

  • 摘要: 推理模型在文本推理上表现出色,但在结构化问题解决中表现不佳。ReTool通过工具集成学习增强长篇推理能力,动态交错代码执行,并通过RL优化工具调用策略。在AIME基准上,ReTool-32B模型达到72.5%准确率,超越OpenAI o1-preview。
  • 描述: ReTool通过RL训练LLM战略性使用工具(如API、计算器),优化任务解决能力。
  • 实践价值: 适合研究工具增强型LLM,探索RL在工具选择和使用中的应用。

六、DeepResearcher

  • 论文: https://arxiv.org/pdf/2504.03160

  • GitHub仓库: https://github.com/GAIR-NLP/DeepResearcher

DeepResearcher 是首个全面的框架,通过在真实环境中扩展强化学习 (RL) 来实现基于 LLM 的深度学习代理的端到端训练,并支持真实的网络搜索交互。我们的定性分析揭示了端到端 RL 训练中涌现出的认知行为 ,包括制定计划、交叉验证来自多个来源的信息、进行自我反思以重新引导研究方向,以及在无法找到明确答案时保持诚实的能力。

  • 摘要: DeepResearcher通过在真实环境中扩展RL,训练LLM进行深度研究,应对开放网络的复杂性。实验表明,其性能显著优于基于提示工程和RAG的基线,展现出计划、交叉验证和自我反思等认知行为。
  • 描述: DeepResearcher结合LLM与外部知识源,扩展RL在现实研究任务中的应用。
  • 实践价值: 适合需要深度信息合成的场景,如科学研究或复杂数据分析。

七、ZeroSearch

  • 论文: https://arxiv.org/abs/2505.04588

  • GitHub仓库: 未提供具体链接
  • 摘要: ZeroSearch通过RL训练LLM内化搜索能力,采用基于课程的推出策略,逐步提升推理能力。实验表明,7B和14B模型的检索模块性能可媲美甚至超越真实搜索引擎。
  • 描述: ZeroSearch减少对外部搜索的依赖,通过RL模拟搜索行为。
  • 实践价值: 适合研究LLM如何通过内部机制模拟搜索,降低对外部资源的依赖。

八、Agent-R1

  • GitHub仓库: https://github.com/0russwest0/Agent-R1
  • 描述: Agent-R1扩展DeepSeek-R1,通过RL训练代理型 LLM,提升决策和任务执行能力。
  • 详细解读: https://deepwiki.com/0russwest0/Agent-R1
  • 实践价值: 适合探索动态环境中的代理行为,应用于复杂任务场景。

九、 StepSearch

  • 论文: https://www.arxiv.org/pdf/2505.15107

  • GitHub仓库: https://github.com/Zillwang/StepSearch

  • 摘要: StepSearch通过逐步近端策略优化(PPO)训练LLM,包含细粒度搜索奖励和信息增益监督,显著优于全局奖励基线,3B和7B模型分别提升11.2%和4.2%。
  • 描述: StepSearch通过PPO优化分步搜索过程,提升多跳推理能力。
  • 实践价值: 适合研究PPO在LLM搜索增强中的应用,特别适用于分步任务。

十、 Multi-Turn-RL-Agent

  • 论文: https://arxiv.org/pdf/2505.11821

  • GitHub仓库: https://github.com/SiliangZeng/Multi-Turn-RL-Agent

  • 摘要: 通过轮次级别优势估计优化多轮工具使用场景,Multi-Turn-RL-Agent在工具执行和精确答案匹配中显著优于基线,成功率达100%,准确率达50%。
  • 描述: 聚焦于通过轮次级别信用分配强化LLM代理的多轮推理能力。
  • 实践价值: 适合研究多轮对话或复杂任务中的长期推理优化。

十一、如何学习AI大模型?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高

那么针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份LLM大模型资料分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以扫描下方二维码领取🆓↓↓↓

学习路线

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/27 3:30:43

应用层|低空应用安全的 “精工锻造者”,中科数测以多工具矩阵赋能应用从开发到运维的全周期安全

从无人系统管理平台的精准调度,到空中交通管制系统的高效指挥,再到低空飞行监控系统的实时预警,应用层是低空经济价值交付的“终端窗口”,其安全直接决定了用户体验的优劣与业务价值的最终实现。中科数测整合固件检测工具、协议模…

作者头像 李华
网站建设 2025/12/27 3:11:35

横观水力压裂模型:从 PDE 建模到 Comsol 模拟

横观水力压裂模型 pde建模 横观各向同性介质水力压裂裂纹扩展模型 使用comsol软件实现相场法模拟裂纹扩展 均基于断裂力学理论 模拟单边拉裂纹受拉伸荷载作用和受剪切荷载作用 考虑初始地应力场作用下裂纹扩展模拟 瞬态水力压裂裂隙扩展 包括文章和模型在地质工程领域&#xff…

作者头像 李华
网站建设 2025/12/21 3:32:26

值得关注的人形机器人公司盘点,智元AGIBOT以卓越实力登顶

随着AI大模型与柔性驱动技术的深度融合,人形机器人正逐渐走向规模商业化,在服务、工业、文娱等场景实现阵阵落地。当前行业呈现“技术智能化、场景多元化、生态一体化”三大趋势,一批具备核心技术与落地能力的企业脱颖而出,以下5 …

作者头像 李华
网站建设 2025/12/26 2:08:25

PLC连续可变S速度曲线算法仿真

一、前言1.连续可变S速度曲线:系统运行中可更改输入的运行速度,此速度曲线会重新规划,根据当前速度,加速度、减速度、重新规划速度。由S型斜坡柔性改变到新的速度2.S速度曲线使用三角函数曲线算法,其加速度、加加速度皆…

作者头像 李华
网站建设 2025/12/23 2:26:32

清华源替换Anaconda默认源,Miniconda下载速度飞跃

清华源替换Anaconda默认源,Miniconda下载速度飞跃 在人工智能项目开发中,你是否经历过这样的场景:运行一条 conda install pytorch 命令后,看着终端里缓慢爬升的进度条——几KB/s的速度,动辄半小时起的等待时间&#x…

作者头像 李华
网站建设 2025/12/27 4:07:39

AutoGPT技术揭秘:大语言模型如何成为自主任务驱动智能体?

AutoGPT技术揭秘:大语言模型如何成为自主任务驱动智能体? 在当今AI快速演进的浪潮中,一个根本性转变正在悄然发生——我们不再只是向机器提问“怎么做”,而是直接告诉它“我要什么”。这种从指令驱动到目标驱动的跃迁,…

作者头像 李华