news 2026/2/16 11:17:22

RAG翻车现场终结者!Agentic-R双视角打分,小白也能上手的大模型检索神器

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
RAG翻车现场终结者!Agentic-R双视角打分,小白也能上手的大模型检索神器

1 背景:传统 RAG 的“单跳”天花板

传统检索增强生成(RAG)=「一次检索 + 一次生成」。
当问题需要多跳推理(例:A 比 B 大几岁?→ 先查 A 出生年 → 再查 B 出生年)时,单跳检索往往“一步错、步步错”。

图1 经典 Agentic Search 流程

Agentic Search把 RAG 升级成「多轮推理-检索」循环:LLM 像侦探一样,边思考边查资料,直到凑齐证据链。
然而,检索器仍沿用老掉牙的“语义相似度”方案——只关心“这段文字像不像答案”,不关心“这段文字能不能把推理引向正途”。于是高相似但误导性的段落被当成宝贝,最终答案翻车。

2 方案:双视角打分 + 双向飞轮

人大高瓴 & 百度 提出一套面向智能搜索的检索器训练框架。与传统单轮检索增强生成(RAG)只关注“局部段落效用”不同,同时考虑:

  • 局部查询-段落相关性
  • 全局答案正确性

两者共同衡量段落在多轮智能搜索中的真实效用。

图2 训练框架

2.1 训练数据怎么来?

给定一条 Agent 轨迹
T = {t₁,q₁,D₁, … , tₙ,A}
对每个中间查询qᵢ,从语料里先捞 20 条候选段落pᵢ,₁…pᵢ,₂₀,然后打两份分:

  1. Local Relevance(LR)
    用 Qwen2.5-72B 做「列表式」相关性打分(0–100),鼓励段落直接回答qᵢ
    若能推断出qᵢ的“子答案”,一并喂给 LLM 做参考,减少幻觉。
  2. Global Answer Correctness(GAC)
    pᵢ,ⱼ塞回 Agent,让它跑完后续所有轮次,看最终答案是否命中标准答案(EM=1/0)。
    这一步把“局部有用”升级为“全局正确”,过滤掉会把推理带歪的高相似段落。

排序规则
先按 GAC 降序,再按 LR 降序;Top-1 且 GAC=1 & LR≥60 为正例,其余做负例,每查询凑 16 条样本。

2.2 模型怎么训?

  • 输入:原始问题Q+ 当前查询qᵢ,用[SEP]拼接,不引入历史查询(实验表明历史查询会引入噪声)。
  • 损失:对比学习,in-batch + 跨 GPU 负样本,温度 0.01。
  • 初始化:直接热启 E5-base,2 epoch,lr 2e-5。

2.3 飞轮怎么转?

算法1 迭代优化伪代码
  1. 第 k 轮用Agentic-Rₖ₋₁做环境,PPO 训出更强Agentₖ
  2. Agentₖ产生新轨迹,构造更高质量训练集;
  3. 用新数据训出Agentic-Rₖ
  4. 重复 2 轮即收敛。

3 Agentic-R 用两轮迭代,让检索器“长眼睛”

Agentic-R 在 7 个数据集、3 种不同搜索 Agent 上平均提升 2–3 个绝对 EM 点;同时让搜索轮数**减少 10–15%**。
两轮迭代后收益饱和,继续训反而轻微掉点。

表1 主实验结果(7 个 QA 数据集,EM 分数)
图3 平均搜索轮数对比
图4 迭代轮数 vs 性能

4 一张图看懂“为什么 E5 会翻车”

表6 Case Study(HotpotQA)

E5 把“Get Shorty”当成第三部大片,结果一路检索“莫须有”的 honky-tonk;
Agentic-R 直接锁定“Urban Cowboy”+“Gilley’s Club”,一步直达正确答案Mickey Gilley

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/15 21:37:28

【Android毕设全套源码+文档】基于android的高校教室预约管理平台设计与实现(丰富项目+远程调试+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/2/16 1:22:15

施耐德伺服驱动器LXM05BD17M2

LXM05BD17M2是施耐德LXM05系列里一款性能很扎实的交流伺服驱动器,特别适合中高速度和高精度定位的应用场景。‌性能特点‌‌核心性能‌:采用无传感器矢量控制技术,动态响应快,稳速精度高,抗负载扰动能力强。‌功率与电…

作者头像 李华
网站建设 2026/2/15 22:14:18

SIEMENS 6ES7452-1AH00-0AE0 控制单元

西门子6ES7 452-1AH00-0AE0控制单元,其实就是个专用于高精度运动控制的电子凸轮控制器,属于S7-400系列的功能模块。它的核心作用是替代机械凸轮,实现电子凸轮控制、电子齿轮、位置同步和高速计数,通过软件编程精确控制主从轴之间的…

作者头像 李华
网站建设 2026/2/13 18:55:06

企业微信外部群运营升级:API 主动推送消息开发实战

QiWe开放平台 个人名片 API驱动企微自动化,让开发更高效 核心能力:为开发者提供标准化接口、快速集成工具,助力产品高效拓展功能场景 官方站点:https://www.qiweapi.com 团队定位:专注企微API生态的技术服务团队 对接…

作者头像 李华
网站建设 2026/2/16 9:11:32

Java接入AI大模型:框架助力与实践指南

Java接入AI大模型是企业实现数智化升级的关键路径,但原生开发面临多模型适配、工程化部署等挑战。JBoltAI作为Java生态下的开发框架,为开发者提供了标准化的集成方案,降低了技术门槛,其设计思路与实践方法具有实际参考意义。一、J…

作者头像 李华
网站建设 2026/2/13 23:55:06

iPhone 与Android :有什么区别?

iPhone 和Android之间关于哪款设备更胜一筹的争论从未停止。最近,随着iOS 26 和Android 16 的发布,关于Android和 iPhone 的讨论也愈演愈烈。虽然可能永远无法分出胜负,但我们仍然希望通过比较来帮助您找到最符合您需求的那款。虽然iOS和Andr…

作者头像 李华