news 2026/6/23 21:09:41

RAG信息检索基准评测指标的分析和探索

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
RAG信息检索基准评测指标的分析和探索

这里从多个角度分析和探索RAG信息检索常用的基准和评测指标。

1 BEIR

1.1 通用检索基准 (BEIR)

BEIR是一个用于零样本文本信息检索的标准评估基准。它旨在解决传统模型在单一数据集上评估、难以衡量其真实泛化能力的问题,BEIR集合了18个来自不同任务和领域的公开数据集。

1.2 NDCG

NDCG(Normalized Discounted Cumulative Gain)作为评估指标。NDCG通常用于衡量排名质量,特别是在信息检索中。

1.3 NDCG@10

NDCG@10 是信息检索中衡量搜索结果排名的核心指标,重点关注前10个结果的相关性和排序质量。在BEIR这类评估基准中,它是最关键的模型效果衡量标准。

NDCG@10 的全称是 “归一化折现累积增益在10处”。它的核心思想是:

相关性有等级:每个结果的相关性不是简单的“相关”或“不相关”,而是有多个等级(如0-4分)。

排名越高越重要:排在前面的相关结果对用户价值更大,因此其增益会乘以一个位置折现因子(排名越靠后,折现越多)。

结果归一化:将实际得分除以“理想排序”下的最高可能得分,得到一个介于0到1之间的值。1分表示前10个结果以完美相关性顺序呈现

Elastic官网研究发现,倒数排序融合 (ELSER + BM25)相比单一ELSER检索,NDCG@10提升1.4%;相比单一BM25,提升18%。

其中,ELSER (Elastic Learned Sparse Encoder)是 Elastic 公司专门为零样本语义搜索而设计,其核心特点是利用“稀疏向量”来理解查询意图和上下文,而非仅匹配关键词。

https://www.elastic.co/search-labs/blog/improving-information-retrieval-elastic-stack-hybrid

https://github.com/beir-cellar/beir

2Rouge-L

2.1 Rough

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一组评估文本生成质量的指标。

2.2 Rouge-L

ROUGE-L 是ROUGH的一个变体,基于最长公共子序列。

ROUGE-L是寻找机器生成的文本人工参考摘要之间的最长公共子序列

最长公共子序列,就是两个序列中都出现的最长子序列,元素不需要连续,但顺序必须一致。

2.3 Rough-L计算

ROUGE-L 结合了准确率召回率

召回率= LCS长度 / 参考摘要长度

(生成的摘要包含了多少参考摘要的内容)

准确率= LCS长度 / 生成摘要长度

(生成的摘要中有多少是正确的)

F1分数= 2 × (准确率 × 召回率) / (准确率 + 召回率)

(F1得分是综合平衡得分)

示例如下

参考摘要(A)[这, 只, 猫, 坐, 在, 垫, 上]

生成摘要(B)[垫, 上, 有, 一, 只, 猫]

最长公共子序列的长度 L = 2(例如[只, 猫][垫, 上])。

正确计算

R = 2 / 7 ≈ 0.286

P = 2 / 6 ≈ 0.333

F1 ≈ 0.308

3 检索延迟

3.1 检索延迟

检索延迟通常指从用户发起查询到系统返回结果所经历的时间差。它是一个直接影响用户体验的核心性能指标,延迟过高可能导致用户放弃等待。

3.3 应对方案

为了应对延迟挑战,学术界和工业界提出了多种创新方案:

PLAID引擎:针对先进的“延迟交互检索”范式(如ColBERT模型)进行优化,通过引入质心交互等机制,在保证精度的前提下,将GPU上的检索延迟降低了7倍,CPU上甚至能达到45倍的加速,实现大规模数据集下的毫秒级响应。

Airphant搜索引擎:专为“计算与存储分离”的云环境设计。它使用名为 IoU Sketch 的新型统计索引,通过并行发起多个异步网络请求来获取数据,避免了传统索引的串行等待。实验显示,其端到端延迟在13毫秒到300毫秒之间,比Apache Lucene快8.97倍,比Elasticsearch快113.39倍。

DeepSeek联网搜索优化:从系统工程角度,采用分布式索引、边缘节点缓存、多级缓存体系和查询预取等综合策略,将平均查询响应时间从2.3秒降至0.8秒-2。

4内存效率

4.1 内存效率

内存效率关注的是如何以最小的内存资源消耗,达成特定的计算目标。它是衡量软件或算法在内存使用上“经济性”的核心指标,与检索延迟(你之前关心的速度指标)紧密相关,两者常需权衡。

4.2 优化策略

信息检索领域,内存效率优化无处不在。

索引压缩:搜索引擎(如Elasticsearch/Lucene)会对倒排索引使用多种编码进行压缩,使海量索引能装入内存。

缓存策略:在内存中缓存热点查询结果常用索引块,但需精心设计缓存淘汰算法(如LRU、LFU),在有限的缓存空间内存放最高价值的数据。

向量检索优化:对于AI时代的海量向量数据,采用产品量化(PQ)等技术,将高维向量压缩成短编码,大幅降低内存占用和计算距离时的带宽需求,是实现内存高效近似检索的关键。

reference

---

Improving information retrieval in the Elastic Stack: Hybrid retrieval

https://www.elastic.co/search-labs/blog/improving-information-retrieval-elastic-stack-hybrid

A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models

https://datasets-benchmarks-proceedings.neurips.cc/paper/2021/file/65b9eea6e1cc6bb9f0cd2a47751a186f-Paper-round2.pdf

beir

https://github.com/beir-cellar/beir

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 21:52:56

vue和springboot框架开发的校园商店零售管理系统_pt87nuk3

文章目录具体实现截图主要技术与实现手段关于我本系统开发思路java类核心代码部分展示结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!具体实现截图 同行可拿货,招校园代理 vuespringboot_pt87nuk3 框架开发的校园商店零售管理…

作者头像 李华
网站建设 2026/6/23 17:17:42

vue和springboot框架开发的校园智能AI问答技术的快递物流管理系统_5kf8to85

文章目录具体实现截图主要技术与实现手段关于我本系统开发思路java类核心代码部分展示结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!具体实现截图 同行可拿货,招校园代理 vuespringbootAI_5kf8to85 问答技术的快递物流管理系…

作者头像 李华
网站建设 2026/6/23 10:31:38

文件句柄数超限

目录标题[TOC](目录标题)一、先理解告警在说什么(避免误判)1️⃣ node_exporter 监控的是什么2️⃣ 为什么危险二、第一步:立刻判断「是真快爆了,还是阈值太低」1️⃣ 看系统总 FD 上限2️⃣ 当前已用 FD 数3️⃣ 计算使用率判断标…

作者头像 李华
网站建设 2026/6/23 19:18:01

面向2025:融合AI安全的网络安全学习路线与技能清单

2025年网络安全学习路线 一、基础阶段(3-6个月) 目标:建立计算机基础与安全意识 1. 计算机基础 学习计算机网络(TCP/IP、HTTP/HTTPS、DNS、VPN等)。 掌握操作系统原理(Linux/Windows系统管理与命令行操…

作者头像 李华