RAG信息检索基准评测指标的分析和探索-育师

这里从多个角度分析和探索RAG信息检索常用的基准和评测指标。

1 BEIR

1.1 通用检索基准 (BEIR)

BEIR是一个用于零样本文本信息检索的标准评估基准。它旨在解决传统模型在单一数据集上评估、难以衡量其真实泛化能力的问题，BEIR集合了18个来自不同任务和领域的公开数据集。

1.2 NDCG

NDCG（Normalized Discounted Cumulative Gain）作为评估指标。NDCG通常用于衡量排名质量，特别是在信息检索中。

1.3 NDCG@10

NDCG@10 是信息检索中衡量搜索结果排名的核心指标，重点关注前10个结果的相关性和排序质量。在BEIR这类评估基准中，它是最关键的模型效果衡量标准。

NDCG@10 的全称是 “归一化折现累积增益在10处”。它的核心思想是：

相关性有等级：每个结果的相关性不是简单的“相关”或“不相关”，而是有多个等级（如0-4分）。

排名越高越重要：排在前面的相关结果对用户价值更大，因此其增益会乘以一个位置折现因子（排名越靠后，折现越多）。

结果归一化：将实际得分除以“理想排序”下的最高可能得分，得到一个介于0到1之间的值。1分表示前10个结果以完美相关性顺序呈现。

Elastic官网研究发现，倒数排序融合 (ELSER + BM25)相比单一ELSER检索，NDCG@10提升1.4%；相比单一BM25，提升18%。

其中，ELSER (Elastic Learned Sparse Encoder)是 Elastic 公司专门为零样本语义搜索而设计，其核心特点是利用“稀疏向量”来理解查询意图和上下文，而非仅匹配关键词。

https://www.elastic.co/search-labs/blog/improving-information-retrieval-elastic-stack-hybrid

https://github.com/beir-cellar/beir

2Rouge-L

2.1 Rough

ROUGE（Recall-Oriented Understudy for Gisting Evaluation）是一组评估文本生成质量的指标。

2.2 Rouge-L

ROUGE-L 是ROUGH的一个变体，基于最长公共子序列。

ROUGE-L是寻找机器生成的文本和人工参考摘要之间的最长公共子序列。

最长公共子序列，就是两个序列中都出现的最长子序列，元素不需要连续，但顺序必须一致。

2.3 Rough-L计算

ROUGE-L 结合了准确率和召回率：

召回率= LCS长度 / 参考摘要长度

（生成的摘要包含了多少参考摘要的内容）

准确率= LCS长度 / 生成摘要长度

（生成的摘要中有多少是正确的）

F1分数= 2 × (准确率 × 召回率) / (准确率 + 召回率)

（F1得分是综合平衡得分）

示例如下

参考摘要（A）：[这, 只, 猫, 坐, 在, 垫, 上]
生成摘要（B）：[垫, 上, 有, 一, 只, 猫]
最长公共子序列的长度 L = 2（例如[只, 猫]或[垫, 上]）。
正确计算：
R = 2 / 7 ≈ 0.286
P = 2 / 6 ≈ 0.333
F1 ≈ 0.308

3 检索延迟

3.1 检索延迟

检索延迟通常指从用户发起查询到系统返回结果所经历的时间差。它是一个直接影响用户体验的核心性能指标，延迟过高可能导致用户放弃等待。

3.3 应对方案

为了应对延迟挑战，学术界和工业界提出了多种创新方案：

PLAID引擎：针对先进的“延迟交互检索”范式（如ColBERT模型）进行优化，通过引入质心交互等机制，在保证精度的前提下，将GPU上的检索延迟降低了7倍，CPU上甚至能达到45倍的加速，实现大规模数据集下的毫秒级响应。

Airphant搜索引擎：专为“计算与存储分离”的云环境设计。它使用名为 IoU Sketch 的新型统计索引，通过并行发起多个异步网络请求来获取数据，避免了传统索引的串行等待。实验显示，其端到端延迟在13毫秒到300毫秒之间，比Apache Lucene快8.97倍，比Elasticsearch快113.39倍。

DeepSeek联网搜索优化：从系统工程角度，采用分布式索引、边缘节点缓存、多级缓存体系和查询预取等综合策略，将平均查询响应时间从2.3秒降至0.8秒-2。

4内存效率

4.1 内存效率

内存效率关注的是如何以最小的内存资源消耗，达成特定的计算目标。它是衡量软件或算法在内存使用上“经济性”的核心指标，与检索延迟（你之前关心的速度指标）紧密相关，两者常需权衡。

4.2 优化策略

信息检索领域，内存效率优化无处不在。

索引压缩：搜索引擎（如Elasticsearch/Lucene）会对倒排索引使用多种编码进行压缩，使海量索引能装入内存。

缓存策略：在内存中缓存热点查询结果或常用索引块，但需精心设计缓存淘汰算法（如LRU、LFU），在有限的缓存空间内存放最高价值的数据。

向量检索优化：对于AI时代的海量向量数据，采用产品量化（PQ）等技术，将高维向量压缩成短编码，大幅降低内存占用和计算距离时的带宽需求，是实现内存高效近似检索的关键。

reference

---

Improving information retrieval in the Elastic Stack: Hybrid retrieval

https://www.elastic.co/search-labs/blog/improving-information-retrieval-elastic-stack-hybrid

A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models

https://datasets-benchmarks-proceedings.neurips.cc/paper/2021/file/65b9eea6e1cc6bb9f0cd2a47751a186f-Paper-round2.pdf

beir

https://github.com/beir-cellar/beir

RAG信息检索基准评测指标的分析和探索