LlamaIndex RAG完整指南：从数据加载到查询的实战全流程-育师

LlamaIndex是构建RAG系统的核心框架，提供从数据加载、索引构建、存储管理到检索查询的完整流程。文章详细介绍了五大核心步骤：Loading、Indexing、Storing、Querying和Evaluating，并通过代码示例展示了如何实现企业级RAG系统。该框架高度模块化、可自由组合，有效解决大模型上下文长度限制，保障私有数据安全。

01 前言

上一篇我们概览了LlamaIndex的整体架构与定位[构建Agents框架｜LlamaIndex使用概览]，接下来将分篇深入其核心功能模块—从RAG、Workflow到Agent，再到其生态体系。

RAG（Retrieval Augmented Generation：检索增强生成）是LlamaIndex的核心功能模块，覆盖了从数据加载、索引构建到存储管理及检索的全流程。其数据连接与加载能力，更是LlamaIndex早期开源阶段的一大亮点。通过连接和检索特定数据片段，RAG不仅有效解决了大语言模型（LLM）面临的上下文长度限制，也保障了私有领域数据的安全。

02 RAG介绍

**RAG（Retrieval Augmented Generation：检索增强生成）**是一种增强大模型上下文来提高大模型回答准确性的有效且重要手段。通过检索特定内容也保障了企业数据的安全。

其流程如下(图来自官方)：

核心步骤包括：

Loading：
数据加载，通过加载不同的数据源进行数据获取，如数据库、PDF、API接口等等方式，LlamaIndex目前支持上百种数据源的连接。
Indexing：
索引构建，包括对加载数据分块、向量化以及元数据提取，向量化通常被用于语义匹配。
Storing：
存储，对构建的向量数据和元数据进行存储，避免对源数据进行多次向量化操作。
Querying：
检索，根据用户问题对数据进行检索召回，并加入到大模型的上下文中。常见检索的方式包括向量化语义检索同时伴有元数据过滤、全文关键词检索、混合检索并应用重排序等。
**Evaluating：**评估效果，RAG的效果评估是对结果的检验，也是进行优化索引和检索的依据。

03 LlamaIndex的RAG实战

数据加载

LlamaIndex提供了上百种连接数据的方式，包括：本地文件加载、集成连接器（可以通过llamahub搜索）、通过文本创建Document。加载后的数据都统一转换成Document类对象。

1、本地文件加载

from llama_index.core import SimpleDirectoryReader documents = SimpleDirectoryReader("../data").load_data() print(f"document length:{len(documents)}, document:{documents}")

LlamaIndex中定义了SimpleDirectoryReader类，是内置的最简单的方式，对本地文件进行加载。示例中会加载当前目录的上级data目录下所有文件。

2、集成连接器

以DB为例，通过连接DB，执行Sql查询的每一条数据都是一个Document。

# pip3 install llama-index-readers-database from llama_index.readers.database import DatabaseReader # 使用PyMySQL：pip3 install pymysql # {root}换成密码 reader_media = DatabaseReader( uri="mysql+pymysql://root:{root}@localhost:3306/demo", schema="demo", # optional namespace ) # 加载 docs = reader_media.load_data( query="SELECT id,username,age,sex,register_time,address FROM xudj.user;", # 元数据列 metadata_cols=[ ("id", "user_id"), # 参数转换，用user_id替代id存储 "username", ], # map / include in metadata excluded_text_cols=["address"], # 剔除字段 document_id=lambda row: f"xudj-user-{row['id']}", # custom document id ) print(docs)

示例首先导入数据库相关依赖，这里使用的是Mysql，可以通过llamahub.ai/?tab=readers搜索使用方式，然后定义DatabaseReader配置连接信息，再调用load_data执行sql完成数据加载。

3、通过文本创建Document

from llama_index.core import Document doc = Document(doc_id="1", text="文本创建", metadata={"id":"1", "type":"custom"}) print(doc) print(doc.metadata)

有了文本，这是最直接的方式。

索引构建

数据加载后，有了一系列的Document，便可以进行索引的构建。包括长文本按特定规则分块、提取元数据、向量化处理。

from llama_index.core.node_parser import TokenTextSplitter from llama_index.core import VectorStoreIndex from llama_index.core import Settings from llama_index.embeddings.dashscope import DashScopeEmbedding from llama_index.core import StorageContext # pip install chromadb # pip install llama-index-vector-stores-chroma import chromadb from llama_index.vector_stores.chroma import ChromaVectorStore # 1、分块 - chunk_size每块的token数 text_splitter = TokenTextSplitter(chunk_size=200, chunk_overlap=5) # 2、向量化模型，使用千问的模型 dashscope_embed_model = DashScopeEmbedding( model_name="text-embedding-v2", api_key="sk-...") # 向量化存储，默认使用基于内存的SimpleVectorStore类 # 初始化客户端，设置保存数据的路径 db = chromadb.PersistentClient(path="./chroma_db") # 3、创建向量存储上下文 chroma_collection = db.get_or_create_collection("quickstart") vector_store = ChromaVectorStore(chroma_collection=chroma_collection) storage_context = StorageContext.from_defaults(vector_store=vector_store) # 4、创建index index = VectorStoreIndex.from_documents( documents=documents, transformations=[text_splitter], embed_model=dashscope_embed_model, insert_batch_size=5, # 限制每次插入的节点数量 storage_context=storage_context, )

示例包括4部分（下面序号对应代码注释序号）：

1、首先定义了分块逻辑，示例使用Token计数的分块方式，默认是按完整句子拆分的SentenceSplitter类，它们都属于NodeParser的子类，用于将Document拆分成Node（Node表示Document的一个分块“chunk”，可以是文本或图片等）；在LlamaIndex中，不管是分块XxxSplitter类、提取元数据XxxExtractor类（示例未体现）、向量化Node数据XxxEmbedding类，它们都属于transformations，在解析Document时，可以指定多个，transformations是一个列表。

2、定义向量化模型为千问的text-embedding-v2，LlamaIndex默认使用的OpenAI的text-embedding-ada-002模型，这和框架的起源有关，一开始就是为了解决OpenAI系列模型相关问题。

3、创建向量化存储库，示例使用的是开源向量库chroma，指定存储目录和集合名。

4、定义Index（由Document组成的数据结构），并指定文档Documents、转换列表transformations、向量化模型及每批次数量、向量化存储库。VectorStoreIndex是LlamaIndex中最常见的索引类型，通过将Document拆分成Node，然后进行向量化每个Node，为后续语义检索做准备。

示例代码中定义的所有组件，在LlamaIndex中都有默认的实现，我们可以通过Settings查询，同时也可以通过Settings进行设置默认值，如下所示：

from llama_index.core import Settings import os # 随便设置值，不然会报错找不到apiKey os.environ["OPENAI_API_KEY"] = "sk-..." # 默认使用OpenAI的text-embedding-ada-002模型 print(f"Settings.embed_model :{Settings.embed_model}") # 默认使用的SentenceSplitter，这三个取得都是相同的默认node_parser print(f"Settings.transformations :{Settings.transformations}") print(f"Settings.text_splitter :{Settings.text_splitter}") print(f"Settings.node_parser :{Settings.node_parser}") # global可以通过这种方式设置 # Settings.text_splitter = text_splitter

上面我们已经把数据进行了向量化存储，如果想要基于存储的向量数据构建Index索引，可以使用如下方式，不用再次经过一遍上面的流程处理数据了：

# 从向量库中创建index，指定向量库和模型 index = VectorStoreIndex.from_vector_store( vector_store=vector_store, embed_model=dashscope_embed_model, )

1、有关Document和Node介绍：https://developers.llamaindex.ai/python/framework/module_guides/loading/documents_and_nodes/

类定义见：llama_index.core.schema

2、chroma开源向量库：

https://github.com/chroma-core/chroma

3、Index不同的索引类型和检索介绍：

https://developers.llamaindex.ai/python/framework/module_guides/indexing/index_guide/#vector-store-index

检索查询

有了数据也进行了向量化存储，并得到了Index索引对象，现在就可以进行检索并加入大模型上下文，回答问题。LlamaIndex的检索查询包括三步骤：检索Node -> 后置处理过滤Node -> 响应合成

1、仅检索

# 上文得到的index索引对象 retriever = index.as_retriever() nodes = retriever.retrieve("育儿方式") print(f"len:{len(nodes)} nodes:{nodes[0].text}") # 另一种方式：直接定义VectorIndexRetriever，指定index retriever = VectorIndexRetriever( index=index, similarity_top_k=1, # 召回一条数据 ) nodes = retriever.retrieve("育儿方式") print(f"len:{len(nodes)} nodes:{nodes[0].text}")

示例使用index的as_retriever()方法得到VectorIndexRetriever，然后调用retrieve方法来检索node列表。直接定义VectorIndexRetriever效果一样。

2、后置处理过滤Node

# 导入postprocessor from llama_index.core.postprocessor import KeywordNodePostprocessor, SimilarityPostprocessor node_postprocessors=[ # 相似性 SimilarityPostprocessor( similarity_cutoff=0.1 ) ] query = index.as_query_engine(llm=llm, node_postprocessors=node_postprocessors)

示例使用了相似性分数过滤Node，过滤后把更少的Node信息作为上下文传递给大模型，减少大模型的Token数量以及降低响应时间。更多后置处理器见下面地址。

3、响应合成-检索后发起大模型对话

# 查询 from llama_index.llms.deepseek import DeepSeek llm = DeepSeek(model="deepseek-chat", api_key="sk-...") from llama_index.core.response_synthesizers import ResponseMode from llama_index.core import get_response_synthesizer # 定义响应合成逻辑，默认是ResponseMode.COMPACT # "compact": 合并Node作为上下文，如果超长，则使用refine提炼，减少模型的请求次数，最终借助生成一个答案 response_synthesizer = get_response_synthesizer( response_mode=ResponseMode.COMPACT ) query = index.as_query_engine(llm=llm, response_synthesizer=response_synthesizer) print(query.query("育儿方式?"))

示例通过使用index的as_query_engine()方法得到query引擎，并指定响应合成模式“compact”，这个也是默认模式，含义见上代码注释，最后调用query方法借助LLM生成答案。

as_query_engine会获取无状态的查询引擎，另有as_chat_engine支持多轮对话的有状态查询引擎。

compact是其中一种合成模式，让ChatGPT基于官方文档生成的不同模式的对照表，供参考：

为什么会有不同的响应合成模式呢？

是因为 RAG 里拿到的文档往往是多个 chunk，而 LLM 的 prompt 有长度限制。

所以 LlamaIndex 提供了多种“怎样合成答案”的策略。

不同的后置过滤器：

https://developers.llamaindex.ai/python/framework/module_guides/querying/node_postprocessors/node_postprocessors/

不同响应合成模式：

https://developers.llamaindex.ai/python/framework/module_guides/querying/response_synthesizers/

及对应代码类型定义：llama_index.core.response_synthesizers.type.ResponseMode

04 总结

从整体来看，LlamaIndex 已经构建出一个覆盖数据接入 → 文本解析 → 向量化与存储 → 检索策略 → 响应生成的完整 RAG 技术栈，提供了高度模块化、可自由组合的能力。

本文展示的示例仅是 LlamaIndex 功能体系中的一小部分。更多丰富的索引类型、检索模式、数据连接器，以及企业级场景的模板与实践，可以在官方文档或 LlamaHub 中学习和阅读。

值得一提的是，除了 RAG 相关组件外，LlamaIndex 还提供了基于事件驱动的 Workflow 工作流与 Agent 智能体能力，能够进一步支持复杂任务编排、多模型协作等更高级的应用模式。这些在后续文章中逐一展开。

最后

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200%，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

LlamaIndex RAG完整指南：从数据加载到查询的实战全流程

最后

为什么说现在普通人就业/升职加薪的首选是AI大模型？

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

② AI大模型学习路线图（还有视频解说）

③学习电子书籍和技术文档

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

👉获取方式：

PaddlePaddle镜像在农业病虫害识别中的创新应用

python小程序流浪动物救助捐赠管理系统python_0i067730

python小程序缪氏医院诊所预约挂号就诊系统python_48u6wm15

python线上学生作业批改考试系统2025_6li288nu

智能体的进化：Agentic Reinforcement Learning 全景概述

AI Agent架构指南：从提示词工程师到流程架构师的进化之路（收藏必看）

​最后

为什么说现在普通人就业/升职加薪的首选是AI大模型？

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

② AI大模型学习路线图（还有视频解说）

③学习电子书籍和技术文档

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

👉获取方式：

PaddlePaddle镜像在农业病虫害识别中的创新应用

python小程序 流浪动物救助捐赠管理系统python_0i067730

python小程序 缪氏医院诊所预约挂号就诊系统python_48u6wm15

python线上学生作业批改考试系统2025_6li288nu

智能体的进化：Agentic Reinforcement Learning 全景概述

AI Agent架构指南：从提示词工程师到流程架构师的进化之路（收藏必看）

最后

python小程序流浪动物救助捐赠管理系统python_0i067730

python小程序缪氏医院诊所预约挂号就诊系统python_48u6wm15