Gemma-3-12b-it开源模型生态：与LangChain/LlamaIndex集成图文RAG实践-育师

Gemma-3-12b-it开源模型生态：与LangChain/LlamaIndex集成图文RAG实践

你是不是也遇到过这样的场景：手里有一堆产品说明书、技术文档或者内部资料，想快速从中找到某个问题的答案，或者让AI帮你总结一份报告，但传统的文本搜索和问答工具要么只能处理纯文字，要么对图片里的信息束手无策？

今天，我们就来解决这个问题。我将带你一起，把一个能“看懂”图片和文字的多模态大模型——Gemma-3-12b-it，与当下最流行的AI应用框架LangChain和LlamaIndex结合起来，搭建一个真正意义上的“图文并茂”的智能问答系统。这个系统不仅能理解你上传的文档里的文字，还能分析文档里附带的图表、截图，然后给出综合性的回答。

整个过程就像给你的知识库装上了一双“眼睛”和一个“大脑”，让它变得既博学又聪明。我们从一个简单的Ollama部署开始，一步步走向一个功能完整的RAG（检索增强生成）应用。

1. 为什么选择Gemma-3-12b-it？它能做什么？

在开始动手之前，我们先花几分钟了解一下今天的主角：Gemma-3-12b-it。知道它擅长什么，我们才能更好地用它。

简单来说，Gemma-3-12b-it是谷歌开源的一个“多面手”AI模型。它最大的特点就是“多模态”——既能处理文字，也能理解图片。你给它一段文字问题，它能回答；你给它一张图片，它也能描述图片内容，甚至回答关于图片的问题。

它具体能帮你做什么？

想象一下这些场景：

技术文档问答：你上传一份带有复杂架构图的API文档，然后问：“图3-1里的服务A和服务B之间是怎么通信的？” 模型会结合文字描述和图片信息给你答案。
产品手册查询：上传一个家电的使用说明书（里面有很多按钮示意图），问：“怎么进入设置模式？” 模型能定位到文字说明和对应的图示。
学术论文分析：给模型一篇论文的PDF，里面包含数据图表，问：“这篇论文的核心结论是什么？图5展示了什么趋势？”
内部知识库：公司内部的培训材料、会议纪要、流程图，都可以丢给它，让它成为新员工的“百事通”。

为什么它适合我们做RAG？

轻量且强大：12B的参数规模，意味着它不需要超级计算机就能跑起来。用Ollama在个人电脑上部署和推理，速度可以接受，效果也足够好。
超长上下文：支持128K的上下文长度。这是什么概念？差不多是一本中等厚度书籍的文字量。这意味着它可以一次性“吃下”很长的文档，记住更多细节。
开源免费：完全开放权重，我们可以自由地使用、修改和集成，不用担心商业授权问题。

所以，我们的目标很明确：利用Gemma-3-12b-it的“图文双修”能力，结合LangChain/LlamaIndex的文档处理与检索框架，打造一个私有的、智能的图文知识库助手。

2. 第一步：快速部署你的Gemma视觉理解服务

理论讲完了，我们立刻动手。第一步是把Gemma-3-12b-it模型跑起来，提供一个能同时接收图片和文本的API服务。这里我们用Ollama，因为它最简单。

2.1 通过Ollama获取并运行模型

如果你还没有安装Ollama，可以去官网下载安装，过程很简单。安装好后，打开你的终端（命令行）。

运行模型的命令非常简单：

ollama run gemma3:12b

第一次运行时会自动从网上下载模型文件（大约12GB），需要一些时间。下载完成后，你就进入了一个交互式的聊天界面，可以输入文字和图片路径进行测试。

但为了后续和LangChain集成，我们需要以“服务”的形式运行它：

ollama serve

这个命令会在本地启动一个服务，默认在11434端口。这样，我们的Python程序就可以通过HTTP请求来调用这个模型了。

2.2 验证多模态能力：一个简单的测试

在深入集成前，我们先写个简单的Python脚本，测试一下Gemma的图片理解能力是否正常。你需要安装requests和PIL库。

import requests import base64 from PIL import Image import io # 1. 准备图片并转换为base64 def image_to_base64(image_path): with Image.open(image_path) as img: # 调整图片大小（非必须，但可加速处理） img.thumbnail((896, 896)) buffered = io.BytesIO() img.save(buffered, format="JPEG") return base64.b64encode(buffered.getvalue()).decode('utf-8') # 2. 构造请求 url = "http://localhost:11434/api/generate" image_path = "你的图片路径.jpg" # 替换成你的图片 image_base64 = image_to_base64(image_path) payload = { "model": "gemma3:12b", "prompt": "请详细描述这张图片里的内容。", "images": [image_base64], # 关键：以列表形式传入图片 "stream": False } # 3. 发送请求并获取结果 response = requests.post(url, json=payload) if response.status_code == 200: result = response.json() print("模型回答：", result.get("response")) else: print("请求失败：", response.text)

运行这个脚本，如果模型能返回对图片的合理描述，比如“图片里有一台笔记本电脑，屏幕上显示着代码...”，那么恭喜你，Gemma的多模态服务已经准备就绪了！

3. 构建核心：图文RAG系统的架构设计

现在模型跑起来了，我们要设计一个系统，让它不仅能回答单张图片的问题，还能从海量图文资料中精准找到答案。这就是RAG的核心思想：检索（Retrieval） + 增强（Augmentation） + 生成（Generation）。

我们的系统工作流程会像下面这样：

[你的问题] + [你的知识库] ↓ [文档加载与分割] → 将PDF、Word、图片等文件拆分成小块 ↓ [向量化与存储] → 为每一块“文本+图片”生成向量，存入数据库 ↓ [等待提问] ↓ [你的新问题] → 将问题也变成向量 ↓ [语义检索] → 在数据库中找出和最相关问题向量最相似的几块内容 ↓ [组合上下文] → 把检索到的图文块作为“参考材料”和问题一起送给模型 ↓ [生成最终答案] → Gemma模型结合“参考材料”和问题，生成准确回答

在这个流程里，LangChain和LlamaIndex扮演了“流水线工人”和“图书馆管理员”的角色，帮我们自动化完成加载、分割、检索这些繁琐步骤。而Gemma模型则是最终的“答题专家”。

接下来，我们就用代码把这个流水线搭建起来。

4. 实战集成：用LangChain和LlamaIndex搭建流水线

这里我选择以LlamaIndex为主框架来演示，因为它对多模态RAG的支持非常直观。当然，用LangChain也能实现，原理相通。

4.1 准备环境与安装依赖

首先，创建一个新的Python环境，然后安装必要的包：

pip install llama-index llama-index-llms-ollama llama-index-multi-modal-llms-ollama llama-index-readers-file pillow torch

llama-index: 核心框架。
llama-index-llms-ollama: 用于连接Ollama文本模型。
llama-index-multi-modal-llms-ollama:关键！用于连接Ollama的多模态模型（我们的Gemma）。
llama-index-readers-file: 用于读取各种格式的文档。
pillow: 处理图片。
torch: 某些嵌入模型可能需要。

4.2 初始化多模态模型与文本模型

在代码中，我们需要初始化两个“模型客户端”：一个给Gemma用来处理图文问答，另一个可能用一个更轻量的模型（比如nomic-embed-text）来专门为文本生成向量（做检索）。

from llama_index.core import Settings from llama_index.llms.ollama import Ollama from llama_index.multi_modal_llms.ollama import OllamaMultiModal from llama_index.embeddings.ollama import OllamaEmbedding # 1. 初始化多模态LLM（用于最终答案生成） multi_modal_llm = OllamaMultiModal(model="gemma3:12b", base_url="http://localhost:11434") # 2. 初始化一个文本嵌入模型（用于文档检索） # 这里也可以用别的嵌入模型，如 all-minilm-l6-v2，但用Ollama上的同样方便 embed_model = OllamaEmbedding(model_name="nomic-embed-text", base_url="http://localhost:11434") # 3. 初始化一个纯文本LLM（可选，用于一些中间步骤，比如查询改写） text_llm = Ollama(model="gemma3:12b", base_url="http://localhost:11434") # 4. 将设置注入全局 Settings.embed_model = embed_model Settings.llm = text_llm # 设置全局文本LLM # 注意：多模态LLM在创建索引和查询时需要单独指定

这里有个关键点：检索（找资料）靠的是嵌入模型，它把文字变成一串数字（向量）；而最终答题靠的是多模态大模型（Gemma），它根据找到的资料和问题来生成答案。

4.3 加载与处理你的图文知识库

假设你的知识库是一个文件夹，里面混合着PDF、Word文档和图片。LlamaIndex可以帮我们一次性处理好。

from llama_index.core import SimpleDirectoryReader from llama_index.core.node_parser import SentenceSplitter from llama_index.core.indices import MultiModalVectorStoreIndex from llama_index.core import StorageContext from llama_index.vector_stores.chroma import ChromaVectorStore import chromadb # 1. 指定你的文档目录 documents_dir = "./my_knowledge_base" # 2. 使用多模态阅读器加载文档 # 它会自动识别文件类型，提取文本和图片 documents = SimpleDirectoryReader( documents_dir, # 这个参数很重要，告诉阅读器提取图片 file_extractor={ ".pdf": "default", # 使用默认PDF提取器，能提取内嵌图片 ".jpg": "default", ".png": "default", ".docx": "default", } ).load_data() print(f"成功加载了 {len(documents)} 个文档元素（可能包含文本块和图片）") # 3. 初始化向量数据库（这里用Chroma，轻量且简单） chroma_client = chromadb.PersistentClient(path="./chroma_multi_modal_db") text_collection = chroma_client.get_or_create_collection(name="text_collection") image_collection = chroma_client.get_or_create_collection(name="image_collection") text_store = ChromaVectorStore(chroma_collection=text_collection) image_store = ChromaVectorStore(chroma_collection=image_collection) storage_context = StorageContext.from_defaults( vector_store=text_store, image_store=image_store ) # 4. 创建多模态索引（核心步骤） # 这个过程会：分割文档 -> 为文本生成向量存入text_store -> 将图片存入image_store index = MultiModalVectorStoreIndex.from_documents( documents, storage_context=storage_context, # 使用我们之前定义的多模态模型来处理和建立索引 multi_modal_llm=multi_modal_llm, # 设置文本分割器 transformations=[SentenceSplitter(chunk_size=1024, chunk_overlap=200)] ) print("多模态知识库索引构建完成！")

这段代码干了件大事：它把你的文件夹里所有文档和图片都“消化”了，把文本内容切成小块，每一块都转换成向量存起来；同时把图片也单独存储起来，并建立了它们和文本之间的关联。

4.4 进行图文并茂的智能问答

索引建好之后，我们就可以问问题了。系统会自动从文本和图片中检索相关信息。

# 1. 创建一个检索器，可以指定从文本和图片中各取前N个相关结果 retriever = index.as_retriever( similarity_top_k=3, # 检索3个最相关的文本块 # 对于多模态，还可以设置图像检索数量，但通常文本检索已能定位到相关图片上下文 ) # 2. 提出一个复杂问题 query = "我们产品的智能家居中枢，它的前面板有几个指示灯？分别代表什么状态？" # 假设你的知识库中有一份产品手册PDF，里面包含了文字描述和前面板示意图。 # 3. 执行检索与生成 response = index.as_query_engine( multi_modal_llm=multi_modal_llm, retriever=retriever ).query(query) # 4. 打印结果 print("问题：", query) print("\n--- 系统回答 ---\n") print(response.response) # 5. （可选）查看模型参考了哪些资料 print("\n--- 参考来源 ---\n") for i, source_node in enumerate(response.source_nodes): print(f"来源 {i+1} (相似度得分: {source_node.score:.4f}):") # 打印来源内容的前200个字符 print(f"内容预览: {source_node.text[:200]}...") print("-" * 50)

当你运行这段查询代码时，会发生以下事情：

系统将你的问题转换成向量。
在文本向量库中搜索最相似的3个文本片段。
将这些文本片段（可能包含对图片的引用，如“如图5所示”）和你的原始问题，一起组合成一个详细的提示。
将这个提示发送给Gemma-3-12b-it模型。
Gemma模型生成答案。如果检索到的文本片段里提到了相关的图片，模型在生成答案时，其内部的多模态能力也能更好地理解这些上下文。

5. 效果展示与进阶技巧

通过上面的步骤，一个基础的图文RAG系统就搭建完成了。我们来设想一个具体的例子，看看它的效果。

场景：你上传了一份智能音箱的《快速入门指南》PDF。这份指南里有一段文字：“设备启动时，环形灯会呈现白色常亮状态”，旁边配了一张环形灯的示意图。

你的提问：“我的音箱环形灯现在是蓝色闪烁，是什么意思？”

系统如何工作：

检索器会找到描述“环形灯”和“状态”的文本片段。
这些片段被作为上下文送给Gemma模型。
Gemma模型结合它对“蓝色闪烁”的一般知识（可能来自预训练）和文档中关于“白色常亮”是正常状态的描述，进行推理。
它可能会生成这样的回答：“根据您的产品手册，设备正常启动时环形灯为白色常亮。蓝色闪烁通常表示设备正处于配网模式或等待连接状态，建议您查阅手册中的‘网络设置’章节，或尝试重置设备。”

如何让效果更好？—— 一些进阶技巧

优化检索：默认的向量检索是“语义检索”，找意思相近的。你还可以加入“关键词检索”作为补充，确保一些特定的术语（比如产品型号“X1-Pro”）能被精准找到。LlamaIndex支持混合检索器。
提示词工程：在创建查询引擎时，可以自定义提示模板，告诉模型更清晰地利用上下文。例如：“请严格依据以下提供的产品资料来回答问题。如果资料中没有明确信息，请直接说明‘根据现有资料无法确定’，不要编造信息。”
处理大量图片：如果知识库中独立图片非常多，可以考虑使用专门的图像嵌入模型（如CLIP）为图片生成向量，实现真正的“以图搜图”式检索，再结合文本上下文。
缓存与优化：首次加载和索引文档比较耗时。之后查询时，可以复用存储好的向量数据库，速度会快很多。对于生产环境，可以考虑将Ollama服务和向量数据库部署在性能更好的服务器上。

6. 总结

我们完成了一次从零开始的探索，将开源的Gemma-3-12b-it多模态模型，通过Ollama部署成服务，再借助LlamaIndex框架的强大能力，构建了一个能够理解和检索图文混合内容的智能问答系统。

回顾一下关键收获：

模型选择：Gemma-3-12b-it是一个平衡了能力、速度和开源友好的多模态模型，非常适合作为私有化RAG系统的“大脑”。
核心架构：RAG模式是解决大模型“知识滞后”和“幻觉”问题的有效手段。通过检索相关证据来增强生成过程，让答案更有据可循。
工具整合：Ollama让模型部署变得极其简单，而LlamaIndex（或LangChain）则像一套高效的流水线，把文档加载、分割、向量化、检索、提示组合这些复杂步骤封装起来，让我们能专注于业务逻辑。
实用价值：这套方案可以直接应用于企业知识库、产品技术支持、学术文献分析、个人资料管理等众多需要处理非结构化图文信息的场景。

这个实践项目只是一个起点。你可以在此基础上，尝试集成更复杂的文档类型（如PPT、Excel），加入对话记忆让它能进行多轮问答，或者为不同的部门构建垂直领域的专业助手。开源的魅力就在于，你有完全的控制权和无限的扩展可能。