Langchain-Chatchat与LangGraph结合使用的可能性探讨-育师

Langchain-Chatchat 与 LangGraph：构建下一代智能问答系统的融合路径

在企业级 AI 应用加速落地的今天，一个核心矛盾日益凸显：用户对问答系统的要求早已从“能回答”升级为“答得准、可追溯、会思考”，而传统的检索增强生成（RAG）架构却仍多停留在“提问—检索—生成”的线性流程中。这种模式在面对模糊查询、跨文档推理或多轮验证等复杂场景时，常常显得力不从心。

正是在这样的背景下，Langchain-Chatchat和LangGraph的结合，为我们打开了一扇通往更高级别智能问答系统的大门。前者以稳健的本地化知识处理能力著称，后者则带来了前所未有的流程控制灵活性。两者的融合，不是简单的功能叠加，而是一次从“被动响应”到“主动求证”的范式跃迁。

我们不妨设想这样一个真实场景：某员工在公司内部知识助手中提问：“我下个月调岗去深圳，公积金要怎么处理？”这个问题看似简单，实则涉及人力资源制度、地方政策差异、社保缴纳规则等多个知识域。如果系统仅依赖一次向量检索，很可能只命中《员工调动管理办法》中的通用条款，却遗漏了“异地公积金转移接续操作指南”这份关键文件——结果就是给出一个看似合理但实际不完整的答案。

这正是当前大多数 RAG 系统的软肋：它不会自我怀疑，也不会主动补全信息。而 LangGraph 的引入，恰恰可以弥补这一缺失。通过将整个问答过程建模为一个状态驱动的图结构，系统可以在生成初步回答后，自动评估其完整性，并在必要时发起新一轮检索，甚至切换知识源或调用外部工具，直到形成足够可信的结论。

如何让知识库“学会思考”？

Langchain-Chatchat 本身已经具备了强大的基础能力：支持多种文档格式解析、中文优化的嵌入模型、本地向量化存储与语义检索。它的标准工作流清晰且可靠：

用户输入问题；
系统将其编码为向量，在 FAISS 或 Chroma 中检索最相关的文本块；
将这些上下文拼接到提示词中，交由 LLM 生成自然语言回答。

这套流程高效、安全，适用于大量常规咨询场景。但它本质上是“一次性消费型”的——一旦检索完成，就不会再回头。而 LangGraph 的价值在于，它能把这个静态流程变成一个动态的认知循环。

我们可以把原来的RetrievalQA链拆解成多个独立节点，纳入 LangGraph 的图中：

检索节点：封装原有的向量检索逻辑，输出 top-k 文档片段；
生成节点：接收检索结果和原始问题，调用 LLM 生成回答；
评估节点：分析生成内容的质量，判断是否包含不确定表述（如“可能”、“通常情况下”）、是否覆盖所有关键点；
决策节点：根据评估结果决定下一步动作——结束、重试检索、扩大搜索范围、切换至辅助知识库，甚至触发人工审核。

这种设计使得系统具备了类似人类专家的“反思能力”。当第一次回答不够充分时，它不会直接作答，而是像一位谨慎的顾问那样说：“让我再查一下相关政策细节。”

实战示例：构建一个会“追问自己”的问答流程

下面是一个融合 Langchain-Chatchat 核心模块与 LangGraph 控制流的实际代码框架：

from typing import TypedDict, List, Annotated from langgraph.graph import StateGraph, END import operator from langchain_community.document_loaders import PyPDFLoader from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.embeddings import HuggingFaceEmbeddings from langchain.vectorstores import FAISS from langchain_community.llms import HuggingFaceHub # 定义共享状态 class AgentState(TypedDict): question: str context_documents: List[str] response: str attempts: int max_retries: int # 初始化组件（可在初始化时加载，避免重复） embedding_model = HuggingFaceEmbeddings(model_name="BAAI/bge-small-zh-v1.5") vectorstore = FAISS.load_local("knowledge_index", embedding_model, allow_dangerous_deserialization=True) llm = HuggingFaceHub(repo_id="bigscience/bloomz", model_kwargs={"temperature": 0.5}) # 节点函数 def retrieve_node(state: AgentState) -> dict: print(f"🔍 正在检索与 '{state['question']}' 相关的知识...") docs = vectorstore.similarity_search(state["question"], k=3) content = [d.page_content for d in docs] return {"context_documents": content} def generate_node(state: AgentState) -> dict: print("📝 正在生成回答...") context = "\n\n".join(state["context_documents"]) prompt = f""" 基于以下上下文信息回答问题。若信息不足，请明确说明。 上下文： {context} 问题：{state['question']} 回答： """ response = llm.invoke(prompt) return { "response": response, "attempts": state.get("attempts", 0) + 1 } def should_retry(state: AgentState) -> str: # 简单规则：检查回答中是否有低置信度词汇 low_confidence_terms = ["可能", "大概", "通常", "建议咨询", "暂无"] if any(term in state["response"] for term in low_confidence_terms): if state["attempts"] < state["max_retries"]: print("⚠️ 检测到不确定性，准备重新检索...") return "retry" return "end" # 构建图 workflow = StateGraph(AgentState) # 添加节点 workflow.add_node("retrieve", retrieve_node) workflow.add_node("generate", generate_node) # 设置入口 workflow.set_entry_point("retrieve") # 连接边 workflow.add_edge("retrieve", "generate") workflow.add_conditional_edges( "generate", should_retry, { "retry": "retrieve", "end": END } ) # 编译应用 app = workflow.compile() # 执行流程 inputs = { "question": "产假期间公司还会缴纳社保吗？", "attempts": 0, "max_retries": 2 } print("🚀 开始执行智能问答流程...\n") for step in app.stream(inputs): print(f"➡️ 当前状态更新：{step}")

这段代码的关键在于should_retry函数——它充当了系统的“认知质检员”。通过识别回答中的模糊表达，系统能够自主决定是否需要补充信息。虽然这里使用的是基于关键词的简单判断，但在生产环境中，完全可以替换为轻量级分类模型或 LLM 自我评估提示，进一步提升判断准确性。

当然，这种增强并非没有代价。每一次重试都会增加延迟，尤其是在私有部署环境下，LLM 推理速度本就受限。因此，在实际工程实践中，我们必须做出一些关键权衡：

状态设计要精简：只保留必要的字段，避免因频繁序列化导致性能下降；
节点职责应单一：例如，将“检索”与“过滤”分离，便于后期调试和扩展；
设置合理的终止条件：最大尝试次数、累计耗时上限、文档覆盖率阈值等都应作为流程终止的依据；
提供降级通道：当流程异常中断时，应回退到基础的单步 RAG 模式，确保服务可用性；
加强可观测性：记录每一步的状态变更、耗时、命中文档等信息，为后续优化提供数据支撑。

更重要的是，这种架构的变化也带来了开发模式的转变。过去我们习惯于写“一条链到底”的流水线代码，而现在需要以“状态+事件”的思维来设计系统行为。每一个节点都是一个状态转换函数，每一条边都是一个决策出口。这种思维方式更接近现代前端框架（如 Redux）或后端工作流引擎（如 Airflow），但也带来了更高的抽象门槛。

值得欣喜的是，Langchain-Chatchat 社区已经展现出强大的适应能力。许多开发者开始尝试将原有系统的get_answer_stream接口封装为 LangGraph 节点，或将历史对话管理逻辑迁移至状态对象中。一些团队甚至在此基础上实现了更复杂的模式，比如：