Qwen3-1.7B从零开始教程：Jupyter+LangChain完整调用流程-育师

Qwen3-1.7B从零开始教程：Jupyter+LangChain完整调用流程

Qwen3-1.7B是阿里巴巴通义千问系列中的一款轻量级大语言模型，适合在资源有限的环境中进行快速推理和本地部署。它在保持较高语言理解与生成能力的同时，兼顾了响应速度和硬件适配性，非常适合用于教学、原型开发和中小规模应用集成。

Qwen3（千问3）是阿里巴巴集团于2025年4月29日开源的新一代通义千问大语言模型系列，涵盖6款密集模型和2款混合专家（MoE）架构模型，参数量从0.6B至235B。该系列模型全面升级了语言理解、逻辑推理、代码生成和多语言支持能力，其中Qwen3-1.7B作为中等规模的代表，在性能与效率之间实现了良好平衡，特别适用于边缘设备或对延迟敏感的应用场景。

1. 准备工作：启动镜像并进入Jupyter环境

在开始调用Qwen3-1.7B之前，首先需要确保你已经获取了一个包含预置模型服务的GPU镜像环境。这类镜像通常由平台如CSDN星图提供，集成了模型运行所需的所有依赖项和服务。

1.1 镜像部署与服务启动

登录你的AI开发平台账户，选择带有Qwen3系列模型支持的GPU镜像进行实例创建。完成部署后，系统会自动拉取镜像并启动后台服务。等待状态显示为“运行中”后，点击“连接”按钮，进入Web终端界面。

此时，模型服务已在本地8000端口启动，可通过curl命令测试连通性：

curl http://localhost:8000/v1/models

如果返回包含Qwen3-1.7B的信息，则说明模型服务正常运行。

1.2 打开Jupyter Notebook

在同一页面中，找到“打开Jupyter”链接并点击，即可进入交互式编程环境。这是我们将用来编写LangChain调用代码的主要工具。

建议新建一个Python笔记本文件，命名为qwen3_langchain_demo.ipynb，以便后续操作清晰可追溯。

2. 使用LangChain调用Qwen3-1.7B模型

LangChain是一个强大的框架，能够简化大模型的集成流程，支持多种模型接口统一调用。我们可以通过langchain_openai模块来对接Qwen3-1.7B，尽管它并非OpenAI官方模型，但由于其兼容OpenAI API协议，因此可以直接使用该适配器。

2.1 安装必要依赖（如未预装）

虽然大多数镜像已预装LangChain相关库，但若提示缺少模块，可在Jupyter的代码单元格中执行以下安装命令：

!pip install langchain_openai --quiet

安装完成后重启内核以确保导入成功。

2.2 初始化ChatModel实例

接下来，我们将配置ChatOpenAI类，指向本地运行的Qwen3-1.7B服务地址，并设置关键参数。

from langchain_openai import ChatOpenAI import os chat_model = ChatOpenAI( model="Qwen3-1.7B", temperature=0.5, base_url="https://gpu-pod69523bb78b8ef44ff14daa57-8000.web.gpu.csdn.net/v1", # 当前jupyter的地址替换，注意端口号为8000 api_key="EMPTY", extra_body={ "enable_thinking": True, "return_reasoning": True, }, streaming=True, )

参数说明：

model: 指定调用的模型名称，必须与服务端注册的一致。
temperature: 控制输出随机性，0.5表示适度创造性，数值越低越确定。
base_url: 这是你当前Jupyter环境对外暴露的服务地址，务必确认端口为8000且HTTPS可用。
api_key="EMPTY": 因为本地服务通常不设密钥验证，此处设为空字符串即可。
extra_body: 扩展字段，启用“思维链”功能（Thinking Process），让模型返回中间推理步骤。
streaming=True: 开启流式输出，实现逐字打印效果，提升交互体验。

提示：如果你在不同平台上运行，请根据实际URL调整base_url字段。可通过镜像管理界面查看确切访问地址。

2.3 发起首次对话请求

现在我们可以尝试让模型回答一个简单问题，验证调用是否成功。

response = chat_model.invoke("你是谁？") print(response.content)

执行上述代码后，你应该能看到类似如下输出：

我是Qwen3-1.7B，阿里巴巴通义实验室推出的超大规模语言模型，我能够回答问题、创作文字、表达观点等。

同时，由于设置了enable_thinking=True，部分实现还会返回推理过程（具体取决于服务端支持情况），帮助你理解模型是如何得出结论的。

2.4 流式输出体验优化

为了更直观地感受模型的实时响应能力，可以结合回调函数实现动态打印效果。

from langchain_core.callbacks import StreamingStdOutCallbackHandler chat_model_with_streaming = ChatOpenAI( model="Qwen3-1.7B", temperature=0.5, base_url="https://gpu-pod69523bb78b8ef44ff14daa57-8000.web.gpu.csdn.net/v1", api_key="EMPTY", callbacks=[StreamingStdOutCallbackHandler()], streaming=True, ) chat_model_with_streaming.invoke("请用三句话介绍你自己。")

运行这段代码时，你会看到文字像打字机一样逐个出现，带来更强的互动感。

3. 常见问题与调试技巧

在实际使用过程中，可能会遇到一些常见问题。以下是几种典型情况及其解决方案。

3.1 连接失败或超时

现象：调用时报错ConnectionError或HTTP 502 Bad Gateway。

原因分析：

base_url填写错误，尤其是端口号或子域名拼写有误。
模型服务尚未完全启动，仍在加载权重。
网络策略限制外部访问。

解决方法：

检查镜像控制台日志，确认服务监听在8000端口。
使用ping或curl测试基础连通性。
确保使用的URL是公网可访问版本，而非容器内部地址。

3.2 返回内容为空或异常

现象：输出为空字符串，或包含乱码、JSON解析错误。

可能原因：

api_key格式不符合要求（某些服务要求非空字符串）。
extra_body中的字段不被支持，导致服务拒绝处理。
模型负载过高，响应中断。

应对策略：

尝试将api_key改为任意非空值（如"sk-"开头）。
移除extra_body字段进行最小化测试。
降低并发请求频率，避免资源争抢。

3.3 如何查看模型支持的功能列表

你可以通过访问以下URL直接查询服务元信息：

https://gpu-pod69523bb78b8ef44ff14daa57-8000.web.gpu.csdn.net/v1/models

返回的JSON数据中会列出所有可用模型及其特性，例如是否支持函数调用、最大上下文长度、token限制等。

4. 进阶使用建议

一旦基础调用成功，你可以在此基础上构建更复杂的应用逻辑。

4.1 结合PromptTemplate提升输入质量

使用模板可以标准化输入格式，提高模型表现一致性。

from langchain.prompts import PromptTemplate template = PromptTemplate.from_template("你是一个专业助手，请用简洁语言回答：{question}") prompt = template.format(question="如何学习人工智能？") response = chat_model.invoke(prompt) print(response.content)

4.2 集成记忆机制实现多轮对话

借助ConversationBufferMemory，可以让模型记住历史对话内容。

from langchain.memory import ConversationBufferMemory from langchain.chains import LLMChain memory = ConversationBufferMemory() chain = LLMChain( llm=chat_model, prompt=PromptTemplate.from_template("{history}\n用户：{input}"), memory=memory ) chain.invoke({"input": "你好！"}) chain.invoke({"input": "刚才我跟你打了招呼"})

这样模型就能基于上下文做出更连贯的回应。