Clawdbot Web网关配置Qwen3:32B：支持WebSocket流式输出的完整链路-育师

Clawdbot Web网关配置Qwen3:32B：支持WebSocket流式输出的完整链路

1. 为什么需要这个配置：从卡顿到丝滑的对话体验

你有没有遇到过这样的情况：在网页端和大模型聊天时，输入问题后要等好几秒才看到第一行字，中间还伴随着明显的停顿？或者更糟——整段回复突然“啪”一下全蹦出来，完全不像真人打字那样有节奏、有呼吸感？

这背后其实是个典型的前后端协同问题。普通HTTP接口返回的是完整响应体，浏览器必须等全部内容生成完毕才能渲染；而真实对话需要的是“边想边说”的流式体验。Clawdbot Web网关正是为解决这个问题而生的——它不是简单地把Qwen3:32B模型套个壳，而是构建了一条真正支持WebSocket长连接、逐token推送、低延迟回显的完整链路。

整个链路不依赖任何云服务中转，所有推理都在本地私有环境完成：Ollama加载Qwen3:32B模型提供底层API → Clawdbot作为业务逻辑层接收请求并组织上下文 → Web网关通过WebSocket协议将每个token实时推送到前端页面。最终效果是：你在浏览器里输入问题，0.8秒内就能看到第一个字开始滚动，后续文字像打字机一样自然浮现，全程无白屏、无卡顿、无二次加载。

这种体验差异，不是“能用”和“好用”的区别，而是“工具”和“伙伴”的分水岭。

2. 环境准备与核心组件定位

在动手配置前，先理清三个关键角色各自负责什么。这不是堆砌技术名词，而是帮你快速定位问题——哪一环出问题，就去查哪一层。

2.1 Ollama：模型运行的“发动机”

Ollama在这里只做一件事：把Qwen3:32B这个320亿参数的大模型稳稳跑起来，并对外暴露一个标准的OpenAI兼容API。它不处理用户会话、不管理历史记录、也不管你是网页访问还是APP调用。它的职责非常纯粹：收到一段prompt，启动推理，然后把生成的token一个个吐出来。

你不需要手动写Docker命令或改配置文件来启动它。只要执行这一行：

ollama run qwen3:32b

Ollama就会自动拉取模型（如果本地没有）、加载进内存，并在http://localhost:11434提供API服务。注意，这个地址和端口是固定的，后续所有组件都基于它通信。

2.2 Clawdbot：对话逻辑的“调度中心”

Clawdbot不是另一个LLM，而是一个轻量级代理服务。你可以把它理解成“对话管家”：它接收来自Web前端的请求，根据用户ID维护对话历史，把整理好的上下文（含system prompt、过往消息、当前问题）组装成标准格式，再转发给Ollama；等Ollama返回流式数据后，它不做任何截断或缓存，原样打包成WebSocket消息，推送给对应连接的浏览器。

它不训练模型、不优化推理速度、也不做内容审核——这些都不是它的事。它的价值在于“精准传递”和“状态管理”。比如你连续发了三条消息，Clawdbot会自动把前三轮对话拼成完整的messages数组传给Ollama；你刷新页面重连，它还能从本地数据库恢复上一次的对话上下文。

2.3 Web网关：前端连接的“桥梁”

Web网关是整个链路里最贴近用户的部分。它不参与模型推理，也不存储对话历史，只干两件事：

把HTTP请求升级为WebSocket连接（路径通常是/ws）

接收Clawdbot发来的结构化消息（含delta字段），按规范封装成前端可直接消费的JSON格式，例如：

{"type":"token","content":"今"} {"type":"token","content":"天"} {"type":"token","content":"天"} {"type":"done","content":""}

它监听的是18789端口，这是专门留给浏览器直连的出口。而Ollama的11434和Clawdbot内部通信的8080，都严格限制在内网，不对外暴露——安全边界清晰，责任划分明确。

3. 配置实操：四步打通完整链路

整个配置过程不需要写一行新代码，全是标准化配置项调整。我们按实际部署顺序一步步来，每步都附带验证方式，确保你能立刻确认是否成功。

3.1 启动Ollama并确认模型可用

先确保Ollama已安装且后台运行：

ollama list

你应该看到类似这样的输出：

NAME ID SIZE MODIFIED qwen3:32b abc123... 22 GB 2 hours ago

接着测试API是否正常：

curl -X POST http://localhost:11434/api/chat \ -H "Content-Type: application/json" \ -d '{ "model": "qwen3:32b", "messages": [{"role": "user", "content": "你好"}], "stream": true }'

如果返回的是以data:开头的多行SSE流（每行一个JSON对象），说明Ollama已就绪。如果报错model not found，请先执行ollama pull qwen3:32b。

3.2 配置Clawdbot指向本地Ollama

打开Clawdbot的配置文件（通常是config.yaml或.env），找到模型相关配置段。你需要修改的只有两个字段：

llm: provider: ollama base_url: "http://localhost:11434" # 指向Ollama服务 model: "qwen3:32b" # 明确指定模型名

保存后重启Clawdbot服务：

systemctl restart clawdbot # 或者如果你是用npm启动的： npm run dev

验证方式：访问Clawdbot的健康检查接口：

curl http://localhost:8080/health

返回{"status":"ok","model":"qwen3:32b"}即表示它已成功连接到Ollama。

3.3 启动Web网关并设置端口转发

Web网关本身是一个独立服务，启动命令很简单：

clawdbot-web-gateway --ollama-url http://localhost:11434 --clawdbot-url http://localhost:8080 --port 18789

这里三个参数含义明确：

--ollama-url：告诉网关Ollama在哪，它不直接调Ollama，只是做透传
--clawdbot-url：网关需要从Clawdbot获取用户会话状态和认证信息
--port：对外暴露的WebSocket端口，必须和前端JS里写的端口一致

启动后，你会看到日志里打印：

Web gateway listening on http://localhost:18789 WebSocket endpoint ready at /ws

3.4 前端页面接入WebSocket连接

这是最后一步，也是用户直接感知体验的地方。在你的HTML页面中，加入这段极简的JavaScript：

<script> const socket = new WebSocket('ws://localhost:18789/ws'); socket.onmessage = (event) => { const data = JSON.parse(event.data); if (data.type === 'token') { document.getElementById('output').textContent += data.content; } }; // 发送消息示例 function sendMessage() { const input = document.getElementById('input').value; socket.send(JSON.stringify({ type: 'chat', message: input })); } </script>

注意两点：

WebSocket地址必须是ws://（开发环境）或wss://（生产环境），不能写成http://
前端不直接连Ollama或Clawdbot，只认18789这个端口，所有复杂逻辑都被网关屏蔽了

打开浏览器开发者工具的Network标签页，筛选WS，发送一条消息。你应该看到连接建立、发送消息帧、然后持续收到多个token类型的帧——这就是流式输出正在工作。

4. 效果验证与典型问题排查

配置完成后，别急着庆祝。用这几个真实场景快速验证是否真的“丝滑”，同时掌握常见问题的定位方法。

4.1 流式效果三阶验证法

第一阶：看连接状态
在浏览器控制台执行：

console.log(socket.readyState)

返回1（OPEN）才算连接成功。如果是0（CONNECTING），说明网络不通或端口被占；如果是2（CLOSING）或3（CLOSED），说明服务端主动断开了。

第二阶：测首字延迟
在onmessage回调开头加时间戳：

const start = Date.now(); socket.onmessage = (event) => { console.log('首token延迟:', Date.now() - start, 'ms'); // ...后续逻辑 };

理想值应稳定在600–900ms之间。如果超过1500ms，问题大概率出在Ollama加载模型或GPU显存不足。

第三阶：验输出连续性
发送一句长问题，比如：“请用三句话描述量子纠缠的原理，要求语言通俗易懂，避免专业术语”。观察输出是否：

每个汉字单独成帧（不是整句才推送）
帧间隔均匀（无明显卡顿或连发）
结束时有{"type":"done"}标记

4.2 五个高频问题与解法

现象	可能原因	快速验证命令	解决方案
连接WebSocket失败（ERR_CONNECTION_REFUSED）	Web网关未启动或端口被占	`lsof -i :18789`	杀掉占用进程或换端口启动
能连上但收不到任何消息	Clawdbot未正确配置Ollama地址	`curl http://localhost:8080/health`	检查`base_url`是否写成`127.0.0.1`而非`localhost`
收到消息但全是乱码或空内容	前端未正确解析JSON	`console.log(event.data)`	确保`JSON.parse()`包裹在try-catch中
输出卡在某个字不动，几秒后突然刷完	Ollama推理被阻塞	`curl -N http://localhost:11434/api/chat?stream=true`	检查GPU显存，尝试加`--num_ctx 2048`限制上下文长度
刷新页面后对话历史丢失	Clawdbot未启用持久化	`ls -l ~/.clawdbot/db/`	在配置中开启`database: sqlite`并指定路径

这些问题90%以上都能在3分钟内定位。记住一个原则：从浏览器往回查，一层层确认数据是否到达该节点。不要一上来就怀疑模型或重装环境。

5. 进阶建议：让这条链路更健壮、更实用

配置通只是起点。在真实使用中，你会发现几个自然而然的优化点，它们不增加复杂度，却能显著提升稳定性与体验。

5.1 给Ollama加个轻量级负载保护

Qwen3:32B吃资源很猛，当多个用户并发提问时，Ollama可能因显存不足直接OOM崩溃。不用上K8s或复杂队列，只需在启动时加两个参数：

ollama run --num_ctx 4096 --num_gpu 1 qwen3:32b

--num_ctx 4096：把上下文窗口从默认的8k压到4k，对大多数对话足够，显存占用直降30%
--num_gpu 1：强制只用1张GPU，避免多卡争抢导致的不稳定

你可以在Ollama的systemd服务文件里固化这些参数，一劳永逸。

5.2 在Web网关层加超时熔断

默认情况下，如果Ollama卡住，WebSocket连接会一直挂着。加个5秒超时，既防雪崩又保体验：

clawdbot-web-gateway \ --ollama-url http://localhost:11434 \ --clawdbot-url http://localhost:8080 \ --port 18789 \ --timeout 5000

这样，一旦后端响应超时，网关会主动关闭连接并向前端推送{"type":"error","message":"timeout"}，前端可友好提示“模型思考中，请稍候”。

5.3 前端加简单的打字机动画效果

纯文本流式输出已经很好，但加一点视觉反馈会让体验更“活”。在onmessage里稍作增强：

let outputEl = document.getElementById('output'); let currentText = ''; socket.onmessage = (event) => { const data = JSON.parse(event.data); if (data.type === 'token') { currentText += data.content; outputEl.innerHTML = currentText.replace(/\n/g, '<br>'); // 自动换行 outputEl.scrollTop = outputEl.scrollHeight; // 滚动到底部 } };

就这么几行，文字就有了“正在输入”的呼吸感，用户不会误以为卡住了。