ChatGLM3-6B镜像实操手册：日志查看+错误排查+性能监控全指南-育师

ChatGLM3-6B镜像实操手册：日志查看+错误排查+性能监控全指南

1. 为什么需要这份实操手册？

你已经成功部署了本地版 ChatGLM3-6B-32k 对话系统——界面清爽、响应飞快、断网也能聊。但当某天刷新页面后卡在加载图标，或输入问题后毫无反应，又或者连续对话十几轮后突然报错“CUDA out of memory”，你该看哪？查什么？改哪里？

这不是一个“装完就完”的玩具，而是一套运行在你 RTX 4090D 上的生产级轻量推理服务。它稳定，但不神秘；它零延迟，但有迹可循；它私有化，但也需要日常照看。

本手册不讲模型原理，不重复部署步骤，只聚焦三件事：怎么看日志、怎么定位错误、怎么盯住显存和响应速度。所有操作均基于镜像默认环境（torch26 + transformers==4.40.2 + streamlit），无需额外安装，开箱即用。

你不需要是 DevOps 工程师，只要会打开终端、复制粘贴几条命令、看懂几行关键输出，就能快速判断：是模型真崩了？还是 Streamlit 前端卡住了？抑或是显存被悄悄吃满？

2. 日志查看：从“黑屏”到“看见一切”

2.1 镜像内日志的三层结构

ChatGLM3-6B 镜像的日志不是单个文件，而是分层流动的三股信息流：

最外层：Streamlit Web 服务日志（用户可见层）
记录 HTTP 请求、页面加载、按钮点击等前端行为，比如GET /_stcore/health或POST /_stcore/upload。
中间层：Python 应用日志（逻辑执行层）
记录模型加载、提示词处理、流式生成启动/中断、缓存命中等关键动作，例如Loading model from cache...或Starting stream generation for query: '如何优化SQL查询'。
最底层：CUDA/PyTorch 运行时日志（硬件交互层）
通常静默，但一旦触发显存分配失败、核函数异常或驱动报错，会直接向上抛出RuntimeError或CUDA error，这是最接近“真相”的一层。

** 关键认知**：90% 的“没反应”，其实发生在第二层（应用逻辑）；而 95% 的“崩溃重启”，根源在第三层（显存/CUDA）。别一上来就重装镜像——先看日志。

2.2 三步定位日志源头

2.2.1 查看实时运行日志（推荐）

镜像启动后，默认将全部日志输出到控制台。如果你是通过docker run -it ...启动的，终端窗口就是主日志视图。
若已后台运行，执行以下命令重新连接并实时跟踪：

docker logs -f chatglm3-6b-streamlit

实用技巧：加-t显示时间戳，加--tail 100只看最近100行，避免刷屏。
不要直接cat /var/log/xxx.log—— 本镜像未持久化写入日志文件，所有日志均由 Docker 捕获。

2.2.2 快速过滤关键线索（精准定位）

日志滚动快，信息杂。用grep直击要害：

你想查的问题	推荐 grep 命令	说明
页面打不开/白屏	`docker logs chatglm3-6b-streamlit \| grep -i "error\|exception\|failed"`	抓所有异常关键词
模型加载慢或失败	`docker logs chatglm3-6b-streamlit \| grep -A 5 -B 5 "Loading model"`	显示“Loading model”前后5行，看是否卡住或报错
流式输出中断	`docker logs chatglm3-6b-streamlit \| grep "stream\|yield\|generator"`	定位生成器启动与中断点
显存爆了	`docker logs chatglm3-6b-streamlit \| grep -i "cuda\|out of memory\|oom"`	最直接的崩溃信号

示例：执行docker logs chatglm3-6b-streamlit | grep -i "out of memory"，若返回：
RuntimeError: CUDA out of memory. Tried to allocate 2.12 GiB (GPU 0; 24.00 GiB total capacity)
—— 这说明问题明确：显存不足，无需再查其他日志。

2.2.3 日志中的“友好信号” vs “危险信号”

日志片段	含义	建议动作
`Model loaded successfully in 8.2s`	模型加载完成，健康	正常启动
`Cache hit for model resource`	`@st.cache_resource`生效，复用内存中模型	稳定性保障
`Streaming response started`	流式生成已触发	前端正常，等待输出
`Connection reset by peer`	用户浏览器主动关闭连接	属于客户端行为，非服务端故障
`Killed process`	Linux OOM Killer 强制终止进程（显存彻底耗尽）	立即检查显存使用，降低 batch_size 或 max_length
`Tokenizer mismatch: expected version 4.40.2, got 4.41.0`	transformers 版本冲突（违反黄金版本锁定）	环境被手动修改，需重置

3. 错误排查：从报错信息直达修复动作

3.1 四类高频错误及一键修复方案

3.1.1 【前端白屏 / 无法访问】→ 检查 Streamlit 服务状态

现象：浏览器打不开http://localhost:8501，或显示This site can’t be reached
日志线索：无任何Starting server或Listening on字样

立即执行：

# 查看容器是否真在运行 docker ps | grep chatglm3-6b # 若无输出，说明容器已退出 → 查退出原因 docker logs chatglm3-6b-streamlit | tail -20 # 若容器在运行，检查端口映射是否正确 docker port chatglm3-6b-streamlit # 正常应返回：8501/tcp -> 0.0.0.0:8501

🔧修复动作：

若容器未运行 → 重新启动：docker start chatglm3-6b-streamlit
若端口未映射 → 删除旧容器，用正确命令重跑（确保含-p 8501:8501）
若日志末尾出现OSError: [Errno 98] Address already in use→ 本地 8501 端口被占，换端口启动：-p 8502:8501

3.1.2 【输入后无响应 / 卡在转圈】→ 检查模型生成阻塞

现象：输入问题后，界面上方显示Thinking...，但数分钟无文字输出
日志线索：有Streaming response started，但后续无yield或token相关日志

立即执行：

# 进入容器内部，手动触发一次最小化推理（绕过Streamlit） docker exec -it chatglm3-6b-streamlit bash python -c " from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained('/models/chatglm3-6b-32k', trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained('/models/chatglm3-6b-32k', trust_remote_code=True, device_map='auto') inputs = tokenizer('你好', return_tensors='pt').to('cuda') outputs = model.generate(**inputs, max_new_tokens=20) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) "

🔧修复动作：

若此命令也卡住 → 检查 GPU 是否被其他进程占用（见第4节）
若报CUDA error: device-side assert triggered→ 检查输入长度是否超 32k（如粘贴了 4 万字文档）→ 截断输入
若报ValueError: Expected input batch_size == 1→ Streamlit 前端可能并发提交多次请求，重启容器即可（本镜像未启用并发支持）

3.1.3 【多轮对话后报错】→ 检查上下文累积溢出

现象：前几轮正常，第7–10轮后突然报错IndexError: index out of range in self或RuntimeError: The size of tensor a (32768) must match the size of tensor b (32769)
日志线索：错误前有长段history.append(...)或tokenizer.encode(...)日志

立即执行：

# 查看当前会话上下文长度（模拟前端逻辑） docker exec chatglm3-6b-streamlit python -c " from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained('/models/chatglm3-6b-32k', trust_remote_code=True) # 模拟一轮典型对话（用户+助手各50字） text = 'Q: 如何学习Python？ A: 建议从基础语法开始，多写代码练习。' print('Token count:', len(tokenizer.encode(text))) # 乘以10轮 ≈ 5000 tokens，安全；乘以100轮 ≈ 50000 tokens → 超限！ "

🔧修复动作：

前端限制：Streamlit 页面右上角有「清空对话」按钮，务必在长对话后主动点击

后端加固：编辑/app/app.py，在generate_response()函数开头添加：

# 自动截断历史，保留最后8轮（约24k tokens） if len(history) > 8: history = history[-8:]

根本规避：避免一次性输入超长文档；如需分析万字文本，请拆分为段落分次提问。

3.1.4 【启动即报错】→ 检查依赖版本漂移

现象：容器启动瞬间退出，日志首行即报错，如ImportError: cannot import name 'XXX' from 'transformers.models.chatglm3'
日志线索：错误指向transformers或streamlit模块内部

立即执行：

# 进入容器，验证核心依赖版本 docker exec chatglm3-6b-streamlit pip show transformers streamlit torch # 输出应严格为： # transformers 4.40.2 # streamlit 1.32.0 # torch 2.1.2+cu121

🔧修复动作：

若版本不符 →不要 pip install --force-reinstall（会破坏镜像稳定性）
正确做法：删除当前容器，拉取最新镜像（确保 CSDN 星图镜像广场中版本号一致），重新部署
重要提醒：本镜像的transformers==4.40.2是黄金锁点，新版存在 Tokenizer 兼容性 bug，强行升级必报错。

4. 性能监控：盯住显存、响应时间、GPU 利用率

4.1 三分钟掌握核心监控命令

监控目标	命令	解读要点
实时显存占用	`nvidia-smi --query-gpu=memory.used,memory.total --format=csv,noheader,nounits`	关注`used`值。RTX 4090D 总显存 24GB，持续 >22GB 即高危，可能触发 OOM
GPU 计算利用率	`nvidia-smi --query-gpu=utilization.gpu --format=csv,noheader,nounits`	生成中应达 70–95%；若长期 <20%，说明模型未真正运行（可能卡在数据加载）
容器内进程显存	`docker exec chatglm3-6b-streamlit nvidia-smi`	确认是`python`进程而非其他程序占满显存
HTTP 响应延迟	`curl -o /dev/null -s -w "Time: %{time_total}s\n" http://localhost:8501/_stcore/health`	健康检查响应应 <0.5s；>2s 表明后端阻塞

组合监控脚本（一键运行）：
将以下内容保存为monitor.sh，放入宿主机，每次执行即可获得全景快照：

echo "=== GPU 显存 & 利用率 ===" nvidia-smi --query-gpu=memory.used,memory.total,utilization.gpu --format=csv,noheader,nounits echo -e "\n=== 容器内 Python 进程显存占用 ===" docker exec chatglm3-6b-streamlit nvidia-smi --query-compute-apps=pid,used_memory --format=csv,noheader,nounits 2>/dev/null || echo "No GPU process found" echo -e "\n=== Streamlit 健康检查延迟 ===" curl -o /dev/null -s -w "Time: %{time_total}s\n" http://localhost:8501/_stcore/health 2>/dev/null || echo "Service unreachable"

4.2 性能瓶颈诊断树（根据监控结果决策）

graph TD A[显存占用 >22GB？] -->|是| B[检查是否多开实例<br>或历史对话未清空] A -->|否| C[GPU 利用率 <30%？] C -->|是| D[检查是否卡在<br>tokenizer.encode 或<br>模型加载阶段] C -->|否| E[响应延迟 >1.5s？] E -->|是| F[检查网络带宽<br>或 Streamlit 前端渲染] E -->|否| G[系统健康 ✓]