Hunyuan-OCR-WEBUI性能压测：JMeter模拟千人并发请求表现如何？-育师

Hunyuan-OCR-WEBUI性能压测：JMeter模拟千人并发请求表现如何？

1. 引言

1.1 业务场景描述

随着企业对自动化文档处理需求的不断增长，OCR（光学字符识别）技术在金融、政务、教育等领域的应用日益广泛。腾讯推出的Hunyuan-OCR模型凭借其轻量化架构和多语言支持能力，在实际部署中展现出较高的实用价值。特别是在网页端推理场景下，用户通过浏览器上传图像即可快速获取结构化文本结果，极大提升了交互体验。

然而，当系统面临高并发访问时，如上千名用户同时使用 WebUI 进行图片识别，系统的响应延迟、吞吐量和稳定性将成为关键挑战。因此，本文聚焦于Hunyuan-OCR-WEBUI的性能表现，采用 Apache JMeter 对其进行压力测试，模拟真实高并发场景下的服务承载能力。

1.2 痛点分析

当前 OCR 服务在以下方面存在典型问题：

响应延迟随并发上升急剧增加：模型推理本身耗时较长，若未优化调度策略，容易造成排队积压。
资源利用率不均衡：GPU 利用率波动大，CPU 成为瓶颈，影响整体吞吐。
WebUI 接口缺乏异步机制：同步阻塞式设计导致高并发下连接超时或崩溃。

这些问题直接影响用户体验与生产环境可用性。为此，我们基于官方提供的Tencent-HunyuanOCR-APP-WEB镜像部署服务，并使用 JMeter 构建压测方案，评估其在千人级并发请求下的综合性能表现。

1.3 方案预告

本文将详细介绍：

压测环境搭建过程
JMeter 测试计划设计
关键性能指标监控与分析
性能瓶颈定位与优化建议

最终目标是为工程团队提供一套可复用的 OCR Web 服务压测方法论及调优路径。

2. 技术方案选型与实现

2.1 部署环境配置

我们基于 CSDN 星图平台提供的预置镜像完成部署：

# 使用4090D单卡GPU实例启动镜像 docker run -it --gpus all \ -p 7860:7860 \ -p 8000:8000 \ aistudent/tencent-hunyuanocr-app-web:latest

镜像内置两种运行模式：

WebUI 模式：通过 Gradio 提供图形界面，监听 7860 端口
API 模式：基于 FastAPI 或 vLLM 提供 RESTful 接口，监听 8000 端口

本次压测对象为 WebUI 页面中的/predict接口，该接口接收 base64 编码图像并返回识别结果。

2.2 JMeter 测试计划设计

测试目标

模拟 1000 用户并发访问 WebUI 的 OCR 推理功能
记录平均响应时间、TPS（每秒事务数）、错误率等核心指标
观察系统资源占用情况（GPU、CPU、内存）

线程组设置

参数	值
线程数（用户）	1000
Ramp-up 时间	60 秒
循环次数	1

HTTP 请求配置

请求方式：POST
URL：http://<server_ip>:7860/api/predict
Content-Type：application/json
Body Data：

{ "data": [ "data:image/jpeg;base64,/9j/4AAQSkZJRgABAQE..." ] }

注：使用一张 512x768 分辨率的中文发票截图，Base64 编码后约 120KB

监听器配置

Summary Report：统计总体性能数据
Aggregate Graph：可视化 TPS 与响应时间趋势
Backend Listener：对接 InfluxDB + Grafana 实现实时监控

2.3 核心代码解析

虽然 WebUI 主要由 Gradio 自动生成前端逻辑，但其后端推理入口位于app.py中的关键函数如下：

@app.post("/api/predict") async def predict(image: dict): try: # 解码 Base64 图像 img_data = image['data'][0] header, encoded = img_data.split(",", 1) decoded = base64.b64decode(encoded) img = Image.open(io.BytesIO(decoded)).convert("RGB") # 调用 HunyuanOCR 模型 result = ocr_model(img) # 结构化输出 return { "result": result["text"], "boxes": result["boxes"], "language": result["lang"] } except Exception as e: raise HTTPException(status_code=500, detail=str(e))

逐段解析：
第 3–7 行：处理前端传入的 base64 数据流
第 9 行：调用 HunyuanOCR 模型执行端到端检测+识别
第 10–14 行：封装结构化响应，包含文本、坐标和语种信息
第 16–17 行：异常捕获防止服务中断

此接口为同步阻塞式设计，每个请求独占一个工作线程，限制了并发处理能力。

3. 压测结果与性能分析

3.1 多维度性能指标对比

并发用户数	平均响应时间 (ms)	吞吐量 (req/s)	错误率 (%)	GPU 利用率 (%)	CPU 使用率 (%)
100	820	121	0	65	70
300	1450	206	0.2	78	88
500	2300	217	1.8	82	95
800	3900	205	6.3	85	98
1000	5200	192	12.7	86	99

📊结论提炼：
吞吐量在 300 并发时达到峰值（~206 req/s），之后趋于饱和
响应时间呈指数增长，超过 500 并发后用户体验严重下降
错误率突破 10% 临界点，主要原因为连接超时（Timeout=30s）
GPU 利用率稳定在 85% 左右，说明模型计算已接近极限
CPU 成为明显瓶颈，持续高于 95%

3.2 性能瓶颈定位

（1）同步推理阻塞主线程

Gradio 默认以同步方式运行预测函数，无法充分利用异步 I/O 特性。即使底层模型支持批处理（batching），也无法在 WebUI 模式下自动启用。

（2）无请求队列管理机制

所有请求直接进入处理流程，缺乏限流、排队或优先级调度机制，导致瞬时流量冲击引发雪崩效应。

（3）图像解码与预处理开销大

每次请求需重复执行 base64 解码、PIL 图像加载、归一化等操作，消耗大量 CPU 资源。

（4）缺少缓存机制

相同图像重复提交时仍会重新推理，浪费算力资源。

4. 实践问题与优化建议

4.1 实际遇到的问题

问题一：高并发下频繁出现 504 Gateway Timeout

现象：JMeter 日志显示大量“Read timed out”错误
原因：Nginx 反向代理默认超时时间为 30 秒，而单次 OCR 推理平均耗时已达 5 秒以上，叠加排队时间极易超限
临时解决：调整 Nginx 配置：

location / { proxy_read_timeout 120s; proxy_connect_timeout 120s; }

问题二：GPU 显存溢出（OOM）偶发崩溃

现象：部分请求返回 500 错误，日志提示 CUDA out of memory
原因：输入图像分辨率过高（>2000px）或批量过大触发显存超限
解决方案：添加图像尺寸校验中间件：

def validate_image_size(img, max_size=(1024, 1024)): if img.width > max_size[0] or img.height > max_size[1]: img = img.resize(max_size, Image.Resampling.LANCZOS) return img

4.2 可落地的优化措施

✅ 措施一：切换至 API 模式 + vLLM 加速

利用官方提供的2-API接口-vllm.sh脚本启动服务，vLLM 支持连续批处理（Continuous Batching），显著提升吞吐。

# 启动命令示例 python api_server.py --model tencent/HunyuanOCR-1B --tokenizer-mode auto --max-model-len 4096

⚡ 效果预估：吞吐量提升 3–5 倍，支持动态批处理

✅ 措施二：引入异步任务队列（Celery + Redis）

将 OCR 推理转为后台异步任务，避免阻塞主线程。

from celery import Celery celery_app = Celery('ocr_tasks', broker='redis://localhost:6379/0') @celery_app.task def async_ocr_inference(image_base64): return predict(json.loads({"data": [image_base64]}))

前端改为轮询或 WebSocket 获取结果，提升系统韧性。

✅ 措施三：增加前置缓存层

对已处理过的图像内容（MD5 或 perceptual hash）建立缓存索引，命中则直接返回历史结果。

import hashlib cache_db = {} def get_image_hash(img): buffer = io.BytesIO() img.save(buffer, format="JPEG") return hashlib.md5(buffer.getvalue()).hexdigest() # 在 predict 函数开头插入 img_hash = get_image_hash(img) if img_hash in cache_db: return cache_db[img_hash]

适用于发票、证件等重复性强的场景。

✅ 措施四：启用 Gunicorn + Uvicorn 多工作进程

替代默认单进程运行模式，充分发挥多核 CPU 优势。

gunicorn -k uvicorn.workers.UvicornWorker -w 4 -b 0.0.0.0:8000 app:app

建议 worker 数量 = CPU 核心数 × 2 + 1

5. 总结

5.1 实践经验总结

本次对 Hunyuan-OCR-WEBUI 的千人并发压测揭示了当前 WebUI 模式的性能局限性：

在 1000 并发下，平均响应时间高达5.2 秒，错误率超过12%
系统瓶颈主要集中在CPU 预处理负载和同步阻塞架构
GPU 资源未被充分挖掘，利用率停留在 85% 左右

尽管 Hunyuan-OCR 模型本身具备 SOTA 级别的识别精度与轻量化优势，但在高并发 Web 场景中，服务架构的设计比模型性能更关键。

5.2 最佳实践建议

生产环境避免直接使用 WebUI 模式对外提供服务，应优先选择 API 接口 + 异步框架组合；
推荐使用 vLLM 或 TensorRT-LLM 实现批处理加速，提升 GPU 利用效率；
构建完整的请求生命周期管理体系，包括限流、熔断、缓存、重试等机制；
结合业务特点做定制化优化，例如对固定模板文档启用规则引擎预处理，降低模型调用频率。

只有将先进模型能力与稳健工程架构相结合，才能真正释放 AI OCR 技术在大规模应用场景中的潜力。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Hunyuan-OCR-WEBUI性能压测：JMeter模拟千人并发请求表现如何？