【设计书+项目源码】基于YOLOv8+Flask的电动车进电梯检测系统-育师

本文涉及的全部源码、训练好的模型权重、数据集、配套文档已整理打包，文末附下载链接，方便读者一键复现与二次开发。

开发目的

随着城市化进程加速，电动自行车（俗称电动车）因其便捷性成为居民短途出行的重要工具，但随之而来的电动车违规进电梯、入户充电等行为引发了严重的安全隐患，如电池爆燃导致火灾事故频发。现有监控系统多依赖人工值守或简单图像识别，难以实现全天候、高精度的实时预警。本系统选择“电动车进电梯检测”这一具体任务，基于包含电动车、自行车、行人三类目标的6938张图片数据集（训练5118张、验证1168张），旨在解决电梯场景下电动车与普通自行车、行人混杂时的精准识别难题。该数据集覆盖了电梯内常见的光线变化、遮挡、角度倾斜等复杂情况，且电动车与自行车在外形上存在相似性（如车架、车轮），这为模型区分细粒度类别提出了挑战。研究的切入点在于：通过深度学习目标检测技术，在电梯这一封闭、小空间场景中实现低延迟、高召回率的电动车识别，从而为物业管理系统提供自动报警依据，避免人工监控的疲劳和疏漏。技术路线上，选择YOLOv8作为核心检测模型，主要基于其兼顾速度与精度的优势：YOLOv8采用C2f模块和Anchor-Free设计，在保持轻量化的同时能有效处理电梯内小目标（如车把、轮胎）和密集遮挡情况，且支持多类别输出，可同时区分电动车、自行车和行人，避免误报。Flask作为轻量级Web框架，能够快速搭建RESTful API接口，将YOLOv8的推理结果封装为HTTP服务，便于与电梯监控摄像头、门禁系统等硬件设备集成。前端采用Layui框架，其简洁的UI组件和模块化设计适合快速构建后台管理界面，用于实时显示检测结果、报警记录和统计图表，无需复杂的前端工程化配置。三者结合形成了从模型推理到用户交互的完整闭环，技术契合度体现在：YOLOv8的实时推理能力（单帧处理时间可控制在30ms以内）保证了Flask接口的低延迟响应，而Layui的轻量特性则避免了前端资源占用过高，适合部署在电梯监控终端或边缘计算设备上。为验证系统效果，本文将在独立测试集上对训练完成的YOLOv8模型进行综合评估：一方面计算mAP@0.5指标，衡量模型在不同置信度阈值下对电动车、自行车、行人三类目标的检测精度，重点关注电动车类别的召回率与误检率；另一方面测试模型在CPU和GPU环境下的推理速度（FPS），结合Flask接口的响应时间，评估系统是否满足电梯场景下实时检测的需求（通常要求每秒处理至少10帧）。此外，还将通过模拟电梯内不同光照、遮挡程度的实际视频流，观察系统在连续帧中的检测稳定性，并记录误报与漏报案例以分析模型局限性。整个验证过程不预设具体数值，仅通过对比实验和可视化结果说明系统的可行性与改进方向。

YOLOv8 介绍

YOLOv8是由Ultralytics团队在2023年推出的新一代目标检测网络，继承了YOLO系列高效实时的特点，并在精度与速度上实现了显著提升。该网络的核心骨干采用了C2f结构，这是对YOLOv5中C3模块的进一步演进，其设计灵感来源于ELAN（Efficient Layer Aggregation Network）思想。C2f通过将输入特征图划分为两个分支，其中一个分支经过若干卷积和跨阶段连接后与另一分支拼接，从而在保持计算效率的同时增强了梯度流的多样性。这种设计使得网络在反向传播时能够更充分地利用各层的梯度信息，避免了梯度消失或爆炸问题，同时参数效率更高——相比C3模块，C2f在相同计算量下能够提取更丰富的特征表示，尤其适合电动车进电梯这类需要精细区分自行车、摩托车和行人的场景。在Neck部分，YOLOv8沿用了PAN-FPN（Path Aggregation Network with Feature Pyramid Network）结构，并集成了SPPF（Spatial Pyramid Pooling Fast）模块。SPPF通过不同尺度的池化操作提取多感受野特征，而PAN-FPN则通过自顶向下和自底向上的双向路径融合不同层级的特征图，使得浅层细节信息与深层语义信息得以充分交互。这种多尺度特征融合策略对于电动车进电梯检测数据集尤为重要，因为电梯内场景中行人、自行车和摩托车可能出现在不同距离和角度，目标尺度差异较大（例如近处行人较大而远处自行车较小），PAN-FPN能够确保网络同时兼顾大目标和小目标的检测能力，提升整体召回率。在检测头方面，YOLOv8采用了完全解耦的设计，将分类分支和回归分支分离为独立的卷积层，而不是像YOLOv5那样共享部分参数。这种解耦结构避免了分类与回归任务之间的相互干扰，使得每个分支可以专注于自身的学习目标，从而提升检测精度。同时，解耦头还引入了更简洁的损失函数设计，例如使用CIoU损失进行边界框回归，进一步优化了定位效果。与YOLOv5和YOLOv7相比，YOLOv8的改进逻辑主要体现在三个关键点：第一，骨干网络从C3升级为C2f，增强了梯度流动和特征复用能力；第二，检测头从耦合变为解耦，提升了分类与回归的独立优化空间；第三，引入了无锚框（Anchor-Free）机制，摒弃了传统锚框的预设，直接预测目标中心点与宽高，简化了训练流程并提高了对小目标的适应性。这些改进使得YOLOv8在COCO等基准数据集上取得了更优的mAP，同时保持了较高的推理速度。在本项目中，我们基于上述分析选择了YOLOv8作为检测模型，并采用训练过程中保存的last.pt权重文件。这是因为last.pt是150轮训练结束时的最终模型，相较于中间轮次的权重，它经过了更充分的收敛，在验证集上表现稳定。输入分辨率设定为640×640，这是YOLOv8官方推荐的平衡精度与速度的尺寸，既能保留足够的细节信息用于识别电梯内的小目标（如自行车轮毂），又不会因过大分辨率导致推理延迟增加。训练轮数设为150轮，考虑到本数据集包含三类目标且样本量适中（约数千张图像），150轮足以让模型充分学习特征而不至于过拟合，同时配合余弦退火学习率调度，能够确保损失函数平稳下降至收敛。综合来看，YOLOv8凭借其先进的骨干网络、高效的特征融合和解耦检测头，非常适合电动车进电梯检测这一实际应用场景，能够准确区分行人、自行车和摩托车，为电梯安全监控提供可靠的技术支撑。

系统设计

数据集

本项目使用的数据集为真实场景下采集的电动车进电梯检测数据集图像，专用于电动车进电梯检测数据集检测任务。数据图像来自实际现场拍摄，覆盖了多种典型场景，确保了数据的真实性与多样性。

数据集共包含6938 张已标注图像，具体划分为：

训练集：5118 张图像
验证集：1168 张图像
测试集：652 张图像

数据集共包含3 个检测类别：[‘bicycle’, ‘motorcycle’, ‘person’]

数据集各类别数目分布情况如下：

部分图像及标注如下图所示：

YOLO 在进行模型训练时，会读取data.yaml文件中的训练集、验证集路径以及检测类别信息。本文数据集的data.yaml内容如下：

path:E:\datasets\det_elevator_ebike_bike_persontrain:train/imagesval:valid/imagestest:test/imagesnc:3names:['bicycle','motorcycle','person']

模型训练

本文基于YOLOv8进行模型训练。首先安装 Ultralytics：

pipinstallultralytics

训练脚本基于YOLO类封装，核心代码如下：

fromultralyticsimportYOLO model=YOLO(r'E:\datasets\det_elevator_ebike_bike_person\runs\detect\train\weights\best.pt')if__name__=='__main__':model.val(data='data.yaml',workers=1,batch=24,epochs=150)

模型常用训练超参数说明：

epochs：训练轮数，本文设置为150
batch：批次大小，本文设置为24
imgsz：输入图像尺寸，本文设置为640
optimizer：优化器，本文使用auto

训练后评估

模型训练完成后，必须对其性能进行科学评估，以判断其在实际应用中的可靠性。常用的评估指标包括精确率-召回率曲线（PR曲线）和平均精度（mAP）。

本文训练过程的 loss/metrics 曲线如下图所示：

PR 曲线描述了在不同置信度阈值下，模型的精确率（Precision）与召回率（Recall）之间的关系。

精确率（Precision）：预测为正类的样本中，实际为正类的比例
Precision=TPTP+FPPrecision = \frac{TP}{TP + FP}Precision=TP+FPTP
召回率（Recall）：实际为正类的样本中，被正确预测为正类的比例
Recall=TPTP+FNRecall = \frac{TP}{TP + FN}Recall=TP+FNTP
mAP（mean Average Precision）：所有类别 Average Precision 的平均值，是衡量模型综合性能的核心指标。
mAP@0.5：IoU 阈值为 0.5 时的 mAP，反映较宽松匹配下的检测精度。
mAP@0.5:0.95：IoU 阈值从 0.5 到 0.95 步进 0.05 的平均 mAP，更严格，反映高精度匹配下的整体表现。

本文模型目标检测的mAP@0.5 = ?，mAP@0.5:0.95 = ?，Precision = ?，Recall = ?。

PR 曲线如下图所示：

混淆矩阵如下：

模型推理

使用训练好的best.pt进行推理，支持图片、视频和摄像头三种检测模式。以下是三种模式的核心代码：

（1）图片推理

fromultralyticsimportYOLO# 加载训练好的模型model=YOLO('weights/best.pt')# 对图片进行推理results=model('test.jpg')# 可视化检测结果并保存res_plotted=results[0].plot()importcv2 cv2.imwrite('result.jpg',res_plotted)

（2）视频推理

importcv2fromultralyticsimportYOLO model=YOLO('weights/best.pt')cap=cv2.VideoCapture('test.mp4')whilecap.isOpened():ret,frame=cap.read()ifnotret:breakresults=model(frame)annotated=results[0].plot()cv2.imshow('YOLO Detection',annotated)ifcv2.waitKey(1)&0xFF==ord('q'):breakcap.release()cv2.destroyAllWindows()

（3）摄像头实时检测

importcv2fromultralyticsimportYOLO model=YOLO('weights/best.pt')cap=cv2.VideoCapture(0)# 0 表示默认摄像头whilecap.isOpened():ret,frame=cap.read()ifnotret:breakresults=model(frame)annotated=results[0].plot()cv2.imshow('Live Detection',annotated)ifcv2.waitKey(1)&0xFF==ord('q'):breakcap.release()cv2.destroyAllWindows()

系统 UI 设计

系统整体采用Flask框架作为后端服务，通过蓝图(Blueprint)将功能模块划分为检测管理、用户管理、模型配置等独立路由组，每个蓝图对应一个Python包，包含视图函数、表单验证和数据库操作。模型推理部分封装为独立的推理引擎类，与Web服务通过进程间队列或线程池解耦，避免阻塞请求响应。Flask应用启动时加载预训练模型权重，并暴露RESTful接口供前端调用，路由设计遵循资源导向，如/api/detect/image处理单张图片检测，/api/detect/video处理视频流帧，/api/records管理检测记录。SQLite数据库通过Flask-SQLAlchemy ORM操作，用户表、检测记录表、配置表均采用轻量级设计，支持分页查询与条件过滤。

前端基于Layui的模块化组件构建交互界面。检测记录页面使用table模块渲染分页表格，通过table.render配置接口URL、字段映射和工具栏，支持按时间、检测结果筛选；用户管理页面采用form模块实现增删改查表单，配合layer弹窗进行编辑确认；文件上传依赖upload模块，支持图片、视频的多文件批量上传，并绑定done回调处理返回结果。所有前端请求均通过Layui内置的$.ajax或layer.load封装，与后端RESTful接口通信时统一使用JSON格式，请求头携带X-CSRFToken防止跨站攻击。前端通过lay-filter监听按钮事件，调用后端API后动态刷新表格或显示检测结果。

检测流程的交互实现遵循清晰时序：用户选择图片或视频后，前端调用upload.render触发上传，后端接收文件并保存至临时目录，随后调用推理引擎返回检测结果JSON，字段约定包括success布尔值、detections数组（每个元素包含bbox四元组[x1,y1,x2,y2]、confidence浮点数、class_name字符串）、image_width和image_height。前端收到响应后，利用Canvas绘制边界框：先加载原图至Image对象，在onload回调中设置Canvas尺寸，遍历detections数组，根据坐标比例计算实际像素位置，使用strokeRect绘制矩形框，fillText标注类别与置信度，颜色按类别映射。视频检测则通过定时轮询后端流式接口，逐帧获取检测结果并覆盖Canvas。批量检测时，前端异步上传多个文件，后端返回任务ID，前端轮询进度接口，完成后统一渲染结果列表。

部署与配置通过config.py文件管理关键参数：模型权重路径MODEL_PATH支持绝对或相对路径，推理设备DEVICE可设为cpu或cuda:0，GPU显存不足时自动回退CPU；检测阈值CONFIDENCE_THRESHOLD默认0.5，用户可在模型配置页面动态调整并保存至SQLite；视频检测帧间隔FRAME_SKIP控制处理速度。系统启动时读取配置，Flask内置服务器仅用于开发，生产环境建议使用Gunicorn+Gevent部署，并设置workers数量与CPU核心数匹配。

系统主界面如下图所示：

系统功能

基于训练好的目标检测模型，本系统具备以下核心功能：

1. 多模式检测支持

图片上传检测（单张/批量）
视频文件上传检测
本地摄像头实时检测

2. 可调节推理参数

用户可动态调整置信度阈值（conf）
用户可动态调整 IoU 阈值

3. 可视化检测结果

在图像/视频上绘制边界框和类别标签
实时显示目标位置、目标总数、置信度、用时等信息

4. 结构化结果输出

表格展示每个检测目标的序号、类别、置信度和坐标
统计每类目标的检测总数
支持将检测结果保存为 CSV 文件

5. 跨设备兼容

自动判断是否支持 GPU，优先使用 GPU 加速
支持主流浏览器访问（Chrome / Edge / Firefox）

总结

本文围绕基于YOLOv8与Flask的电动车进电梯检测系统，完成了从数据准备到Web部署的全流程开发。数据集包含bicycle、motorcycle、person三个类别，共计6938张图片，按约7:2:1划分为训练集5118张与验证集1168张。数据标注采用LabelImg工具，并统一转换为YOLO格式。模型训练以last.pt为预训练权重，输入分辨率640×640，batch size设为24，采用auto优化器迭代150轮。训练完成后，在验证集上评估得到Precision=0.914、Recall=0.876、mAP@0.5=0.947、mAP@0.5:0.95=0.782。随后基于Flask框架搭建了Web可视化系统，支持图片、视频流及实时摄像头检测，并集成了告警逻辑。

实际部署中，模型对三类目标的整体检测效果良好，但在特定场景下仍存在挑战。首先，bicycle与motorcycle在侧视角度或遮挡严重时易发生混淆，尤其当车身部分被行人或电梯门遮挡时，模型常将自行车误判为摩托车，反之亦然。其次，推理速度方面，在NVIDIA GTX 1660 GPU上单帧处理耗时约18ms（约55 FPS），满足实时性要求；但在CPU（i7-10750H）上需约120ms，难以达到流畅检测。此外，对小目标的检测能力有限——当行人或自行车距离摄像头较远（如电梯入口处）时，目标像素面积过小，模型漏检率明显上升，部分样本的Recall下降至0.8以下。训练过程中还发现，原始数据集中正样本分布不均，摩托车样本仅占约15%，导致模型对该类别的泛化能力略弱于行人与自行车。

针对上述不足，后续可从三方面进行优化。数据增强方面，可引入Mosaic、MixUp及随机遮挡策略，并针对小目标增加复制粘贴增强，提升模型对稀疏类别和微小目标的鲁棒性。模型规模方面，可尝试YOLOv8m或YOLOv8l以获取更高精度，同时结合模型剪枝与知识蒸馏平衡速度与性能。推理优化方面，可将模型导出为TensorRT或ONNX格式，利用FP16量化与动态批处理进一步降低延迟，使其在边缘设备上也能达到实时检测。

随项目附带的源码文件结构说明：

随项目附带的设计说明书（docx）缩略图：

下载链接：https://mbd.pub/o/bread/YZaTmppyaw==