YOLO-V5目标检测入门与实战应用-育师

YOLO-V5目标检测入门与实战应用

在智能安防摄像头自动识别可疑行为、工业流水线上精准检出缺陷零件，或是无人机实时追踪移动目标的场景中，一个共同的核心技术正在默默运行——实时目标检测。而在众多算法方案中，YOLO-V5凭借其“快而准”的特质，已成为工业落地最广泛采用的技术之一。

它不是学术界的复杂堆砌，而是一个为工程实践量身打造的解决方案：从环境配置到模型训练，再到部署上线，整个流程清晰、文档完善、脚本开箱即用。无论你是刚接触CV的新手，还是需要快速交付产品的开发者，YOLO-V5 都能让你在几天内跑通完整链路。

下面我们就以实际项目视角，一步步带你搭建、训练并部署一个属于你自己的目标检测系统。

环境准备：让代码跑起来才是第一步

再先进的模型，也得先能在本地顺利运行。我们推荐使用Anaconda来管理 Python 虚拟环境，避免不同项目的依赖冲突。

如果你还没安装 Anaconda，可以前往官网下载对应系统的版本。安装完成后，执行以下命令验证：

conda --version

接着创建一个专用于 YOLO-V5 的虚拟环境（建议使用 Python 3.8）：

conda create -n yolov5-env python=3.8 conda activate yolov5-env

⚠️ 注意：虽然 YOLO-V5 支持较广的 Python 版本范围，但为了兼容 PyTorch 和 CUDA，推荐使用 Python 3.7~3.9。

接下来是关键一步——安装 PyTorch。根据你的硬件是否支持 GPU 加速选择不同的方式。例如，使用 CUDA 11.7 的用户可执行：

conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia

若仅使用 CPU，则可通过 pip 安装：

pip install torch torchvision torchaudio

然后克隆官方仓库：

git clone https://github.com/ultralytics/yolov5.git cd yolov5

安装所需依赖：

pip install -r requirements.txt

一切就绪后，不妨先测试一下是否能正常推理。运行如下命令：

python detect.py --source data/images --weights yolov5s.pt --conf 0.4

这会加载yolov5s.pt模型对示例图像进行检测，结果将保存在runs/detect/exp目录下。看到输出图片中的边界框和标签？恭喜，你的环境已经跑通了！

数据与训练：教会模型“看懂”你的任务

有了环境，下一步就是让模型学会识别你关心的目标。假设我们要做一个简单的应用场景：识别画面中的人、车和狗。

数据集结构设计

一个标准的数据组织方式如下：

custom_dataset/ ├── images/ │ ├── train/ │ └── val/ ├── labels/ │ ├── train/ │ └── val/ └── data.yaml

其中每张图像对应一个.txt标签文件，格式为：

class_id center_x center_y width height

所有坐标均为归一化值（0~1），这是 YOLO 系列的标准输入格式。

编写配置文件

创建data.yaml文件，告诉训练脚本数据在哪、有多少类别：

train: ./custom_dataset/images/train val: ./custom_dataset/images/val nc: 3 names: ['person', 'car', 'dog']

开始训练

强烈建议使用预训练权重作为起点。你可以直接下载yolov5s.pt：

wget https://github.com/ultralytics/yolov5/releases/download/v6.1/yolov5s.pt

然后启动训练：

python train.py \ --img 640 \ --batch 16 \ --epochs 50 \ --data custom_dataset/data.yaml \ --weights yolov5s.pt \ --name yolov5_custom_train

几个关键参数说明：
---img: 输入尺寸，通常设为 640×640
---batch: 批次大小，取决于 GPU 显存，显存不足时可适当调小
---epochs: 训练轮数，一般 50~100 足够收敛
---name: 实验名称，方便后续查找日志和模型

训练过程中，YOLO-V5 会在runs/train/yolov5_custom_train中记录损失曲线、mAP@0.5 指标，并生成results.png可视化图表。观察这些指标的变化趋势，有助于判断模型是否过拟合或欠拟合。

💡 工程经验提示：如果验证集 mAP 上升缓慢，可以尝试增加数据增强强度（如--augment参数），或调整学习率策略（通过hyp.yaml修改超参数）。

推理应用：把模型用起来

训练完成之后，最重要的事情是把它投入到真实场景中去。

图像检测

最简单的用法是处理静态图片：

python detect.py \ --source test_images/ \ --weights runs/train/yolov5_custom_train/weights/best.pt \ --conf-thres 0.5 \ --save-txt \ --save-conf

这个命令不仅会生成带框的图像，还会保存每个检测结果的类别、置信度和坐标信息到文本文件，便于后续分析或集成。

视频与流媒体处理

对于监控视频或 RTSP 流，YOLO-V5 同样支持：

python detect.py --source rtsp://example.com/live.stream --weights best.pt

无需额外开发，即可实现实时目标追踪。这对于安防、交通监测等连续输入场景非常实用。

自定义集成：脱离脚本，嵌入系统

当你想把模型嵌入到更大的软件系统中时，直接调用 API 更加灵活。以下是手动实现推理流程的一个轻量级封装示例：

import torch from PIL import Image import cv2 import numpy as np from yolov5.models.common import DetectMultiBackend from yolov5.utils.general import non_max_suppression, scale_coords from yolov5.utils.plots import Annotator # 加载模型 model = DetectMultiBackend('runs/train/yolov5_custom_train/weights/best.pt', device='cuda') # or cpu model.eval() # 读取图像 img_path = 'test.jpg' img_raw = cv2.imread(img_path) img = cv2.cvtColor(img_raw, cv2.COLOR_BGR2RGB) img_pil = Image.fromarray(img) # 预处理：缩放 + 归一化 img_resized = img_pil.resize((640, 640)) img_tensor = torch.tensor(np.array(img_resized), dtype=torch.float32).permute(2, 0, 1) / 255.0 img_tensor = img_tensor.unsqueeze(0) # 添加 batch 维度 # 推理 with torch.no_grad(): pred = model(img_tensor) # 后处理 pred = non_max_suppression(pred, conf_thres=0.5, iou_thres=0.45) # 可视化 annotator = Annotator(img_raw.copy()) for det in pred: if len(det): det[:, :4] = scale_coords(img_tensor.shape[2:], det[:, :4], img_raw.shape).round() for *xyxy, conf, cls in det: label = f'{model.names[int(cls)]} {conf:.2f}' annotator.box_label(xyxy, label, color=(0, 255, 0)) result_img = annotator.result() cv2.imshow('YOLOv5 Detection', result_img) cv2.waitKey(0)

这段代码展示了完整的前处理、推理、NMS 和可视化流程。一旦掌握，你就可以将其包装成 REST API、嵌入 PyQt 应用，甚至接入 ROS 系统用于机器人视觉。

模型导出与部署：走向生产环境

训练好的.pt模型适合研发阶段调试，但在边缘设备或高并发服务中，我们需要更高效的格式。

导出为 ONNX

ONNX 是跨平台推理的事实标准，可用于 ONNX Runtime、TensorRT 或 OpenVINO：

python export.py --weights best.pt --include onnx --img 640

生成的best.onnx可在多种平台上运行，尤其适合 Windows/Linux 服务器部署。

转换为 TensorRT 引擎（NVIDIA 平台）

在 Jetson 设备或数据中心 GPU 上追求极致性能时，TensorRT 是首选：

python export.py --weights best.pt --include engine --device 0

该命令会生成best.engine，推理速度相比原生 PyTorch 提升 2~3 倍，延迟显著降低。

📌 实践建议：在嵌入式设备上部署前，务必在目标硬件上执行导出操作，确保算子兼容性和优化生效。

如何选择合适的模型尺寸？

YOLO-V5 提供多个型号，适应不同资源约束：

模型	参数量	推理速度（Tesla T4）	适用场景
yolov5n	~1.9M	~160 FPS	移动端、嵌入式设备
yolov5s	~7.2M	~90 FPS	边缘计算、实时监控
yolov5m	~21.2M	~50 FPS	中等精度需求
yolov5l	~46.5M	~30 FPS	高精度离线分析
yolov5x	~86.7M	~20 FPS	极致精度场景

不要盲目追求大模型。很多时候，通过高质量数据增强和合理标注，yolov5s就能达到接近yolov5l的效果，同时保持更高的帧率和更低功耗。

为什么 YOLO-V5 成为工业首选？

回到最初的问题：在 Faster R-CNN、SSD、RetinaNet、YOLOv8 等众多选项中，为何 YOLO-V5 仍被大量企业沿用？

1. 极致的速度-精度平衡

在同等硬件条件下，YOLO-V5 的 mAP/FPS 曲线表现优异。特别是在边缘设备上，它能在 30ms 内完成一次推理，满足多数实时性要求。

2. 工程友好，开箱即用

不像某些研究型项目需要自己写训练循环，YOLO-V5 提供了标准化脚本：
-train.py—— 一键训练
-detect.py—— 多源推理
-export.py—— 多格式导出

配合详尽的 README 和 CLI 参数说明，新人也能快速上手。

3. 社区活跃，持续维护

尽管 YOLOv8 已发布，Ultralytics 依然持续更新 YOLO-V5，修复 Bug、提升稳定性，并支持新特性如动态输入、FP16 训练等。

4. 部署链条完整

支持导出为 ONNX、TensorRT、CoreML、TFLite 等多种格式，轻松对接 CI/CD 流水线，实现“训练 → 测试 → 上线”闭环。

现在，你已经掌握了从零开始构建一个目标检测系统的全流程：环境搭建、数据准备、模型训练、推理应用与生产部署。这套方法论不仅可以用于人车狗识别，稍作修改就能迁移到工业质检、农业病虫害检测、零售货架分析等各种场景。

更重要的是，YOLO-V5 所体现的“实用主义”哲学——不追求理论最前沿，而是专注于解决真实世界问题——正是它能在工业界长盛不衰的根本原因。

未来，随着 YOLOv8、YOLOv10 的演进，实时检测的能力边界将继续扩展。但 YOLO-V5 作为承前启后的经典之作，仍将是一块值得信赖的基石。

不妨现在就动手试试：访问 Ultralytics GitHub，克隆代码，跑通第一个 demo。真正的理解，永远始于运行第一行代码那一刻。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

YOLO-V5目标检测入门与实战应用