YOLO26改进策略【Backbone/主干网络】| CVPR 2024替换骨干网络为 UniRepLKNet，解决大核 ConvNets 难题-育师

一、本文介绍

本文记录的是基于UniRepLKNet的YOLO26骨干网络改进方法研究。UniRepLKNet提出了独特的大核设计能有效捕捉图像特征，在多模态任务中展现出强大的通用感知能力。将UniRepLKNet应用到YOLO26的骨干网络中，提升YOLO26在目标检测任务中的精度和效率。

本文在YOLO26的基础上配置了原论文中unireplknet_a,unireplknet_f,unireplknet_p,unireplknet_n,unireplknet_t,unireplknet_s,unireplknet_b,unireplknet_l,unireplknet_xl九种模型，以满足不同的需求。

文章目录

一、本文介绍
二、UniRepLKNet原理介绍
- 2.1 设计出发点
- 2.2 结构原理
- 2.3 整体架构
- 2.4 优势
三、UniRepLKNet的实现代码
四、修改步骤
- 4.1 修改一
- 4.2 修改二
- 4.3 修改三
五、yaml模型文件
- 5.1 模型改进⭐
六、成功运行结果

二、UniRepLKNet原理介绍

UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition

UniRepLKNet是一种通用感知大核卷积神经网络，其模型结构设计旨在解决现有大核卷积神经网络存在的问题，并探索卷积神经网络在多模态领域的通用感知能力。以下从设计出发点、结构原理和优势三方面进行详细介绍：

2.1 设计出发点

大核卷积神经网络架构设计不足：现有大核卷积神经网络架构大多遵循传统卷积神经网络或Transformer的设计原则，缺乏针对大核特性的专门设计。例如，RepLKNet 遵循 Swin Transformer 的架构，SLaK 遵循 ConvNeXt 的架构，这种简单沿用其他模型架构的方式，没有充分挖掘大核卷积神经网络的潜力。
探索卷积神经网络在多模态领域的通用感知能力：Transformer在多种模态中展现出通用感知能力，而卷积神经网络在视觉领域以外的通用感知能力有待研究。因此，研究希望探索大核卷积神经网络是否能在音频、视频、点云、时间序列等非视觉领域取得良好效果。