11.4 计算机视觉任务专用网络:目标检测、语义分割与实例分割
计算机视觉的核心任务旨在赋予机器“看懂”图像的能力,其需求从粗糙到精细,衍生出目标检测、语义分割和实例分割三大关键任务。为高效解决这些任务,研究者设计了各具特色的专用网络架构。本节将系统阐述以R-CNN系列和YOLO系列为代表的目标检测网络,以FCN和U-Net为代表的语义分割网络,以及作为实例分割基准的Mask R-CNN。这些架构不仅是解决特定任务的工具,其设计思想也深刻反映了计算机视觉从区域识别到像素级理解的演进脉络。
11.4.1 目标检测:从区域提议到端到端回归
目标检测的任务是定位图像中所有感兴趣的目标(用边界框表示)并识别其类别。其技术路线主要分为两阶段(Two-Stage)检测器和单阶段(One-Stage)检测器。
11.4.1.1 R-CNN系列:两阶段检测的演进
两阶段检测器首先生成可能包含目标的候选区域(Region Proposals),再对每个候选区域进行分类和边界框精修。R-CNN系列是这一范式的典型代表。
R-CNN(Regions with CNN features):开创性地将CNN引入目标检测。其流程为:(1) 使用选择性搜索(Selective Search)生成约2000个候选区域;(2) 将每个区域缩放到固定尺寸,送入预训练的CNN(如AlexNet)提取特征;(3) 使用类别特定的线性支持向量机(SVM)进行分类;(4) 使用线性回归模型对边界框进行精修。R-CNN的主要问题是重复计算(每个候选区域独立通过CNN)和训练测试流程复杂。
Fast R-CNN:针对R-CNN的改进,引入了RoI(Region of Interest)池化层。网络首先对整个图像进行一次CNN前向传播,得到共享的特征图;然后,将每个候选区域投影到特征图上,通过RoI池化层将不同尺寸的候选区域特征转换为固定尺寸的特征向量;最后,特征向量被送入两个并行的全连接层,分别进行类别分类和边界框回归。Fast R-CNN实现了端到端训练,大幅提升了速度和精度。
Faster R-CNN:该架构的核心创新是用区域提议网络(Region Proposal Network, RPN)取代了耗时的选择性搜索。RPN是一个全卷积网络,在共享的特征图上滑动,为每个位置生成多个不同尺度和长宽比的锚框(Anchor Boxes),并输出每个锚框是“目标”的置信度及其初步的边界框偏移量。RPN与Fast R-CNN检测器共享特征图,实现了候选区域生成、分类和回归的完全端到端训练,是两阶段检测器的里程碑。
下表概括了R-CNN系列的核心演进:
| 模型 | 区域提议方法 | 核心创新 | 主要优势 | 遗留问题 |
|---|---|---|---|---|
| R-CNN | 选择性搜索 | CNN特征提取、SVM分类、边界框回归 | 首次展示CNN特征对检测的有效性 | 速度慢、存储开销大、流程多阶段 |
| Fast R-CNN | 选择性搜索 | RoI池化层、多任务损失(分类+回归) | 共享计算、端到端训练、速度显著提升 | 区域提议仍是计算瓶颈 |
| Faster R-CNN | RPN(区域提议网络) | RPN与检测网络共享特征、锚框机制 | 真正意义上的端到端、精度与速度的平衡 | 整体速度仍不及单阶段检测器 |
11.4.1.2 YOLO系列:单阶段实时检测的标杆
与两阶段方法不同,单阶段检测器将目标检测视为一个单一的回归问题,直接从图像像素预测边界框和类别概率,以实现极高的检测速度。YOLO(You Only Look Once)是其中最著名的系列。
核心思想与早期版本:YOLOv1将输入图像划分为S×SS \times SS