文章目录
- Abstract
- Introduction
- Related Work
- Multi-Scale Aggregation
- Boundary Delineation
- THE PROPOSED SEGMENTATION NETWORK
- Overall Framework
- Context-Contrasted Local Feature
- Gated Multi-Scale Aggregation
- Boundary Delineation Refinement
- Experiment
- Conclusion
paper
Abstract
语义图像分割旨在将场景图像中的每个像素分类到众多类别中。它隐含地涉及对象识别、定位和边界划定。在本文中,我们提出了一种名为 CGBNet 的分割网络,通过上下文编码和多路径解码来提高分割性能。我们首先提出了一个上下文编码模块,该模块生成具有上下文对比度的局部特征,以利用具有信息量的上下文和具有判别性的局部信息。这个上下文编码模块极大地提高了分割性能,特别是对于不显眼的对象。此外,我们提出了一个尺度选择方案,在每个空间位置上选择性地融合来自不同尺度特征的分割结果。它从丰富的特征尺度中自适应地选择适当的分数图。为了提高边界处的分割性能结果,我们进一步提出了一个边界划定模块,该模块鼓励靠近边界的位置特定的非常低级特征参与最终预测,并抑制远离边界的特征。所提出的分割网络在六个流行的场景分割数据集(包括帕斯卡尔背景、SUN-RGBD、Sift Flow、COCO Stuff、ADE20K 和 Cityscapes)上,在所有三个不同的评估指标方面均表现出非常出色的性能,且表现稳定一致。
Introduction
语义分割旨在将给定图像中的每个像素分类到一个语义类别中,这些类别不仅包括物体(例如人、汽车、猫),还包括其他事物(例如道路、草地、天空)。这是一种密集型预测任务,其输出与输入具有相同的分辨率。语义分割一直是计算机视觉的重要组成部分,并在实际应用中(如自动化设备、虚拟现实、自动驾驶车辆等)有着强烈的需求。它隐含地涉及物体识别、物体定位和边界描绘,这需要多尺度和多层次的视觉识别能力。一个强大的分割网络需要在所有这些隐含的任务中都表现出色。近来,深度卷积神经网络(DCNN)的巨大成功极大地提升了计算机视觉任务的性能[25],例如图像分类[28]、[30]、[66]、[68]、图像去模糊[50]以及对象检测[21]、[22]、[40]、[56]、[57]。然而,当直接将 DCNN 应用于诸如语义分割[9]、[17]、[26]、[38]、[62]、[72]、[82]等密集预测任务时,仍存在一些局限性。DCNN 学习的是整个图像的非常抽象的特征表示[80],从而提取出图像中主要/显著对象的信息。这对于图像分类和对象检测来说是非常理想的。然而,对于语义分割而言,空间信息是必不可少的,像素级别的判别特征是所期望的。尽管大多数最先进的语义分割框架都是基于在 ImageNet 上预训练的图像分类网络[60],但如何更好地将 DCNN 应用于语义分割仍是一个开放性问题。在此,我们在将深度卷积神经网络应用于密集预测任务时,主要考虑了三个问题:物体/事物的多种形态(例如显著或不显著)、多尺度物体的存在以及精确空间边界信息的丢失。为了解决这些问题,我们提出了一种新的分割模型,该模型具有上下文编码、多路径解码和边界描绘功能,以从不同层面提升分割性能。
首先,语义分割的目标是为每个像素进行标注,这与图像分类和目标检测所针对的图像级别或区域级别的标注方式不同。它需要进行密集的高分辨率预测。此外,不仅需要对主要的显著对象进行解析,还需要对物体以及不显眼的对象进行准确解析。在 ImageNet 上预训练的深度卷积神经网络(DCNN)倾向于提取图像级别的抽象特征,这些特征在每个空间位置上的区分度并不一致,而是主要由显著对象所主导。因此,直接将 DCNN 应用于语义分割时,不显眼的对象容易被显著对象所掩盖,其信息也会被削弱甚至被忽略。这对于场景分割来说是不理想的。为了解决这个问题,局部判别特征及其上下文对于场景分割至关重要。许多研究致力于获取有信息的上下文,例如[9]、[49]、[64]、[79]。然而,这些上下文通常具有平滑的表示形式,并且主要由显著对象的特征所主导,这对标注不显眼的对象是有害的。
对于场景分割而言,更出色的特征是具有判别性且与周围环境相关联的局部特征,其中每个像素既能保持自身的特性,又能从周围环境中获取信息。为此,我们提出了一种基于对比的局部特征,它同时利用了上下文信息和局部信息。所提出的这种对比的局部特征不仅利用了具有信息量的上下文,还突出了与上下文相对比的具有判别性的局部信息。此外,我们使用了一种对比的局部(CCL)模型来聚合多尺度和多层次的对比的局部特征。
其次,对象识别会提取用于识别整个图像的特征,但对于分割而言,基于单一特征尺度对所有单个像素进行分类是不合理的。由于对象的尺度变化巨大(例如图 1 中的多尺度奶牛),因此需要为不同的像素采用适应性特征尺度,例如,属于较小对象的像素应采用较小的感知域尺度。先前的工作通过多种不同的方式解决了这个问题。一种方法是将输入图像调整为多个分辨率,并将它们输入到不同的(或共享的)网络中,然后融合它们的特征,例如[11]、[18]、[42]、[55]中的方法。这种策略的聚合能力有限,因为实际中用于避免此方案计算量过大的输入图像的尺度有限。另一种方法利用网络中间层的多个特征级别,例如[20]、[27]、[59]、[62]中的方法。此策略的意图是利用多尺度特征。我们遵循 FCN [62] 的方法,采用跳跃层来利用多尺度特征,这种方法是有效且经济的。然而,在之前的研究中,例如[10]、[27]、[51]、[54]、[62]、[64],跳跃层的得分图是通过一种简单的求和融合方式整合的,这种方式忽略了不同尺度的不同重要性。为了解决这个问题并找到最佳的整合方式,我们提出了一种网络,它控制不同尺度特征的信息流。它生成控制信号,通过门控求和的方式对得分图进行聚合,以有选择地整合多尺度特征。由于多尺度融合中嵌入了选择机制,更多的跳跃层可以加入聚合过程,从而为选择提供更丰富的信息。这增强了多尺度特征的聚合能力。
第三,详细的空间信息对于场景分割至关重要,尤其是对于那些隐含的低级任务,比如边界划定。然而,由于深度卷积神经网络(DCNN)的池化操作或卷积步幅,编码过程中会丢失大量的空间信息。为了解决这个问题,一种方法是使用扩张型 DCNN 来保留空间信息,例如 DeepLab [9] 和 PSPNet [82],它们去掉了部分池化层或卷积步幅。虽然扩张型 DCNN 表现良好,但由于保留了大量相对高分辨率的特征图,其计算成本较高。另一种方法是在解码过程中恢复空间信息,例如 FCN [62] 和 RefineNet [41],它们使用低级特征。这些特征包含足够的低级视觉信息,提供了纹理信息,并有助于做出更精细的最终预测。然而,引入非常低级的特征(例如 ResNet [28] 中的 block2)会带来一些噪声,这会对诸如大规模物体的连贯语义区域分割等高级任务产生不利影响。换句话说,混乱的极低层次信息对于每个像素并非总是都有帮助。它应该仅在靠近纹理边界的位置被利用,以实现精确的边界划分,而在同质区域则应被抑制。为了找到一种适当利用极低层次特征的方法,我们提出了一种细化方法,该方法从分割网络的初始预测中获取纹理边界信息。然后,为了细化初始预测,将边界信息输入网络,以便在边界附近的像素中整合极低层次特征,在其他像素中抑制这些特征。这种方法计算量很小,但能改善边界划分。
总之,本文做出了以下贡献:
1)我们提出了一种针对场景分割的新型上下文对比局部特征,并提出了一个上下文对比局部(CCL)模型来聚合多尺度的上下文对比局部特征。
2)我们提出了一种门控求和方案,能够在每个空间位置上有选择地聚合适当的尺度特征,这是一种有效且高效的解决多尺度对象存在的问题的方法。
3)我们提出了一个边界描绘模型来细化边界预测,该模型鼓励边界附近具有位置信息的非常低级特征,并抑制远离边界的特征。
4)我们在六个流行的语义分割数据集上实现了非常有竞争力的性能。
Related Work
一种方法是在预先训练的深度卷积神经网络(DCNN)之上添加新的层,以增强高级别的情境聚合能力。例如,Chen 等人[9]引入了空洞空间金字塔池化(ASPP)来捕捉不同尺度下的有用情境信息。Visin 等人[70]、丁等人[15]和裴等人[6]采用了循环神经网络来捕捉长距离情境。赵等人[82]使用多个并行池化层来利用来自不同区域的全局信息。刘等人[49]提出用局部卷积层来模拟场平均算法,并将其纳入深度解析网络(DPN)中。于和科尔顿[79]在类别似然图之后附加了多个扩张卷积层,以实现多尺度上下文聚合。沙玛等人[61]提出了一种递归上下文传播网络,以将全局信息传播到不同的局部区域。另一种方法是使用条件随机字段(CRF)[36]来对得分图[9]、[10]、[42]、[49]、[83]的上下文进行建模。例如,陈等人[9]采用 CRF 对一元预测进行后处理,并生成更平滑的预测图。郑等人[83]提出了 CRF-RNN,以将 CRF 与他们的分割网络联合训练。张等人[81]捕获了全局上下文信息,并有选择地突出显示了与类别相关的特征图。
Multi-Scale Aggregation
由于物体的尺寸差异巨大,仅依靠单一尺度的特征很难实现稳健的分割。多尺度聚合是生成稳健解析图的关键方法。实现多尺度聚合的方法有多种。法贝特等人[18]和林等人[42]采用了多分辨率输入(图像金字塔)方法,并融合了来自不同分辨率的相应特征。刘等人[47]生成了多尺度区域,并对结果进行了聚合。皮尼埃罗和科洛伯特[55]在循环卷积神经网络的不同层输入了不同尺寸的图像。然而,上述方法计算成本高昂,并且会占用大量的 GPU 内存。因此,由于实际中使用的尺度有限,这些方法在多尺度特征聚合方面的能力受到了限制,以避免该方案带来的巨大计算负担。开创性工作 FCN[62]引入了跳跃层,以对多尺度特征图进行局部分类,并通过求和融合来聚合它们的预测。这是一种既有效又高效的整合不同尺度特征的方法,我们的工作也是遵循这种思路进行的。然而,在之前的研究中[10]、[27]、[51]、[54]、[62]、[64],跳过层的得分图是通过简单的相加方式融合的,因此忽略了不同尺度的不同重要性。为了解决这个问题,我们提出了一种网络,它能够通过门控求和的方式有选择地聚合不同尺度的特征。通过门控求和融合,该网络能够从深度卷积神经网络更丰富的尺度特征中利用更多的跳过层,并定制不同尺度特征的适当整合。据我们所知,我们的门控求和是首个能够在单个网络中有选择地聚合适当尺度特征的工作。
Boundary Delineation
边界划定是场景分割中的一项隐性任务。由于物体形状各异且布局复杂,边界往往变化无常,难以准确预测。条件随机场(CRF)[36] 常被用作一种后处理方法,以获得更准确的边界预测,例如 Deeplab [9]。除了 CRF 之外,巴伦和波尔 [4] 提出了双边求解器以促进边缘感知的平滑性,而贾曼尼等人 [33] 将双边求解器集成到深度卷积神经网络(DCNN)中,以共同利用数据对其进行训练。彭等人[54]在其网络中融入了残差卷积架构,以提高边界区域的准确性。在本文中,我们提出了一种边界描绘细化(BDR)模型,该模型采用位置选择方案来过滤极低级别的特征,以细化空间边界。BDR 鼓励靠近边界处的像素被赋予更多的极低级别信息,并抑制远离边界处的像素的这种信息。它计算量极小,但能显著提高边界描绘的准确性。此外,BDR 还有助于在单个网络中增强多级别任务的协同性。
THE PROPOSED SEGMENTATION NETWORK
Overall Framework
在本文中,我们提出了一种名为 CGBNet 的分割网络,通过上下文编码、多路径解码和边界描绘来提升分割性能。
所提出的分割网络的总体框架,名为 CGBNet(CCL、门控求和与 BDR),如图 2 所示。它包含用于上下文编码的上下文对比特征提取、用于多路径解码的门控多尺度聚合和边界描绘细化。基准架构是一个类似于全卷积网络的架构,其骨干网络为 ResNet-101。图 2 中提出的上下文对比局部(CCL)模型能够生成多层次和多尺度的上下文感知局部特征。图 2 中用 g+ 表示的门控求和操作能够有选择地整合在深度卷积神经网络(DCNN)和 CCL 中提取的丰富尺度特征。此外,为了在最终预测中生成更精细的边界描绘,还提出了一个边界描绘细化模型(BDR)来过滤极低级别的特征。接下来的章节将详细介绍所提出的 CCL、门控求和和 BDR。
Context-Contrasted Local Feature
背景信息收集旨在获取周边信息并扩大有效感知范围,这能极大地提升语义分割的性能。用于物体识别的深度卷积神经网络(DCNN)已经生成了相对高级的背景特征[28]、[66],但其高级特征是为整个图像的整体抽象表示而学习的,侧重于主要部分,无法为不显眼的物体和物品提供有用的背景信息。此外,它们在某些空间位置上可能不具备区分性,因为它们是为整体图像的共同判别而训练的。因此,用于物体识别的背景特征并不直接有利于旨在对每个像素进行分类的场景分割[16]。许多先前的研究致力于获取用于语义分割的背景信息。例如,[9] 和 [79] 使用扩张卷积来聚合粗略背景,而 [64] 和 [6] 则采用循环神经网络来捕捉长距离密集背景。然而,无论是密集背景还是粗略背景,都容易受到显著物体特征的影响,从而导致不显眼物体的信号较弱。与专注于突出物体的物体分割相比,场景分割中存在更丰富的类别以及类别之间的复杂关联[64]。由于场景分割中物体和物品的复杂性,随意收集背景信息可能会带来有害干扰,尤其是在杂乱的环境中。例如,在图 3 中,与两个人相比,他们身后的汽车是不太显眼的物体。这些局部细节特征会收集像素 A 周围的信息,并且对其他像素具有区分性,但它们并不了解诸如道路和建筑物之类的全局信息,因此无法为像素 A 获取稳健的高级信息。然而,为像素 A 聚合上下文信息会带来诸如人物等显著对象的特征,因此会受到人物特征的主导。最终预测中可能会忽略一些汽车的信息,从而导致该位置像素的错误标注。此外,不同位置的上下文倾向于对主导特征进行一致性表示,因此缺乏空间上的辨别能力。因此,很难为像素 A 收集到合适且具有区分性的高级特征。
在此,为场景分割设计定制化的上下文特征是至关重要的。为此,本文提出了一种基于上下文对比的局部特征,用于进行高级特征建模,该特征将模糊的上下文注入到局部特征中,从而生成具有判别性上下文感知的局部特征。具体而言,我们提议分别生成局部信息和上下文,然后通过将这两者进行对比来融合它们:
其中,F 代表输入特征,Fl 是局部卷积函数,Fc 是上下文卷积函数,l 和 c 分别是相应的参数,而 CL 是我们设计的基于上下文对比的局部特征。它们将分离的上下文信息与局部信息进行对比,从而不仅利用了有用的上下文信息,还通过与上下文的对比凸显了局部信息。上下文局部函数促使网络生成针对场景分割的定制特征。上下文对每个像素都表现出关注,但会带来一些不必要的信息,而局部则侧重于邻近信息但忽略其他部分,导致丢失一些关键信息。与上述两种方法不同,上下文局部更注重局部信息,同时收集粗略的上下文以聚合关键信息,因此能够获得稳健的高级特征。
这是一种模仿人类视觉行为的机制。当我们人类观察一个物体时,我们总是以一种方式收集该物体的相关背景信息,即我们的目光会聚焦于该物体,而周围环境则会变得模糊[19]。换句话说,我们在关注该物体的同时也意识到了其周围的环境。CCL 的架构如图 4 所示。它由多个串联的上下文局部块组成,以生成多层次的上下文对比局部特征。在 CCL 中采用了门控求和(在下一节中介绍)来有选择地聚合不同层次的上下文对比局部特征。
与现有上下文模型的比较 DAG-RNN [64] 通过在特征图中传播局部信息来进行上下文建模,以编码长距离的上下文信息。与 DAG-RNN 不同的是,CCL 利用多尺度特征进行分割,并且 CCL 的上下文感知局部特征与 DAG-RNN 中的特征不同。ASPP [9] 通过将不同上下文聚合分支生成的得分图进行组合来聚合多尺度上下文,每个分支都使用具有不同步长率的膨胀卷积核来并行生成不同尺度的上下文。与这种类型的上下文模型相比,CCL 首先在每个块中对对比特征进行上下文化处理,以获得上下文感知的局部特征,这在特征级别上结合了两个不同的尺度,并利用了上下文和局部信息,然后在得分级别上进一步聚合多尺度对比上下文的局部特征。此外,CCL 的得分图是通过门控求和而非简单的求和进行融合的。CRF [36] 通常应用于得分图,以增强低级信息的一致性,而 CCL 的目标是生成具有判别性的高级特征。事实上,CRF 还可以作为一项后处理步骤来提升我们分割网络的性能。
Gated Multi-Scale Aggregation
由于存在多种尺度的物体,直接将深度卷积神经网络(DCNN)应用于场景分割以获取所有像素的适当信息是困难的[16]。在本节中,我们讨论如何从 DCNN 中提取不同尺度的特征。一种高效且有效的方法是在 DCNN 的中间层添加跳跃层。基于 FCN 的编码器-解码器架构[62],作为分类器的跳跃层被用于利用 DCNN 中的多尺度特征来生成相应的分割分数图。然而,在先前的工作中,如[10]、[27]、[51]、[62]、[64],跳跃层的分类分数图是通过求和进行非选择性融合的,这没有考虑到这些分数图对于不同像素的个体差异。某些像素更倾向于具有较大感受野的特征的分数,例如属于较大物体的像素,而其他像素则希望具有较小感受野的特征,例如属于较小物体的像素。此外,一些复杂结构的像素可能需要聚合多尺度特征以更好地收集信息。如果这些评分图未经筛选地随意汇总,不恰当或错误的评分可能会对最终预测造成影响。因此,最好为每个像素提供相应的评分范围选择。
**为此,我们提出了一种名为“门控求和”的选择方案,该方案能够根据像素的尺度或表示支持情况,自适应地为每个像素选择合适的感受野。**该方案包含内在的按位置区分的门控机制,用于从跳跃层中选择输出,并控制深度卷积神经网络的信息流。由于跳跃层旨在捕捉多尺度特征,因此在全卷积网络框架中,采用旁路和简单的方法是为不同的像素选择不同的跳跃层。通过门控求和融合,网络可以根据图像的信息自定义得分图的合适聚合选择,这相当于选择哪些尺度的特征对于每个像素来说是更好和更理想的。此外,通过门控求和融合,我们可以添加更多的跳跃层来提取更丰富的尺度信息,而不会出现结果不恰当的问题。
为了获取控制门所需的信息(如规模和上下文支持),引入了由卷积层和Sigmoid层组成的“信息跳过层”,以从相应的特征图中提取信息,并生成大小为 H×W 的信息图,其中 H×W 是特征图的空间尺寸。由于这些信息图(即跳过层的 Inp 和得分图 Sc,n )是由同一个深度卷积神经网络(DCNN)或条件卷积层(CCL)生成的,因此还应考虑 DCNN 和 CCL 的特征图之间的序列关系,例如从低层次到高层次。循环神经网络(RNN)[23]、[24]、[46] 在学习这种序列关系方面是有效且高效的,因此将所有信息图按顺序输入到 RNN 中以学习这些信息图之间的关系。基于 RNN,这些信息图能够了解邻域图,并获取所有信息图之间的序列关系。图 5 展示了针对相同尺寸特征图的通用门控求和方案。
具体来说,我们假设较高层的信息图已经通过深度卷积神经网络(DCNN)的影响而获取了较低层的信息,因此循环神经网络(RNN)从我们分割网络的最后一层的信息图开始。假设一个门控求和操作在一个块中包含 N 个得分图,这些得分图具有相同的空间尺寸 H×W,记为 Scp,n,由来自不同尺度特征 Fnp 的 N 个跳跃层生成。我们有 Sc,n p = Fsn(Fn p,ns ),其中 p 是空间位置,n ∈ 1, 2…, N,c ∈ 1, 2…, C 且 C 是类别标签的数量。Fsn 是第 n 个跳跃层的分类函数,Θn s 是其参数,Fnp 表示具有 H×W×#通道维度的输入特征图。对于每个跳跃层,我们首先从相应的特征图生成一个大小为 H×W×1 的信息图 Inp:
其中 Fin 是第 n 层信息跳过层的卷积+sigmoid 函数,Θn_i 是其参数。然后这些信息图 Inp 按顺序输入到 RNN 中,以学习它们之间的关系:
其中 hnp 是 RNN 的第 n 个输出。为了使我们的网络更高效,所有位置都并行处理,并且 Wn 对所有空间位置都是共享的。为了确保每个信息图都能了解全局信息,RNN 的输出被连接起来,即 Hp = (h1p…hNp )T ,并结合全局信息进行优化:
其中 Fg 是一个 1×1 的卷积层,g 是其参数。接下来,Hp 被拆分,Hp = (h1p…hNp)T ,并用于生成门 Gnp 以实现门控求和:
每个位置 p 的国民生产总值总和被标准化为 N。最后,通过门控求和的方式对 N 个得分图进行有选择的融合:
其中 ∗ 表示元素级乘法,Scp 是门控求和的输出。这种门控求和的嵌入(图 5)如何融入编码器-解码器架构(图 2)将在第四节 C 部分进行讨论。
门控汇总层控制着跳跃层的信息流动,即 Scp,n 能够通过这些门控层的信息量取决于 Gn 的值。Gn 值越大,表示第 n 个跳跃层在位置 p 的特征表现越好,可用于位置 p 的位置标注。而 Gn 值越小,则表示对于位置 p,第 n 个跳跃层生成的分割结果不可取,应予以抑制。更重要的是,Gn 不是一个固定值,也不是直接从训练数据中学习得到的。它是通过由训练数据学习而来的所提出的网络从测试图像中生成的。因此,Gn 能适应测试图像的不同像素。Gn 的值不仅取决于训练数据,还取决于测试输入图像,并根据特征图而变化。因此,我们称它们为“门控”,以区别于简单的固定或学习得到的“权重”。通过门控求和,网络会根据不同的测试图像(自适应地)从丰富的特征尺度中选择合适的得分图。
Boundary Delineation Refinement
语义分割需要进行多层次的任务处理,包括低层次的任务(如边界划定)以及高层次的任务(如物体识别)。一个表现良好的语义分割架构应当能够有效地应对各种任务。在本节中,我们将讨论如何恢复边界信息并优化分割的边界划定。‘
由于池化操作和卷积步长的存在,在编码过程中会丢失详细的空间信息,这与场景分割的目标不符。为了解决这个问题,通过可学习的反卷积滤波器对深度卷积神经网络(DCNN)的输出进行上采样和解码是可行且高效的。但仅使用反卷积无法恢复由于池化操作和卷积步长而已经丢失的文本空间信息。要恢复空间知识,有必要利用包含足够纹理视觉信息(例如角点、边缘等)的极低级特征信息,并为准确的边界预测补充这些信息。与主要针对不同尺度对象的分割任务选择不同尺度特征的门控求和不同,边界描绘需要更高的分辨率(较低级)特征来提供更精细的纹理边界知识。例如,在图 6 中,为了描绘对象 1 的边界布局,像素 B 的解析是必不可少的。尽管门控求和操作能够为像素 A 和像素 C 选择不同的特征尺度,但在进行上采样处理时,空间尺寸会扩大,而非常低级别的信息(例如角点、边缘等)对于在像素 B 周围获得更精细的预测变得越来越重要。因此,为解析像素 B 提供细致的边缘信息是必要的。然而,非常低级别的特征并不适合用于诸如对象识别等高级任务,因为将非常低级别的特征纳入高级任务中会带来一些噪声信息,尤其是在距离边界相对较远的位置上。
为了获取精确的边界信息,有必要利用那些包含纹理视觉信息且在边界附近具有更高信噪比(SNR)的极低级特征。另一方面,极低级特征包含噪声信息,并且在远离边界的地方信噪比较低,这不利于物体识别。因此,我们提出了一种边界描绘细化(BDR)模型,该模型会抑制远离边界处信噪比较低的极低级特征,并将其集中在边界附近信噪比较高的区域。
具体而言,我们提出了一种细化方法,该方法首先从分割网络的初始预测结果中获取边界图 Bp0,对于边界上的像素,Bp0 = 1,否则 B0 p = 0。由于从初始预测中生成的边界与真实边缘并不完全对齐,直接使用这个硬掩码可能会重复初始预测中的错误。为了解决这个问题,采用不同标准差 σ m 的各向同性低通高斯滤波器来扩散初始的硬边界图,从而得到软边界掩码 Bpm,m = 1、2、3,如图 7 中 m = 3 时所示,其中产生了具有不同软值的更宽的边界。对于单条初始边界的一维软边界掩码 Bm p 的轮廓 bxm 可以表示为:
其中 t 表示初始纹理边界的位置,σ m ∈{1, 3, 5},m ∈{1, 2, 3},依次对应于 BDR 中使用的三个非常低级别的特征(从低到高排列)。图 8 绘制了这三个软边界掩码 Bpm 的 1D 曲线 bxm。它表明,所有这三个软边界掩码的值随着与初始边界距离的增加而降低。此外,如图 8 中在 x = t、t + 1、t + 2 处所示,越靠近初始边界,低级别特征的掩码值高于高级别特征,而越远离初始边界,则高级别特征的掩码值高于低级别特征。然后,这些掩码被用于选择包含纹理边界信息的非常低级别特征,作为门控求和生成的高级别分数图的补充:
其中 Bpm 是第 m 个软边界掩码,S˙c,m p 是来自第 m 个极低级特征的得分图,?Scp 是边界细化得分图,Scp 是门控求和的上采样输出。为了消除使用极低级特征时可能引入的孤立噪声,在测试过程中采用了一个简单的中值滤波器来平滑最终的预测结果。所提出的边界检测算法(BDR)会将靠近边界处的像素赋予更多的极低级信息,并抑制其在远离边界处的表达。它在计算量上几乎没有什么增加,但却能显著改善边界划分的效果。
Experiment
Conclusion
在本文中,我们探讨了场景分割这一具有挑战性的任务。场景分割旨在将图像分割成一组连贯的语义区域,并将每个像素分类到相应的类别中。因此,上下文和多尺度聚合对于实现良好的分割至关重要。然而,为图像分类而设计和训练的深度卷积神经网络(DCNN)倾向于提取主要对象的抽象特征,这会削弱甚至忽略一些对于不显眼的对象和物品来说至关重要的本质性信息。为解决这一问题,我们提出了一种新颖的上下文对比局部特征,以利用有用的上下文并突出与上下文相对比的局部信息。所提出的上下文对比局部特征极大地提高了图像分割性能,特别是在不显眼的对象和物品方面。添加跳跃层是一种常见的有效且高效的方法来利用多尺度特征,但现有的方法通过简单的求和方式不加区分地融合跳跃层的得分图。为了实现最佳的多尺度聚合效果,我们提出了一种门控求和方案,用于对每个像素的多尺度特征进行有选择的聚合。门控参数由所提出的网络从测试图像中生成,这些网络是基于训练数据训练而成的。因此,它们不仅适应训练数据,还适应特定的测试图像。我们还提出了一个边界细化模型来描绘边界预测。它鼓励靠近边界处的非常低级特征,并抑制远离边界处的这些特征,因为就信噪比而言,非常低级的特征往往在边界附近具有信息性,但在远离边界处则具有噪声性。没有花哨的功能,我们的分割网络在用于评估的六个流行的场景分割数据集(帕斯卡尔背景、SUN-RGBD、Sift Flow、COCO Stuff、ADE20K 和 Cityscapes)中始终能取得最先进的性能。