news 2025/12/30 7:07:57

C3-OWD:一种用于开放世界检测的课程跨模态对比学习框架

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
C3-OWD:一种用于开放世界检测的课程跨模态对比学习框架

摘要

https://arxiv.org/pdf/2509.23316
目标检测在封闭集环境下取得了显著进展,但在实际部署中仍面临两个挑战:对未见类别的泛化能力差,以及在恶劣条件下的鲁棒性不足。先前的研究分别探索了这些问题:可见光-红外检测提高了鲁棒性但缺乏泛化能力,而开放世界检测则利用视觉-语言对齐策略实现类别多样性,但在极端环境下表现不佳。这种权衡使得鲁棒性和多样性难以同时实现。为缓解这些问题,我们提出了C3-OWD,一个统一两者优势的课程跨模态对比学习框架。第一阶段通过RGBT数据预训练增强鲁棒性,第二阶段通过视觉-语言对齐提高泛化能力。为防止两个阶段之间的灾难性遗忘,我们引入了指数移动平均(EMA)机制,该机制理论上保证了前期性能的保留,具有有界的参数滞后和函数一致性。在FLIR、OV-COCO和OV-LVIS上的实验表明了我们方法的有效性:C3-OWD在FLIR上达到80.1 AP50 _{50}50,在OV-COCO上达到48.6 AP50 _{50}50Novel,在OV-LVIS上达到35.7 mAPr _rr,在鲁棒性和多样性评估中均建立了具有竞争力的性能。代码地址:https://github.com/justin-herry/C3-OWD.git。

引言

目标检测(Zong, Song, and Liu 2023; Zhu et al. 2020; Zhao et al. 2023; Lv et al. 2024)是计算机视觉中的一项基础任务,在封闭集环境下已取得显著进展,其中模型在固定类别集上进行训练和评估。

尽管在标准基准测试中效率高、精度高,传统检测器在实际部署时面临两个关键挑战:
• 对未见类别的泛化能力有限
• 在恶劣环境条件下(如图1所示,例如低照度、雾等)鲁棒性不足。

为解决这些问题,最近两个研究方向受到关注。一方面,可见光-红外目标检测(RGBT-OD)(Shen et al. 2024a; Devaguptapu et al. 2019; Medeiros et al. 2024; Lee, Park, and Park 2024)引入了互补的热成像线索,显著提高了在极端条件下的鲁棒性。然而,RGBT模型仍局限于封闭集类别,因此泛化能力有限。另一方面,开放世界检测(OWD)(Gu et al. 2021a; Zang et al. 2022; Zhong et al. 2022; Zang et al. 2022; Wu et al. 2024a)通过利用视觉-语言对齐策略(如CLIP(Radford et al. 2021)和GLIP(Li et al. 2022a)),将检测器扩展到固定分类法之外,能够在动态和演化的环境中识别新类别。然而,OWD系统通常在自然图像上训练,在挑战性条件下应用时鲁棒性较差。因此,当前研究揭示了一个不可避免的权衡:注重鲁棒性的方法通常缺乏多样性,而强调多样性的方法则牺牲了鲁棒性。

我们能否开发一个统一框架,同时在极端条件下实现鲁棒性并具备开放词汇泛化能力,从而打破当前目标检测中多样性与鲁棒性之间的权衡?

在本文中,我们提出了一个统一范式C3-OWD,通过课程跨模态对比学习框架同时解决这两个挑战。训练分为两个阶段。在第一阶段,我们通过在FLIR数据集(Systems 2018)等RGBT数据上预训练检测器,增强其在恶劣环境下的鲁棒性。在第二阶段,我们通过视觉-语言对齐注入来自文本的语义先验,这提高了对未见类别的泛化能力,并加强了视觉区域与文本描述的定位。

课程学习中的一个关键难点是灾难性遗忘,即第二阶段训练可能覆盖第一阶段学习的鲁棒性。为缓解这一问题,我们引入了指数移动平均(EMA)机制(Karras et al. 2023; Lee et al. 2024; Li et al. 2024)。我们的理论分析表明,EMA机制通过有界的参数滞后保留了前期性能,确保了动量分支和在线分支之间的函数一致性,并在从小数据集适应到大数据集时防止灾难性遗忘。

我们的主要贡献总结如下:
• 我们提出了C3-OWD,一个统一的跨模态课程学习范式,集成了RGBT鲁棒性和开放词汇泛化能力。与传统方法受到模态偏见影响不同,我们的方法通过渐进式学习动态平衡多模态信息,减少鲁棒性与多样性之间的权衡,以更好地适应多样化的环境条件。
• 我们提供了严格的理论基础,证明我们的指数移动平均(EMA)机制通过有界的参数滞后和保证的函数一致性有效防止灾难性遗忘,为渐进式多模态学习中的稳定知识保留建立了数学保证。
• 大量实验验证了C3-OWD的有效性,C3-OWD在FLIR上达到80.1 AP50 _{50}50,在OV-COCO上达到48.6 AP50 _{50}50Novel,在OV-LVIS上达到35.7 mAPr _rr,与先前最先进的方法相比取得了具有竞争力的结果。

相关工作

开放世界检测(OWD)OWD专注于检测和学习训练集中未标注的未知对象(Ma et al. 2023; Xi et al. 2024)。在推理过程中,检测器识别潜在的未知对象,这些对象随后被标注并作为新类别增量添加。早期方法如ORE(Joseph et al. 2021)通过聚类和基于能量的分类器增强了Faster R-CNN,而基于transformer的方法如OW-DETR(Gupta et al. 2022)采用伪标注但通常生成嘈杂的标签。扩展方法如PROB(Zohar, Wang, and Yeung 2023)引入了概率对象性建模,但校准问题仍然存在。最近,大型视觉模型(例如SAM(Kirillov et al. 2023))通过伪标注和知识蒸馏进一步推进了OWOD,但在可靠未知检测方面的挑战仍然存在。

RGBT目标检测为解决仅依赖RGB图像进行目标检测的局限性,一些研究引入了热成像模态,从而发展了RGBT目标检测(Zhou, Chen, and Cao 2020; Sun et al. 2022a)。一些方法使用不确定性或置信度指标来平衡RGB和热成像融合(Kim, Park, and Ro 2021; Li et al. 2023),而其他方法则根据照明水平调整对热输入的依赖(Guan et al. 2019; Li et al. 2019)。还提出了基于注意力的RGBT网络,以进一步增强模态整合(Shen et al. 2024b; Yuan and Wei 2024)。在本工作中,我们采用RWKV作为骨干网络,并设计定制的训练策略,以充分利用RGBT数据的优势。

接收度加权键值(RWKV)RWKV (Peng et al. 2023)已成为序列建模的一种有前景的范式,结合了循环网络的效率和transformers的可扩展性(Li et al. 2025; Hou and Yu 2024)。通过引入时间移位的接收度门和指数衰减的键投影,它实现了线性时间复杂度和高效的内存使用(Peng et al. 2025)。这些优势导致了多模态整合的扩展(Yang et al. 2025b; Fei et al. 2024)。例如,PointRWKV(He et al. 2025)增强了3D点云中的几何特征提取,而Vision-RWKV (Duan et al. 2024a)改进了高分辨率图像理解,超越了传统的ViTs。在本工作中,我们利用RWKV高效融合两种视觉模态和文本,充分利用其在多模态学习中的潜力。

方法

概述

我们的目标是通过引入C3-OWD(课程跨模态对比学习框架)来增强在挑战性条件下的开放词汇检测。如图2所示,我们的方法建立在两阶段设计架构之上。第一阶段利用RGBT(可见光-热红外)数据集增强鲁棒性。第二阶段在COCO上使用双动量对比对齐和文本调制可变形注意力进行训练,以实现具有增强语义定位的开放词汇检测。

第一阶段-多模态鲁棒性增强

如图2第一阶段所示,第一阶段的主要目标是通过RGB和红外模态的互补信息建立环境鲁棒的特征表示。与传统方法采用简单的特征连接或加权融合不同,我们设计了一种基于RWKV的自适应跨模态交互机制。

双模态特征提取:给定配对的RGB-红外图像( I r g b , I i r ) ∈ R H × W × 3 (I_{rgb}, I_{ir}) \in \mathbb{R}^{H \times W \times 3}(Irgb,Iir)RH×W×3,我们通过共享权重的CNN骨干网络提取多尺度特征:
F r g b = { F r g b l } l = 2 , 3 , 4 , F i r = { F i r l } l = 2 , 3 , 4 F_{rgb} = \{F^l_{rgb}\}_{l=2,3,4}, F_{ir} = \{F^l_{ir}\}_{l=2,3,4}Frgb={Frgbl}l=2,3,4,Fir={Firl}l=2,3,4

其中F ∗ l ∈ R B × C l × H l × W l F^l_* \in \mathbb{R}^{B \times C_l \times H_l \times W_l}FlRB×Cl×Hl×Wl表示第l ll层的特征图。

基于VRWKV的自适应融合:为实现高效的跨模态交互,我们采用VRWKV(Duan et al. 2024b)作为基础架构,并扩展为双向注意力机制以捕获全局依赖关系。对于第t tt个令牌,注意力输出计算为:
Bi-WKV ( K , V ) t = ∑ i = 0 , i ≠ t T − 1 e − ( ∣ t − i ∣ − 1 ) / T ⋅ w + k i v i + e u + k t v t ∑ i = 0 , i ≠ t T − 1 e − ( ∣ t − i ∣ − 1 ) / T ⋅ w + k i + e u + k t \text{Bi-WKV}(K, V)_t = \frac{\sum_{i=0,i \neq t}^{T-1} e^{-(|t-i|-1)/T \cdot w + k_i} v_i + e^{u + k_t} v_t}{\sum_{i=0,i \neq t}^{T-1} e^{-(|t-i|-1)/T \cdot w + k_i} + e^{u + k_t}}Bi-WKV(K,V)t=i=0,i=tT1e(ti1)/Tw+ki+eu+kti=0,i=tT1e(ti1)/Tw+kivi+eu+ktvt

其中w ww是可学习的位置衰减参数,u uu是当前令牌重要性权重,k i k_ikiv i v_ivi分别是键和值向量。这种双向机制允许每个令牌同时考虑前向和后向上下文信息。

RGB和红外特征通过VRWKV-Block(Duan et al. 2024b)交互,生成模态感知的增强表示:
F r o b u s t = VRWKV-Block ( F r g b , F i r ) F_{robust} = \text{VRWKV-Block}(F_{rgb}, F_{ir})Frobust=VRWKV-Block(Frgb,Fir)

其中VRWKV-block由具有跨模态交互机制的编码器-解码器架构组成。编码器处理多尺度RGB-热特征,而解码器细化表示,实现两种模态互补信息的有效融合。

在此阶段,我们采用包括分类损失L c l s L_{cls}Lcls和回归损失L r e g L_{reg}Lreg在内的标准检测损失,直接在配对的RGB-红外数据上进行监督。这种预训练策略使模型能够在不同照明条件下学习鲁棒的特征表示,为后续开放世界适应奠定坚实基础。完整细节见算法1。

第二阶段-视觉-语言泛化对齐

如图2第二阶段所示,在第二阶段,我们通过三个互连组件进行全面的视觉-语言对齐:语义增强融合、文本调制可变形注意力和双动量对比学习。此阶段用语义先验丰富视觉表示,同时保持高效的开放词汇检测能力。

语义增强融合我们首先通过分层视觉-语言融合模块用语义先验丰富视觉特征。来自骨干网络的视觉特征C = { C 2 , C 3 , C 4 } C = \{C_2, C_3, C_4\}C={C2,C3,C4}(其中C 2 ∈ R B × 256 × H × W C_2 \in \mathbb{R}^{B \times 256 \times H \times W}C2RB×256×H×W)通过线性投影层投影到共享空间:
C i ′ = Linear ( C i ) , i ∈ { 2 , 3 , 4 } C'_i = \text{Linear}(C_i), i \in \{2, 3, 4\}Ci=Linear(Ci),i{2,3,4}

缩放后的嵌入被连接为C = Concat ( C 2 ′ , C 3 ′ , C 4 ′ ) ∈ R B × L × D C = \text{Concat}(C'_2, C'_3, C'_4) \in \mathbb{R}^{B \times L \times D}C=Concat(C2,C3,C4)RB×L×D,其中L LL是序列长度,D DD是嵌入维度。同时,通过patch嵌入从C 2 C_2C2提取细粒度输入:
M , ( H p , W p ) = PatchEmbed ( C 2 ) M, (H_p, W_p) = \text{PatchEmbed}(C_2)M,(Hp,Wp)=PatchEmbed(C2)

其中M ∈ R B × N × D M \in \mathbb{R}^{B \times N \times D}MRB×N×D是patch令牌,( H p , W p ) (H_p, W_p)(Hp,Wp)是patch分辨率。

然后,我们执行L LLM MM和文本嵌入T c l i p ∈ R B × C L A × D T_{clip} \in \mathbb{R}^{B \times C_{LA} \times D}TclipRB×CLA×D(其中C L A C_{LA}CLA是类别数)之间的双向交叉注意力,然后进行跨模态交换:
M o u t , T o u t = CrossModalExchange ( M , T c l i p ) M_{out}, T_{out} = \text{CrossModalExchange}(M, T_{clip})Mout,Tout=CrossModalExchange(M,Tclip)

其中CrossModalExchange模块使用基于RWKV的架构执行双向特征融合。

具体来说,该模块通过两个并行路径计算跨模态交互:
V I = RWKV I → T ( R = M , K = T c l i p , V = T c l i p ) V_I = \text{RWKV}_{I \to T}(R = M, K = T_{clip}, V = T_{clip})VI=RWKVIT(R=M,K=Tclip,V=Tclip)
V T = RWKV T → I ( R = T c l i p , K = M , V = M ) V_T = \text{RWKV}_{T \to I}(R = T_{clip}, K = M, V = M)VT=RWKVTI(R=Tclip,K=M,V=M)

其中RWKV I → T \text{RWKV}_{I \to T}RWKVIT表示图像到文本的RWKV交互,RWKV T → I \text{RWKV}_{T \to I}RWKVTI表示文本到图像的RWKV交互。在这里,R RR充当来自一个模态的查询类,而K KKV VV是来自另一个模态的键值对。

注意力特征随后与原始特征连接,并通过两层MLP处理生成门控系数:
γ = MLP ( [ M ⋅ V I ] ) , δ = MLP ( [ T c l i p ⋅ V T ] ) \gamma = \text{MLP}([M \cdot V_I]), \delta = \text{MLP}([T_{clip} \cdot V_T])γ=MLP([MVI]),δ=MLP([TclipVT])

其中⋅ \cdot表示连接。最终输出包含自适应残差连接:
M o u t = M + γ ⊗ V I , T o u t = T c l i p + δ ⊗ V T M_{out} = M + \gamma \otimes V_I, T_{out} = T_{clip} + \delta \otimes V_TMout=M+γVI,Tout=Tclip+δVT

其中⊗ \otimes表示元素乘法。此设计实现了自适应跨模态增强,同时保留了原始特征表示。

文本调制采样为增强具有语义指导的空间特征采样,我们引入了文本调制采样机制。给定查询特征Q ∈ R B × N × D Q \in \mathbb{R}^{B \times N \times D}QRB×N×D和文本特征T t e x t ∈ R B × N × D T_{text} \in \mathbb{R}^{B \times N \times D}TtextRB×N×D,该模块首先生成基础采样偏移:
Δ b a s e = Linear ( Q ) \Delta_{base} = \text{Linear}(Q)Δbase=Linear(Q)

其中Δ b a s e ∈ R B × N × 2 K \Delta_{base} \in \mathbb{R}^{B \times N \times 2K}ΔbaseRB×N×2K表示具有2D偏移的K KK个采样点。

同时,通过跨模态注意力计算文本引导的调制权重:
A = Softmax ( Q ⋅ T t e x t T / D ) A = \text{Softmax}(Q \cdot T^T_{text} / \sqrt{D})A=Softmax(QTtextT/D)
W m o d = MLP ( A ) ∈ R B × N × 2 K W_{mod} = \text{MLP}(A) \in \mathbb{R}^{B \times N \times 2K}Wmod=MLP(A)RB×N×2K

其中A ∈ R B × N × C A \in \mathbb{R}^{B \times N \times C}ARB×N×C表示查询和文本特征之间的注意力分数,MLP将注意力加权特征从维度C CC映射到2 K 2K2K以匹配偏移维度:MLP : R B × N × C → R B × N × 2 K \text{MLP}: \mathbb{R}^{B \times N \times C} \to \mathbb{R}^{B \times N \times 2K}MLP:RB×N×CRB×N×2K

文本调制偏移通过结合基础偏移和调制获得:
Δ u p d a t e d = Δ b a s e ⊕ W m o d \Delta_{updated} = \Delta_{base} \oplus W_{mod}Δupdated=ΔbaseWmod

其中⊕ \oplus表示元素加法。这些更新的偏移指导采样过程:
F s a m p l e d = Linear ( Sample ( F r e f , p r e f + Δ u p d a t e d ) ) F_{sampled} = \text{Linear}(\text{Sample}(F_{ref}, p_{ref} + \Delta_{updated}))Fsampled=Linear(Sample(Fref,pref+Δupdated))

其中F r e f F_{ref}Fref表示参考特征,p r e f = ( x , y ) p_{ref} = (x, y)pref=(x,y)是参考点,Sample ( ⋅ ) \text{Sample}(\cdot)Sample()在偏移位置执行双线性插值。这种文本调制采样实现了语义感知的空间注意力,改进了在物体边界和语义区域的特征提取。

双动量对比对齐为解决训练过程中负样本受内存限制的问题,我们采用MoCo(He et al. 2019)范式进行区域-文本对比学习。维护两个动量更新的特征队列:
Q r e g i o n ∈ R K × D p r o j , Q t e x t ∈ R K × D p r o j Q_{region} \in \mathbb{R}^{K \times D_{proj}}, Q_{text} \in \mathbb{R}^{K \times D_{proj}}QregionRK×Dproj,QtextRK×Dproj

其中K KK是队列大小,D p r o j D_{proj}Dproj是投影维度。

通过IoU阈值τ I o U \tau_{IoU}τIoU选择正区域提案:
P p o s = { p i ∣ IoU ( p i , g j ) ≥ τ I o U , ∃ g j ∈ G g t } P_{pos} = \{p_i | \text{IoU}(p_i, g_j) \geq \tau_{IoU}, \exists g_j \in G_{gt}\}Ppos={piIoU(pi,gj)τIoU,gjGgt}

区域特征通过RoI提取和投影进行编码:
r q = f θ ( RoIExtractor ( F o u t , P p o s ) ) r_q = f_\theta(\text{RoIExtractor}(F_{out}, P_{pos}))rq=fθ(RoIExtractor(Fout,Ppos))
r k = f θ m ( RoIExtractor ( F o u t , P p o s ) ) r_k = f_{\theta_m}(\text{RoIExtractor}(F_{out}, P_{pos}))rk=fθm(RoIExtractor(Fout,Ppos))

其中f θ f_\thetafθ是可训练的投影网络,f θ m f_{\theta_m}fθm是其通过EMA更新的动量版本:
θ m ← m ⋅ θ m + ( 1 − m ) ⋅ θ \theta_m \leftarrow m \cdot \theta_m + (1 - m) \cdot \thetaθmmθm+(1m)θ

使用多正例InfoNCE损失进行图像到文本和文本到图像对齐:
L i 2 t = − 1 N r ∑ i = 1 N r log ⁡ ∑ j ∈ P i + exp ⁡ ( s i j / τ ) ∑ j = 1 N t + K exp ⁡ ( s i j / τ ) L_{i2t} = -\frac{1}{N_r} \sum_{i=1}^{N_r} \log \frac{\sum_{j \in P^+_i} \exp(s_{ij}/\tau)}{\sum_{j=1}^{N_t + K} \exp(s_{ij}/\tau)}Li2t=Nr1i=1Nrlogj=1Nt+Kexp(sij/τ)jPi+exp(sij/τ)
L t 2 i = − 1 N t ∑ j = 1 N t log ⁡ ∑ i ∈ P j + exp ⁡ ( s j i / τ ) ∑ i = 1 N r + K exp ⁡ ( s j i / τ ) L_{t2i} = -\frac{1}{N_t} \sum_{j=1}^{N_t} \log \frac{\sum_{i \in P^+_j} \exp(s_{ji}/\tau)}{\sum_{i=1}^{N_r + K} \exp(s_{ji}/\tau)}Lt2i=Nt1j=1Ntlogi=1Nr+Kexp(sji/τ)iPj+exp(sji/τ)

其中s i j = ⟨ r q , i , t k , j ⟩ ⋅ exp ⁡ ( α ) s_{ij} = \langle r_{q,i}, t_{k,j} \rangle \cdot \exp(\alpha)sij=rq,i,tk,jexp(α)表示第i ii个区域特征和第j jj个文本特征之间的相似性,α \alphaα是可学习的温度参数,τ \tauτ是固定的温度超参数,N r N_rNr是当前批次中的区域特征数量,N t N_tNt是当前批次中的文本特征数量,K KK是动量队列大小,P i + P^+_iPi+是第i ii个区域的正文本索引集,P j + P^+_jPj+是第j jj个文本的正区域索引集。总对比损失:
L c o n t r a s t = λ i 2 t L i 2 t + λ t 2 i L t 2 i L_{contrast} = \lambda_{i2t} L_{i2t} + \lambda_{t2i} L_{t2i}Lcontrast=λi2tLi2t+λt2iLt2i

其中λ i 2 t \lambda_{i2t}λi2tλ t 2 i \lambda_{t2i}λt2i是损失权重。完整细节见算法2。

定理1(EMA为动量分支保留前期性能)。设{ θ t } t ≥ 0 ⊂ R p \{\theta_t\}_{t \geq 0} \subset \mathbb{R}^p{θt}t0Rp为第2阶段训练期间的在线分支参数,动量(EMA)分支通过θ m , t ← m θ m , t − 1 + ( 1 − m ) θ t \theta_{m,t} \leftarrow m\theta_{m,t-1} + (1 - m)\theta_tθm,tmθm,t1+(1m)θtθ m , 0 = θ 0 \theta_{m,0} = \theta_0θm,0=θ0更新,其中m ∈ ( 0 , 1 ] m \in (0, 1]m(0,1]。表示用于生成区域/文本嵌入的投影网络为f θ f_\thetafθ(在线)和f θ m f_{\theta_m}fθm(动量),多正例InfoNCE损失为L c o n t r a s t ( θ ) L_{contrast}(\theta)Lcontrast(θ)(相似性s i j = ⟨ r i ( θ ) , t j ( θ ) ⟩ s_{ij} = \langle r_i(\theta), t_j(\theta) \ranglesij=ri(θ),tj(θ)⟩和温度τ > 0 \tau > 0τ>0)。这里,我们假设:
(A1)(有界单步运动)∥ θ t − θ t − 1 ∥ ≤ δ t \|\theta_t - \theta_{t-1}\| \leq \delta_tθtθt1δt对所有t ≥ 1 t \geq 1t1成立,并写Δ t : = max ⁡ 1 ≤ j ≤ t δ j \Delta_t := \max_{1 \leq j \leq t} \delta_jΔt:=max1jtδj
(A2)(参数到特征Lipschitz)对于任何RoI/文本输入,存在K r , K t > 0 K_r, K_t > 0Kr,Kt>0使得∥ r i ( θ ) − r i ( θ ′ ) ∥ ≤ K r ∥ θ − θ ′ ∥ \|r_i(\theta) - r_i(\theta')\| \leq K_r \|\theta - \theta'\|ri(θ)ri(θ)Krθθ∥ t j ( θ ) − t j ( θ ′ ) ∥ ≤ K t ∥ θ − θ ′ ∥ \|t_j(\theta) - t_j(\theta')\| \leq K_t \|\theta - \theta'\|tj(θ)tj(θ)Ktθθ对包含{ θ s , θ m , s } s ≤ t \{\theta_s, \theta_{m,s}\}_{s \leq t}{θs,θm,s}st的凸集中的所有θ , θ ′ \theta, \theta'θ,θ成立。
(A3)(Logit/损失Lipschitz)具有余弦(或归一化)相似性s i j = ⟨ r i , t j ⟩ s_{ij} = \langle r_i, t_j \ranglesij=ri,tj和温度τ \tauτ,InfoNCE每例损失关于logit向量是ρ \rhoρ-Lipschitz,其中ρ ≤ 1 / τ \rho \leq 1/\tauρ1/τ

那么,对每个t ≥ 1 t \geq 1t1,动量-在线参数滞后满足
∥ θ t − θ m , t ∥ ≤ 1 − m m Δ t \|\theta_t - \theta_{m,t}\| \leq \frac{1 - m}{m} \Delta_tθtθm,tm1mΔt

并满足以下界限:函数一致性
E [ ∥ f θ t ( x ) − f θ m , t ( x ) ∥ ] ≤ ( K r + K t ) 1 − m m Δ t \mathbb{E}[\|f_{\theta_t}(x) - f_{\theta_{m,t}}(x)\|] \leq (K_r + K_t) \frac{1 - m}{m} \Delta_tE[fθt(x)fθm,t(x)](Kr+Kt)m1mΔt

损失保留
∣ L c o n t r a s t ( θ t ) − L c o n t r a s t ( θ m , t ) ∣ ≤ ρ ( K r + K t ) 1 − m m Δ t |L_{contrast}(\theta_t) - L_{contrast}(\theta_{m,t})| \leq \rho(K_r + K_t) \frac{1 - m}{m} \Delta_tLcontrast(θt)Lcontrast(θm,t)ρ(Kr+Kt)m1mΔt

特别地,在任何时间t tt部署EMA/动量参数θ m , t \theta_{m,t}θm,t,只要1 − m m Δ t ≤ ε ρ ( K r + K t ) \frac{1-m}{m} \Delta_t \leq \frac{\varepsilon}{\rho(K_r + K_t)}m1mΔtρ(Kr+Kt)ε,就能保证对参考分布的ε \varepsilonε-容差。

两阶段训练策略

第一阶段-多模态鲁棒性训练:使用RGBT数据集,我们通过可见光-热红外融合增强模型在极端环境中的鲁棒性。此阶段仅使用单个查询头,没有任何辅助头。损失函数定义为:
L s t a g e 1 = L d e t ( X v i s , X i r ) L_{stage1} = L_{det}(X_{vis}, X_{ir})Lstage1=Ldet(Xvis,Xir)

其中L d e t L_{det}Ldet是检测损失,包括分类损失L c l s L_{cls}Lcls和回归损失L r e g L_{reg}Lreg

第二阶段-开放词汇训练:在COCO数据集上训练,我们结合CLIP语义特征和动量对比学习。受CoDETR(Zong, Song, and Liu 2023)启发,我们引入多个辅助头以增强编码器和解码器的训练效率。损失函数定义为:
L s t a g e 2 = L d e t + λ c L c o n t r a s t + λ a u x L a u x L_{stage2} = L_{det} + \lambda_c L_{contrast} + \lambda_{aux} L_{aux}Lstage2=Ldet+λcLcontrast+λauxLaux
L a u x = ∑ i = 1 K L e n c i + λ 1 ∑ i = 1 K ∑ l = 1 L L d e c , l i L_{aux} = \sum_{i=1}^K L^i_{enc} + \lambda_1 \sum_{i=1}^K \sum_{l=1}^L L^i_{dec,l}Laux=i=1KLenci+λ1i=1Kl=1LLdec,li

其中L d e t L_{det}Ldet是基于匈牙利匹配的检测损失,包括分类和回归损失,L c o n t r a s t L_{contrast}Lcontrast是用于开放词汇学习的对比损失,使用CLIP语义,L e n c i L^i_{enc}Lenci是第i ii个头的编码器辅助损失(例如ATSS或Faster R-CNN损失),L d e c , l i L^i_{dec,l}Ldec,li是第i ii个头在第l ll层的解码器辅助损失,K KK是辅助头数量,L LL是解码器层数,λ c \lambda_cλcL c o n t r a s t L_{contrast}Lcontrast的权重,λ a u x \lambda_{aux}λauxL a u x L_{aux}Laux的权重,λ 1 \lambda_1λ1是解码器辅助损失的权重。

为防止持续学习中可能出现的灾难性遗忘,我们引入指数移动平均(EMA)(Karras et al. 2023; Lee et al. 2024; Li et al. 2024)。直观上,EMA维护一个动量分支,平滑参数更新,使其接近在线分支,同时保留第一阶段的鲁棒性。这有助于确保跨阶段的函数一致性和损失稳定性。

实验

数据集和评估指标

训练过程分为两个阶段,使用以下数据集:FLIR数据集(Systems 2018)。该数据集提供热红外图像,这种模态以其对挑战性条件(如极端照明(例如强光、黑暗)和噪声污染)的高鲁棒性而闻名。它们在第一训练阶段使用,通过利用红外光谱的不变特性来增强检测器的鲁棒性和泛化能力。随后,在第二训练阶段,我们在两个标准开放词汇检测基准上评估我们的方法,这些基准分别从LVIS(Gupta, Dollar, and Girshick 2019)和COCO(Lin et al. 2014)修改而来。LVIS(Gupta, Dollar, and Girshick 2019)包含100K张图像,有1,203个类别。这些类别根据训练图像数量分为三组,即频繁、常见和稀有。按照ViLD(Gu et al. 2021b),我们将337个稀有类别视为新类别,仅使用频繁和常见类别进行训练。COCO数据集是目标检测的广泛使用的基准,包含80个类别。按照OVR-CNN(Zareian et al. 2021),我们将COCO中的类别分为48个基础类别和17个新类别,同时移除15个在WordNet层次结构中没有同义集的类别。训练集与完整COCO相同,但仅使用至少包含一个基础类别的图像。

对于FLIR(Systems 2018)数据集,我们报告AP50 _{50}50——基础类别在IoU阈值为0.5时的平均精度(mAP)——作为主要指标。对于COCO(Lin et al. 2014),我们报告AP50 _{50}50novel——新类别在IoU阈值为0.5时的平均精度(mAP)——作为主要指标。此外,我们提供基础类别(AP50 _{50}50base)的性能和所有类别(AP50 _{50}50)的整体性能。对于LVIS(Gupta, Dollar, and Girshick 2019),我们报告APr _rr、APc _cc和APf _ff——分别表示稀有、常见和频繁类别的mAP——以及使用标准基于框的mAP计算的整体AP。

实现细节

我们的模型基于Deformable-DETR(Zhu et al. 2020)架构,从预训练的ResNet-50骨干网络初始化。第一阶段训练使用FLIR数据集(Systems 2018),第二阶段在COCO(Lin et al. 2014)和LVIS(Gupta, Dollar, and Girshick 2019)数据集上执行。第一阶段和第二阶段训练均使用36个epoch。我们使用AdamW优化器,初始学习率为5 × 1 0 − 5 5 \times 10^{-5}5×105,权重衰减为1 × 1 0 − 4 1 \times 10^{-4}1×104,对骨干网络应用逐层学习率衰减,乘数为0.1。在36个epoch的训练计划中,学习率在第12和24个epoch时减少10倍。按照MoCo(He et al. 2019),我们设置K = 65536 K = 65536K=65536τ I o U = 0.3 \tau_{IoU} = 0.3τIoU=0.3。所有输入图像调整为640 × 640 640 \times 640640×640像素,每GPU批大小为4,并应用梯度裁剪,最大范数为0.1。按照Co-DTER(Zong, Song, and Liu 2023),模型包含多个检测头,包括RPN、基于查询的和ROI头,总共有6个编码器层和8个解码器层,损失加权因子λ 2 \lambda_2λ2设置为2.0。

我们设置λ c = 0.01 \lambda_c = 0.01λc=0.01λ a u x = 0.1 \lambda_{aux} = 0.1λaux=0.1λ 1 = 1 \lambda_1 = 1λ1=1。温度τ \tauτ设置为0.07。我们在8×NVIDIA A100 GPU上训练和评估我们的模型。

主要结果

如表1、2、3所示。尽管C3-OWD在FLIR数据集上未达到绝对最佳水平(略低于MMFN的81.8),但它在开放词汇检测任务(OV-COCO和OV-LVIS)上显著优于所有现有方法,特别在OV-COCO上达到了显著的48.6 AP50 _{50}50novel——超越了CLIPSelf之前的最佳结果44.3。更重要的是,C3-OWD是在多模态鲁棒性和开放词汇检测任务上都表现出领先性能的方法,突显了其卓越的通用性和跨任务适应性。这表明我们提出的课程跨模态对比学习框架不仅增强了在极端环境中的鲁棒性,还有效地转移到开放词汇场景,实现了更广泛的应用性。

消融研究

表4展示了C3-OWD关键组件的消融结果。完整模型(编号0)在OV-COCO和OV-LVIS数据集上均取得最佳性能。移除编码器融合模块(编号1)导致性能显著下降(AP50 _{50}50novel下降6.5,APr _rr下降4.5),证明了分层特征融合对开放词汇检测的关键作用。使用静态查询选择(编号2)而不是可变形注意力也导致相当大的性能下降,验证了动态查询优化的有效性。缺乏文本交叉注意力(编号3)导致最显著的性能下降,表明视觉-语言交互是跨模态对齐的核心。移除MoCo对比学习(编号4)对性能伤害最大,突显了动量对比在解决正负样本不平衡方面的关键重要性。最后,使用单队列而不是双队列MoCo(编号5)也降低了性能,证明区域-文本双队列设计有效防止了模态间干扰。所有消融结果一致表明C3-OWD中的每个组件对最终性能都有重要贡献。

如表5所示,我们进行了彻底的消融研究,以验证C3-OWD中两阶段课程设计的必要性。结果清楚地表明,第一阶段的多模态训练和第二阶段的权重继承对实现最佳性能都至关重要。在第一阶段仅使用单一模态(RGB或IR)导致鲁棒性明显下降,如FLIR AP50 _{50}50降低所示(配置A和B与完整模型对比)。这种性能下降传播到第二阶段的开放词汇检测任务,强调了跨模态互补学习对获取泛化表示的重要性。使用随机权重而不是从第一阶段预训练的权重初始化第二阶段,导致OV-COCO和OV-LVIS上性能大幅崩溃(配置C与完整模型对比),即使先前使用了完整的RGB-IR模态。这表明在第一阶段学习的鲁棒特征是后续语义对齐和对比学习的关键基础。当两个组件都被消融时(配置D和E),观察到最差的性能,强化了所提出的课程学习管道是整体的,两个阶段都不可或缺。

可视化

我们与传统方法进行了比较分析,如图4所示。传统的RGBT检测器(例如ICAFusion(Shen et al. 2024a)、MFPT(Zhu et al. 2023)等)受限于其封闭集性质,限制了它们在具有众多物体类别的开放世界场景中的泛化能力。另一方面,传统的开放词汇目标检测(OVOD)方法(例如ViLD(Gu et al. 2021a)、CORA(Wu et al. 2023b)等)仅依赖RGB模态,缺乏互补的红外信息,导致在遮挡和阴影覆盖等挑战性条件下性能下降。相比之下,我们提出的检测器有效集成了多模态输入与开放词汇识别,在各种复杂环境中展示了卓越的泛化能力。此外,RGB和热红外模态之间的比较揭示,虽然所有模型在红外成像下表现良好,但传统OVOD检测器在低光或过曝光条件下在RGB下表现显著下降,进一步突显了我们模型增强的适应性和通用性。

失败案例

尽管整体性能强劲,C3-OWD偶尔在挑战性场景中失败。如图3.(a)所示,没有内部热源的密集物体,如帽子、桌子和椅子,显著影响了检测精度,而我们当前的模型难以可靠地检测它们,突显了基于红外检测对环境热源的敏感性。在图3.(b)中,由于可见线索不足,密集交通场景中严重遮挡的车辆被遗漏,表明在严重遮挡下跨模态推理的局限性。图3.©显示了一个细粒度识别错误,其中"哈士奇"被错误分类为"狗",表明CLIP的语义先验可能无法捕获细微的类间区别。

局限性

尽管结果令人鼓舞,我们的方法存在几个需要进一步研究的局限性。计算开销。分层跨模态融合机制虽然有效,但由于双向RWKV块和迭代注意力操作,引入了额外的计算复杂性。这可能阻碍在资源受限设备(如嵌入式系统或无人机)上的实时部署。多模态数据依赖性。第一阶段严重依赖对齐的RGB-热(RGBT)数据进行鲁棒性增强。这种配对数据稀缺且收集和标注成本高昂,限制了我们方法在热成像不可用领域的可扩展性。对未见模态的泛化。尽管我们的方法改进了开放词汇检测,但其在完全未见的传感器模态(例如LiDAR、雷达)或极端域偏移下的性能尚未验证。训练复杂性。两阶段训练策略需要精心设计的课程和超参数调整,可能增加次优收敛的风险并使重现复杂化。语义粒度。虽然CLIP提供了丰富的语义先验,但其知识受到预训练概念的限制。我们的方法可能仍然难以处理CLIP训练分布中不存在的高度细粒度或特定领域的类别。我们认为这些局限性指出了有意义的未来工作方向,包括高效融合设计、自监督适应和广义多模态预训练。

未来工作

基于第节和第节中识别的失败案例和局限性,我们概述了几个有前景的未来研究方向。自监督模态对齐。减少对配对RGBT数据的依赖需要能够从未对齐或弱对齐的多模态流中学习鲁棒表示的方法。对比学习框架(Radford et al. 2021)可以在共享嵌入空间中对齐模态,而无需严格的像素级对应,提供了一条可行的前进道路。遮挡鲁棒表示学习。严重遮挡下的失败案例表明需要显式的遮挡建模。未来模型可以结合时间一致性约束(Feichtenhofer et al. 2019)或非模态完成网络(Qi et al. 2021)来推理部分可见的物体。细粒度语义增强。为克服CLIP在细粒度分类方面的局限性,未来工作可以集成特定领域的知识库(Marino, Salakhutdinov, and Gupta 2019)或利用大型语言模型(OpenAI 2023)来丰富具有详细属性描述的语义先验。广义多模态预训练。将我们的方法扩展到未见模态如LiDAR和雷达,需要开发模态无关的融合策略。在多样传感器数据上预训练的统一多模态transformers(Akbari et al. 2021)可以增强在域偏移下的泛化能力。无监督域适应。为减轻训练复杂性,未来工作应研究自监督域适应技术(Ganin et al. 2016),减少对精心设计课程和广泛超参数调整的需求。

社会影响

我们的方法为开放世界检测指出了一个有前途的方法,显著增强了安全关键应用中视觉系统的可靠性。通过利用鲁棒的多模态(RGB-热)融合,我们的框架在低照度、雾和遮挡等挑战性条件下展示了卓越的性能。这种能力对于实现全天候自动驾驶系统至关重要,确保在传统视觉失效的情况下更安全的导航。此外,它使无人机(UAVs)能够在恶劣环境中更有效地执行搜索救援和灾难监测任务。开放词汇检测的集成还允许这些系统动态识别新物体,扩展其在真实场景中的实用性,而无需昂贵的重新训练。我们相信我们的工作为更适应性强和值得信赖的AI系统铺平了道路,这些系统可以在开放世界中可靠运行,最终为交通、监控和应急响应等领域的公共安全和运营效率做出贡献。

结论

在本文中,我们介绍了一种用于开放世界检测的创新课程跨模态对比学习框架C3-OWD。所提出的两阶段训练范式解决了实现环境鲁棒性和开放世界泛化的根本挑战。我们的EMA机制为跨训练阶段的知识保留提供了理论保证,具有严格证明的有界参数滞后和函数一致性。RGBT多模态融合与基于RWKV的架构的集成,实现了从可见光和红外模态捕获互补信息的有效性,而视觉-语言对齐阶段将检测能力扩展到新类别,而不牺牲学习到的鲁棒性。大量实验验证了C3-OWD在OV-COCO、OV-LVIS和FLIR上的有效性。C3-OWD与先前最先进的方法相比取得了具有竞争力的结果。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/29 19:15:48

探索面向不利条件语义分割的天气感知聚合与适应方法

摘要 https://openaccess.thecvf.com/content/ICCV2025/papers/Pan_Exploring_Weather-aware_Aggregation_and_Adaptation_for_Semantic_Segmentation_under_Adverse_ICCV_2025_paper.pdf 不利条件下的语义分割对于在具有挑战性的天气环境中实现可靠的视觉感知至关重要。这些极…

作者头像 李华
网站建设 2025/12/30 2:25:40

Wan2.2-T2V-A14B在毕业典礼纪念视频中的虚拟校友聚合

Wan2.2-T2V-A14B:当AI让缺席的校友“回到”毕业典礼 你有没有想过,那些远在异国、因病无法到场,甚至已经白发苍苍的老校友,也能“站”在毕业典礼的钟楼下,微笑着向镜头挥手?不是靠剪辑旧照,也不…

作者头像 李华
网站建设 2025/12/13 19:08:45

企业级一款BS美食网站管理系统源码|SpringBoot+Vue+MyBatis架构+MySQL数据库【完整版】

摘要 随着互联网技术的快速发展,餐饮行业逐渐向数字化、智能化转型。传统的线下点餐模式已无法满足现代消费者对便捷性和个性化的需求,美食网站管理系统成为餐饮企业提升服务质量和运营效率的重要工具。当前市场上存在的美食网站管理系统多为单一功能模块…

作者头像 李华
网站建设 2025/12/13 0:52:55

基于SpringBoot+Vue的医院病历管理系统管理系统设计与实现【Java+MySQL+MyBatis完整源码】

摘要 随着医疗信息化的快速发展,传统纸质病历管理模式已难以满足现代医院高效、精准的医疗需求。病历管理的电子化成为提升医疗服务质量和效率的重要途径。医院病历管理系统通过数字化手段实现病历的录入、存储、查询和共享,有效解决了纸质病历易丢失、…

作者头像 李华
网站建设 2025/12/18 16:42:24

解码ERNIE-4.5-21B:210亿参数混合专家架构的技术演进与产业变革

解码ERNIE-4.5-21B:210亿参数混合专家架构的技术演进与产业变革 【免费下载链接】ERNIE-4.5-21B-A3B-PT 项目地址: https://ai.gitcode.com/hf_mirrors/baidu/ERNIE-4.5-21B-A3B-PT 在人工智能技术快速迭代的2025年,大模型部署正经历从"参数…

作者头像 李华