news 2025/12/22 20:47:13

多模态融合[27]Task-Gated Multi-Expert Collaboration Network for Degraded Multi-Modal Image Fusion

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
多模态融合[27]Task-Gated Multi-Expert Collaboration Network for Degraded Multi-Modal Image Fusion

任务门控多专家协作网络:面向退化多模态图像融合》----

来自东南大学朱鹏飞老师团队,25年ICML,一起学习一下吧:
github链接

一.摘要

多模态图像融合旨在整合来自不同模态的互补信息,以增强救援、安防等应用中的感知能力。然而,现实世界中的成像往往面临退化问题 ——例如可见光成像中的噪声、模糊和雾霾,以及红外成像中的条纹噪声 —— 这些问题会显著降低模型性能。为解决这些挑战,我们提出了一种面向退化多模态图像融合的任务门控多专家协作网络(TG-ECNet)。该模型的核心在于任务感知门控与多专家协作框架:任务感知门控分为两个阶段运行 —— 退化感知门控基于退化类型动态分配用于复原的专家组,融合感知门控引导跨模态特征整合,以平衡融合与复原任务间的信息保留。为实现这一目标,我们设计了一种两阶段训练策略,将复原与融合任务的学习统一起来。该策略解决了两个任务在信息处理中的固有冲突,实现了一体化的多模态图像复原与融合。实验结果表明,TG-ECNet 在多种复杂退化条件下显著提升了融合性能,并提高了下游应用中的鲁棒性。


点评:

看完摘要,大概明白是做退化图像融合任务的,主要创新点是任务门控的MoE,这里的任务应该是一个是退化复原,一个是融合,结合MoE去做。 那么这个思路非常像VLM、VLA领域中的"MoA"的感觉。 那么还提到了解决两个任务在信息处理的固有冲突,那就重点关注一下这一部分是怎么解决的。 总体读完摘要的感觉,大致和之前的结合下游任务的融合应该差不多, 只不过这一部分是用于退化图像,结合图像复原去做,然后用了MoE。


二.Introduction

多模态图像融合通过整合不同成像模态的互补信息(Ma 等,2019a; Zhang 等,2021; Xu 等,2022a; Liu 等,2021, 2022b),在救援、安防、监控等应用场景中发挥着关键作用(Sun 等,2022a; Liu 等,2024)。其中,可见光模态提供丰富的纹理细节,红外模态则能有效突出热目标。结合两种成像方式的优势,可合成适用于全天候作业的融合图像(Sun 等,2022b; Liu 等,2023; Zhao 等,2023b; Cao 等,2023; Liu 等,2020),进而提升复杂环境下应用的鲁棒性。

然而,真实场景中的多模态成像系统易受多种干扰因素影响而导致性能下降(Tang 等,2022b, 2023; Sun 等,2024; Tang 等,2024; Yi 等,2024)。具体而言,红外传感器中负责捕获热信息的核心部件是焦平面阵列,其不同列读出电路的偏置电压差异往往会导致红外图像中出现明暗交替的条纹噪声;可见光成像则易受噪声、模糊、雾霭等多种干扰的混合退化影响。这些退化问题严重削弱了多模态图像的视觉质量(如图 1 所示),导致融合图像性能下降,进而影响其在关键下游应用中的鲁棒性与有效性。

图1:退化多模态图像融合效果对比。针对多重退化的多模态图像,本文提出的方法在复原与融合质量上均优于当前最优方法DRMF(Tang等人,2024)和Text-IF(Yi等人,2024),尤其在高亮区域能更好地保留细节并抑制噪声。

为解决退化多模态图像融合问题,一种直接的方法是将两项任务依次级联:先对退化图像进行复原,再对复原后的多模态图像执行融合操作。但该策略存在双重局限性:一方面,退化类型的多样性要求预先存储适用于多种退化场景的大量复原模型,在应对复杂场景时成本极高(Tang 等,2022b, 2023; Sun 等,2024)另一方面,两项任务之间的固有脱节会导致性能损耗 —— 旨在恢复退化信息的复原操作可能会无意间削弱对融合有益的特征,而融合过程则可能将复原缺陷传递到最终结果中。当前主流方法(如 DRMF(Tang 等,2024)和 Text-IF(Yi 等,2024))尝试通过扩散模型或文本引导机制将复原与融合整合到统一框架中,以解决上述局限性。然而,如图 1 所示,这些方法在处理复杂多退化场景时能力不足,融合效果欠佳,难以适用于存在复杂退化的真实应用环境。

在本研究中,我们提出任务门控多专家协作网络(TG-ECNet),将退化多模态图像的复原与融合纳入同一框架。具体而言,我们为退化处理阶段和融合阶段分别设计了任务感知门控模块:其中,退化感知门控通过自适应学习退化类型(如噪声、模糊、雾霭、条纹噪声等),利用一组专家模块选择最优处理路径,确保基于输入特征的稳健复原;同时,融合感知门控通过多专家协作,选择性聚合多模态特征,筛选最具价值的互补信息以实现高质量融合。TG-ECNet 采用两阶段训练策略衔接图像复原与融合任务,确保对复原目标和融合目标的均衡优化。该两阶段策略通过解耦学习过程,最大限度减少任务间的干扰,最终实现一体化的多模态图像复原与融合。这种统一框架不仅提升了融合质量,还增强了模型在各类复杂退化场景下对下游应用的适应性。此外,我们还构建了一个大规模退化图像复原与融合基准数据集 DeMMI-RF。本文的主要贡献如下:

  1. 提出退化多模态图像复原与融合的统一框架,通过两阶段训练策略衔接不同任务,在学习任务间关联信息的同时避免相互干扰,实现一体化处理;
  2. 设计任务感知门控与多专家协作模块:退化感知门控适配不同退化类型,为图像复原选择最优专家组;融合感知门控动态平衡融合与复原任务的信息保留,以获得更优的融合性能;
  3. 构建大规模退化多模态图像融合基准数据集 DeMMI-RF,包含超过 30,000 组不同退化类型的多模态数据,涵盖无人机和驾驶视角场景。多数据集上的实验结果验证了该模型在复杂退化场景下的卓越性能及对下游应用的鲁棒性。

点评:讲出了大概的网络框架,但是最大的问题在于,没有提到是如何解决摘要中提到的“解决两个任务在信息处理的固有冲突”。他把退化和融合分成两阶段的,但是实际上还是会存在多任务优化的固有冲突,举例说明,你恢复退化图像任务性能做到最好的,不一定是综合对融合表现最优的,退化和融合还是存在平衡的问题,这个固有冲突并没有解决。 所以这篇文章更多的其实是,提供了更优的 “冲突缓解方案”,但并未从根本上 “消除” 多任务固有冲突,其本质仍是在 “平衡” 而非 “解决” 冲突。


三. Related Work

3.1 多模态图像融合
多模态图像融合通过整合不同模态(如可见光、红外)的互补信息,生成更丰富的特征表征(Ma 等,2019a; Liu 等,2024)。深度学习推动了该领域的发展,卷积神经网络(CNNs)(Zhang 等,2020; Wang 等,2022a; Sun 等,2022b; Xu 等,2022b)和生成对抗网络(GANs)(Liu 等,2022a; Ma 等,2019b)能够直接从数据中学习融合规则。近年来的创新方法(如注意力机制和基于 Transformer 的架构(Tang 等,2022c; Wang 等,2022b))通过建模长距离依赖关系和模态特异性特征,进一步提升了融合性能。诸如 MGDN(Guan 等,2023)等框架更是将融合任务中的子任务整合到统一体系中。然而,现有大多数深度学习方法仅聚焦于融合过程本身,却忽略了真实场景中普遍存在的噪声、模糊、雾霭等退化问题 —— 这一局限性显著降低了它们在实际应用中的鲁棒性和适用性。


3.2 退化图像复原
退化图像复原的目标是从退化输入中恢复高质量图像,解决噪声、模糊、雾霭等问题。传统方法(Xia 等,2023)多针对单一类型退化,但真实场景中的退化往往是多种类型交织存在的。一体化图像复原旨在通过统一模型处理多种退化类型。近年来的研究进展借助特定任务学习(Zamir 等,2022)或退化感知机制(Li 等,2022; Potlapalli 等,2023; Cui 等,2025),实现了对不同退化类型的动态适配,无需预先获取退化相关先验知识。但现有大多数方法仍局限于单模态图像,或需将复原与融合任务分开处理,无法有效应对多模态数据。尽管近期部分研究(Tang 等,2024; Li 等,2024a)尝试解决多模态融合中的质量问题(如低光照、雾霭、噪声),但仍受限于特定退化类型;部分方法(如 Text-IF(Yi 等,2024)和 Text-DiFuse(Zhang 等,2024))采用文本引导的复原方式,却需要预先掌握退化信息;另有部分方法(如 AWFusion(Li 等,2024b))仅适用于与天气相关的场景;而(Tang 等,2025)等方法则存在架构复杂、数据集规模有限等问题,难以实现最优性能。相比之下,本文提出的 TG-ECNet 构建了统一框架,将复原与融合任务联合优化,确保在真实场景中实现稳健且高质量的融合效果。

四.Method

3.1 整体架构

本研究提出任务门控多专家协作网络(TG-ECNet),通过一体化方法解决多模态图像融合中的图像质量退化问题。该框架包含三部分核心组件:用于特征提取与图像解码的 U 型 Transformer(Zamir 等,2022)、用于一体化图像复原的退化感知门控多专家协作模块,以及用于自适应图像融合的融合感知门控多模态协作模块。此外,模型采用两阶段训练策略,以平衡复原与融合任务的学习过程。

TG-ECNet 的架构如图 2 所示:

图2:TG-ECNet网络架构示意图。TG-ECNet包含U形Transformer主干、退化感知门控模块、融合感知门控模块以及相应的多专家协同框架。

将一对退化红外图像和退化可见光图像输入至补丁嵌入(patch embedding)和退化感知门控模块中提取特征随后将这些特征送入退化感知编码器与图像复原解码器,得到复原后的红外图像II​和可见光图像IV​(编码器与解码器的结构遵循 Zamir 等(2022)的设计,需说明的是,红外模态与可见光模态分支共享编码器和解码器权重);在第二阶段,解码器输出的特征FI​(红外特征)和FV​(可见光特征)同时送入融合分支,最终得到融合图像IF​

3.2 任务感知门控与多专家协作模块

如图 3 所示,

图3:任务感知门控与多专家协同机制。

任务感知门控与多专家协作模块是 TG-ECNet 的核心组件,整合了两种关键机制以实现自适应复原与融合。第一种机制是退化感知门控,部署于 U 型 Transformer 编码器中,用于动态识别输入图像中的退化类型(如可见光图像中的噪声、模糊、雾霭,以及红外图像中的条纹噪声);基于识别到的退化类型,该模块生成任务特异性提示(task-specific prompts),引导模型选择适配的处理路径,从而实现针对不同退化类型的自适应图像复原。第二种机制是融合感知门控,应用于图像融合阶段,核心是选择性聚合多模态特征(如可见光与红外特征);该模块基于各模态的相关性与互补性对其贡献度进行加权,确保整合最具信息价值的特征,最终输出高质量融合结果—— 这一机制保障了特征的有效整合,使多模态融合既稳健又能保留两种输入源的关键信息。

  1. 退化感知门控图像复原:在第一阶段训练中,TG-ECNet 针对退化图像(可见光退化图像\或红外退化图像执行复原任务。模型首先通过退化感知门控机制,根据输入图像的具体退化类型进行动态调整,确保适配最优处理策略;随后,输入图像送入退化感知编码器,该编码器采用多专家协作网络(含 Transformer 块),提取并优化与当前退化类型对应的特异性特征 —— 多专家机制通过选择最相关的专家模块学习不同图像特征,以优化复原效果。处理可见光图像时,特征提取完成后,由 Transformer 块组成的解码器生成复原可见光图像,并与干净的真实标签图像进行对比计算损失,引导模型提升复原精度;红外退化图像采用相同的复原流程,最终生成复原红外图像。

  2. 融合感知门控图像融合:在第二阶段训练中,TG-ECNet 聚焦于融合复原后的可见光与红外图像,生成高质量融合结果。本阶段的输入为前一阶段输出的复原可见光特征和复原红外特征首先引入可学习权重参数引导多模态特征融合,得到中间融合特征随后,融合感知门控机制作用于解码器,通过聚焦两种模态的关键相关特征增强融合效果—— 该门控机制能够选择性加权各模态的贡献度,确保融合结果保留两种图像的核心信息;接着,模型采用多专家协作网络整合可见光与红外特征,这种协作式融合方法确保两种模态特征的有效整合,保留双方关键细节;最终通过特征融合得到融合图像,并与干净的真实融合标签图像对比计算损失,以优化模型的融合能力,确保融合结果兼具两种输入模态的最优特征。

3.3 训练策略与损失函数

为平衡复原与融合任务,最小化优化过程中的相互干扰,模型采用两阶段训练策略,并结合多种损失函数进行训练:

  1. 第一阶段(侧重复原训练)首先训练网络处理单一模态的退化问题,采用适配特定复原任务(如去噪、去模糊)的损失函数。本阶段的复原损失通过对比复原图像)与对应干净真实标签图像计算得出;此外,引入梯度损失和负载损失(损失函数形式遵循 Cao 等(2023)的设计),第一阶段总损失如下:

  1. 第二阶段(侧重融合训练)复原任务训练完成后,对网络进行融合任务微调。本阶段的融合损失通过对比融合图像与干净真实融合标签图像计算得出,损失函数包含像素损失、梯度损失和融合负载损失(形式遵循 Cao 等(2023)的设计),第二阶段损失如下:

网络的最终总损失为第一阶段复原损失与第二阶段融合损失之和,通过解耦学习过程,确保复原与融合任务互不干扰,最终实现一体化的图像复原与融合。


评价:

“退化感知门控 + 融合感知门控 + 多专家协作” 的统一框架,MoE设计的比较不错,但根本上来说,还是一个复原任务和融合任务的一个平衡,本质上和现有的基于下游任务的融合没有区别,包装的比较好。

五.实验

4.1 实验设置

实现细节。 本文所有实验均在 6 块 NVIDIA GeForce RTX 4090 GPU 上进行,模型使用 PyTorch 1.12.0 框架实现。在训练阶段,我们使用 Adam 优化器优化网络,初始学习率设为 1.0×10⁻⁴,并采用余弦退火策略进行调整。此外,我们将图像随机裁剪为 128 × 128 像素大小进行训练。在每个小批次中,通过水平或垂直翻转图像进行数据增强,以扩充训练样本量。我们在自建数据集和 EMS 数据集(Yi 等人,2024)上进行了实验。我们在 6 种退化设置下训练了一个单一模型。第一阶段的训练过程持续了 30 个周期,模型随后直接在多个复原任务上进行测试。第二阶段的训练过程持续了 30 个周期,模型随后直接在多个复原与融合任务上进行测试。实验中,专家数量 N 和所选专家数量 K 根据经验启发式地分别设置为 11 和 6。相关分析见附录 A.3。

自建数据集详情。 现有的红外-可见光图像数据集很少考虑复杂的退化场景,并且没有与低空无人机感知场景相关的多模态退化数据集。因此,我们构建了一个多模态多退化图像数据集 DeMMI-RF,涵盖了城市街景视角和低空无人机视角。我们的 DeMMI-RF 数据集包含 6 种退化类型:高/中/低级别的高斯噪声、雾霾、散焦模糊和条纹噪声。数据集的典型案例展示在图 4 中,包括了地面和无人机两种场景。DeMMI-RF 拥有 26631 个训练数据对和 9895 个测试数据对,为退化图像融合提供了一个有力的基准。

对比方法。 为了全面评估我们提出框架的性能,我们在三个典型的图像复原任务上进行了实验:图像去雾、去噪和去模糊。我们将我们的方法与三个先进的联合处理图像复原与融合的模型进行了比较:AWFusion(Li 等人,2024b)、DRMF(Tang 等人,2024)和 Text-IF(Yi 等人,2024)。这些比较旨在评估我们的模型在处理多种退化类型时的泛化能力。此外,我们选择了六个图像融合模型(DenseFuse(Li & Wu, 2018)、SwinFuse(Wang 等人,2022b)、CDDFuse(Zhao 等人,2023a)、SeAFusion(Tang 等人,2022a)、MGDN(Guan 等人,2023)和 EMMA(Zhao 等人,2024))用于进一步评估。由于这些模型缺乏固有的图像复原能力,我们首先使用一体化图像复原框架 AdaIR 模型(Cui 等人,2025)对退化图像进行预处理,以得到复原后的图像,然后将复原后的图像输入到上述融合模型中。

4.2 在 DeMMI-RF 和 EMS 数据集上的复原与融合结果

为了说明复原后图像在视觉上的差异,图 5 展示了来自我们数据集的退化可见光-红外图像经过复原和融合后的结果。

在 EMS 数据集上的更多结果见附录 A.2。与现有方法(如 DenseFuse, CDDFuse, SeAFusion, MGDN, EMMA)相比,我们的 TG-ECNet 在融合过程中更好地保留了色彩信息。像AWFusion、Text-IF 和 DRMF 这样的复原-融合一体化模型,在处理退化与融合任务时,往往优先考虑融合,从而限制了它们的复原性能。

为了定量评估不同方法在恢复原始图像质量方面的性能,我们使用了 CC、MSE、PSNR、Nabf 和 MS-SSIM 作为评估指标,如表 1 所示。各任务的定量性能见附录 A.4。定量结果证实,TG-ECNet 在去噪性能和结构保持方面始终表现优异。

含噪声的退化可见光图像。 遵循标准的图像复原协议,我们在中度、高强度和极端高斯噪声条件下评估性能。对于中度噪声(图 5 第一行),TG-ECNet 有效去除了噪声,同时保留了结构细节,在清晰度和信息保留方面优于 SeAFusion 和 EMMA。在高强度噪声下(第二行),大多数方法未能完全消除噪声,显著降低了融合质量。在极端条件下(第三行),虽然 AWFusion 和 DRMF 表现出过度模糊,CDDFuse 保留了噪声伪影,但 TG-ECNet 保持了卓越的噪声抑制和细节保留能力,实现了来自两种模态信息的最优融合。

含雾霾的退化可见光图像。 在这个实验中,我们采用了一个新颖的大气散射模型,该模型会固有地降低图像亮度和对比度。该退化模型生成的图像具有降低的亮度、较低的对比度和轻微的颜色失真,近似于真实世界的雾霾场景(见 A.1)。红外图像本身在亮度和对比度上就有限制,在融合过程中加剧了这些问题,导致基于级联的两阶段模型(如 DenseFuse, SwinFuse, CDDFuse)出现严重的颜色偏差。复原-融合一体化模型通常倾向于其中一个任务:AWFusion 去除了雾霾但改变了颜色,DRMF 优先考虑去雾而非红外融合,Text-IF 倾向于融合而以牺牲去雾为代价。相比之下,TG-ECNet 平衡了去雾和融合,保留了可见光细节和红外信息,从而获得了更清晰、更自然的结果。

含散焦模糊的退化可见光图像。 在散焦模糊场景中,我们的方法展示了有效捕获和恢复精细纹理细节的能力,且在融合过程中没有损失去模糊效果。虽然基于级联的两阶段模型提供了一定程度的复原,但由于红外图像固有的纹理清晰度较低,它们在融合阶段的性能显著受损。这种退化导致最终融合结果的去模糊效果减弱,如 SeAFusion 和 EMMA 所示,其中仍有明显的残留模糊。复原-融合一体化模型也难以完全消除模糊,尽管它们优于级联模型。然而,与 TG-ECNet 相比,它们的结果仍有不足。TG-ECNet 保持了显著更锐利、细节更丰富的融合输出,证明了其在处理散焦模糊同时保持结构细节方面的有效性。

含条纹噪声的退化红外图像。 条纹噪声是影响红外图像的一种特定退化类型,传统图像复原模型在去除此类噪声方面表现不佳。同样,复原-融合一体化模型往往倾向于优先处理复原或融合中的一项。例如,DRMF 专注于去除条纹噪声,但同时消除了大量有用的红外细节,导致融合结果不自然。相反,Text-IF 优先考虑图像融合,导致噪声去除不彻底。TG-ECNet 实现了更好的权衡,有效抑制了条纹噪声,同时保留了红外图像的精细细节,从而获得了更干净、信息更丰富的融合结果。

从这些实验设置可以明显看出,TG-ECNet 通过在不同退化类型下保持稳定的复原效果,始终优于其他方法。现有先复原后融合的级联方法通常表现不佳,导致噪声增强或关键图像信息丢失。与现有方法不同,TG-ECNet 有效平衡了这两项任务,展现出对复杂退化条件的强大适应能力,并确保了卓越的融合质量。

4.3 消融研究

在这个实验中,我们通过一系列消融研究,调查了不同组件对特定任务复原和融合性能的影响。结果总结在表 3 中,该表展示了平均噪声(σ = 15, 25, 50)和条纹噪声场景下的性能指标。

不包含任务感知门控。 第一个消融研究考察了移除任务感知门控的影响,该门控用于指导特定任务的复原过程和多模态图像融合过程。在此配置下,模型在没有任务感知门控的情况下运行,这可能导致在融合和复原阶段的特定任务引导次优。如表 3 所示,模型在 CC、MSE、PSNR 和 MS-SSIM 指标上表现稍差,因为任务提示在引导网络针对每个特定任务实现最优复原方面起着重要作用。

不包含多专家模块。 我们进行了三种没有专家模块的比较实验,即移除复原专家模块、融合专家模块,以及同时移除两者,这些模块负责专家选择和任务适应。这样做,模型就失去了为每个任务选择性选择最合适专家的能力,可能导致性能下降。结果表明,移除多专家块对性能有轻微的负面影响,PSNR 和 MS-SSIM 有所降低,这表明多专家块在引导模型为每个任务选择最有效专家方面起着关键作用。Nabf 的下降进一步支持了在微调复原和融合中专家选择的重要性。在这三种设置中,可以看出复原专家块对整体性能更为重要,而融合专家块对性能有轻微优化。

不包含两阶段训练策略。 最后,我们通过将其与单阶段网络进行比较,考察了两阶段训练策略的效果。在这个实验中,两阶段训练策略包括首先训练复原网络,然后冻结其部分参数,同时使用融合模块生成融合复原结果。这种分阶段方法确保了复原和融合任务之间更好的平衡。结果表明,两阶段训练策略在 CC、PSNR 和 MS-SSIM 方面略优于单阶段网络,证实了在融合阶段冻结某些参数有助于提高融合质量。尽管 Nabf 的差异很小,但两阶段策略被证明是实现特定任务复原和融合的更有效方法。

4.4 讨论

多退化场景一体化图像融合。 在这个实验中,我们通过组合多种退化类型进行复原和融合,将评估扩展到更复杂的场景。除了单退化任务,我们还测试了模型在混合退化任务上的性能,并将我们的复原-融合一体化模型与其他方法进行比较。实验总共涵盖了 9 种不同的退化组合,这些组合源自相同场景。我们还设置了其他 8 种场景,可在我们的 DeMMI-RF 数据集中找到。然而,表 2 中仅展示了最具挑战性的设置,其余组合见附录 A.6。如表 2 所示,

TG-ECNet 在所有方法中表现最佳。对于 Noise50 + 散焦模糊 + 雾霾 + 条纹噪声的条件,TG-ECNet 实现了更高的 PSNR、Nabf 和 MS-SSIM,表明其在复原和融合方面都具有优越性能。在图 6 的可视化结果中,

大多数方法未能消除所有退化,导致融合结果的图像质量较差。值得注意的是,Text-IF 抑制了模糊和雾霾,但无法同时去除噪声。DenseFuse 遭受了显著的可见光谱信息损失。相比之下,TG-ECNet 展示了卓越的退化抑制能力,同时有效保留了精细细节,确保了红外和可见光信息都得到了有意义的融合。

无退化场景图像融合。 为了验证实验在常规图像上的优秀融合效果,我们选择了一些无退化的数据,并直接将其与所有图像融合算法进行比较。实验结果如表 2 所示。基于我们的实验框架,我们采用两阶段评估过程来评估对比融合算法。这种方法要求在融合前,图像需通过预处理网络进行复原,引入了级联处理流程。然而,这种顺序架构不可避免地导致信息逐级衰减,性能指标定量地证明了这一点。复原-融合一体化模型未考虑这种情况,因此获得的性能相对较弱。TG-ECNet 在所有指标上都有适度的提升。

真实世界退化场景图像融合。 为了验证模型在真实数据上的有效性,我们使用真实采集的数据 AWMM(Li 等人,2024b)进行测试,定性结果如图 8 所示。

TG-ECNet 的结果有效抑制了雾霾,使图像更清晰,同时融合了红外信息,整体效果非常接近数据提供者 AWFusion 的结果。

4.5 检测与分割评估

检测评估。 我们将十个模型生成的实验结果输入 YOLOv5 模型,同时输入退化的输入图像和干净图像。数据集按 7:3 的比例划分为训练集和测试集,训练 50 个周期,图像分辨率为 640×640。检测指标如表 4 所示。我们的方法在平均精度均值(mAP)和 AP(0.5:0.95) 方面达到了最先进的性能,优于所有对比方法。这证明了我们的框架在各种退化条件下准确检测和定位物体的有效性。在这些指标上的卓越性能凸显了我们方法的鲁棒性和泛化能力。

分割评估。 我们将十个模型生成的实验结果输入 Grounded-SAM 模型(Ren 等人,2024),使用 Grounded-SAM 的预训练模型参数,并选择“汽车”作为图 7 所示图像的提示词以获得分割结果。如图 7 所示,除了 AWFusion 外,几乎所有其他方法都将交通信号灯或电动自行车错误地分割为汽车。此外,SwinFuse、AwFusion 和 DRMF 无法分割出两辆汽车。然而,我们成功地分割出了两辆汽车的清晰轮廓,并且没有将它们混在一起。


点评:实验非常丰富,涵盖复原和融合两个任务。但是核心缺陷还是存在不公平的对比,因为做图像复原+融合的网络其实就找了三个,找了六个纯做融合的,但是定性的比较就显得很不公平,因为其他不做复原任务的,在退化图像上的性能肯定是差,因为没在退化图像上训过。这就好比做分割+融合任务的网络,比指标不和同样做分割+融合的去比,而是和纯做融合、没经过分割下游训练的去比,即便你是更好的,但是可信度不足。

5. 结论

我们提出了任务门控多专家协同网络(TG-ECNet),一种用于处理退化多模态图像融合的新型框架。TG-ECNet 将图像复原与融合统一到一个端到端的单一模型中,解决了由噪声、模糊、雾霾和条纹噪声等多种退化组合带来的挑战。其核心创新在于其任务感知门控机制,该机制在编码器中集成了退化感知门控,在解码器中集成了融合感知门控,从而能够适应多样化的退化类型。多专家协同框架与两阶段训练策略共同确保了任务的均衡优化。在多个基准数据集上的实验表明,TG-ECNet 性能优于现有先进方法,显著提升了在复杂挑战性环境下的图像融合质量与系统鲁棒性。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/14 18:18:39

音频录制和编辑软件

链接:https://pan.quark.cn/s/ead22a2177a3Reaper软件是一款非常强大的音频处理的工具,能够处理和制作多种音频的内容,让音频能够满足用户个人的需求,从软件上面来处理你所需要的音频,并且这款软件还是完全的免费的&am…

作者头像 李华
网站建设 2025/12/22 17:22:46

Quick CPU(CPU性能优化软件)

链接:https://pan.quark.cn/s/bd60bc94b310Quick CPU是一款功能强大的CPU监控软件,能够帮助用户随时监测CPU的运行情况,为CPU的优化提供了帮助。软件提供了Core Parking、频率缩放、Turbo Boost、C状态/变速等调整功能,满足用户的…

作者头像 李华
网站建设 2025/12/14 18:07:09

基于SpringBoot的在线拍卖系统(11480)

有需要的同学,源代码和配套文档领取,加文章最下方的名片哦 一、项目演示 项目演示视频 二、资料介绍 完整源代码(前后端源代码SQL脚本)配套文档(LWPPT开题报告)远程调试控屏包运行 三、技术介绍 Java…

作者头像 李华
网站建设 2025/12/19 11:29:13

Flutter游戏开发与图形渲染实战

🔗 实战项目:openharmonycrossplatform.csdn.net/content 📖 目录 🎮 游戏引擎基础 🎨 图形渲染 ⚡ 物理引擎 📱 触摸交互 🎮 一、游戏引擎基础 1.1 游戏循环实现 dart // lib/game/gam…

作者头像 李华