即插即用系列 | CVPR 2025 SegMAN: Mamba与局部注意力强强联合，多尺度上下文注意力的新SOTA-育师

论文题目：SegMAN: Omni-scale Context Modeling with State Space Models and Local Attention for Semantic Segmentation
论文作者：Yunxiang Fu, Meng Lou, Yizhou Yu (The University of Hong Kong)

代码地址：https:// github.com/yunxiangfu2001/SegMAN
论文原文：https://arxiv.org/abs/2412.11890

哔哩哔哩视频讲解：https://space.bilibili.com/57394501?spm_id_from=333.337.0.0

- - 1. 核心思想
  - 2. 背景与动机
  - - 2.1 文本背景与痛点
    - 2.2 动机图解分析
  - 3. 主要创新点
  - 4. 方法细节（最重要）
  - - 4.1 整体网络架构
    - 4.2 核心创新模块详解
    - 4.3 理念与机制总结
  - 5. 即插即用模块的作用
  - 6. 实验分析
  - 7. 获取即插即用代码关注【AI即插即用】

1. 核心思想

本文提出了SegMAN，一个线性时间复杂度的语义分割模型，旨在同时解决高效全局建模、高质量局部细节保留和多尺度特征提取三大难题。其核心创新在于编码器引入了LASS（Local Attention and State Space）模块，巧妙结合了用于局部细节的滑动窗口注意力（Natten）和用于全局建模的动态状态空间模型（VMamba/SS2D）。同时，解码器设计了MMSCopE模块，利用Mamba机制在单次扫描中自适应地处理多尺度特征。实验表明，SegMAN在ADE20K、Cityscapes和COCO-Stuff上均取得了新的SOTA性能，且计算效率优于SegFormer和SegNeXt等主流模型。

2. 背景与动机

2.1 文本背景与痛点

高质量的语义分割依赖于三个关键能力：

全局上下文（Global Context）：理解整个场景布局。
局部细节（Local Detail）：精确勾勒物体边界。
多尺度特征（Multi-scale Feature）：应对物体大小的变化。

然而，现有方法往往顾此失彼：

Transformer类（如VWFormer）：虽然引入了窗口注意力，但在高分辨率下，预定义的窗口尺寸限制了全局感受野，且计算量随分辨率二次增长。
线性Attention类（如EDAFormer）：为了效率牺牲了空间分辨率（如使用空间缩减注意力SRA），导致细粒度细节丢失。
纯CNN或Mamba类：往往在动态多尺度交互上有所欠缺。

本文动机：能否设计一个网络，既拥有Mamba的线性全局建模能力，又具备局部注意力的细节捕捉能力，还能在解码阶段自适应地融合多尺度信息？

2.2 动机图解分析

看图说话（动机分析）：

左图（感受野对比）：
VWFormer/EDAFormer：可以看到它们的有效感受野（ERF）主要集中在中心区域，且覆盖范围有限（绿色区域较小），这意味着它们在高分辨率图像上难以捕捉长距离依赖。
SegMAN（最下方）：展示了覆盖全图的强响应（深绿色区域广泛），证明了其全局上下文建模能力远超对比方法。
右图（分割细节对比）：
黄色路牌案例：请注意放大图中的黄色路牌。SegFormer和VWFormer的分割结果边缘模糊，甚至丢失了路牌的主体。
SegMAN结果：SegMAN不仅完整分割出了路牌，而且边界非常清晰。这直接证明了引入局部注意力（Natten）对于保留细粒度细节的关键作用。

3. 主要创新点

LASS Token Mixer：在编码器中首创性地串联了Neighborhood Attention（Natten）和2D-Selective-Scan（SS2D），实现了局部与全局特征的互补建模。
MMSCopE 解码器模块：提出基于Mamba的多尺度上下文提取模块，通过创新的“拼接-扫描”策略，在单次SS2D扫描中同时处理多层级特征。
全尺度自适应建模：解决了固定窗口注意力在变分辨率输入下的局限性，实现了随输入分辨率自适应的全局感受野。
无损多尺度融合：在解码器中使用Pixel Unshuffle代替池化操作，避免了下采样过程中的细节信息丢失。

4. 方法细节（最重要）

4.1 整体网络架构

数据流详解：

输入 (Input)：输入图像经过重叠块嵌入（Overlapping Patch Embedding）进入网络。
编码器路径 (Encoder - Fig 3a)：
标准的四阶段金字塔结构。
每个阶段包含 Downsample 层和若干个LASS Block。
输出四个阶段的特征图，分辨率依次降低（1/4, 1/8, 1/16, 1/32）。
解码器路径 (Decoder - Fig 3c)：
特征聚合：将统一调整到的分辨率（1/8）并拼接，得到聚合特征。
核心变换：特征输入到MMSCopE模块，提取多尺度上下文，得到增强特征。
最终预测：将增强特征与原始各阶段特征再次融合，通过MLP预测分割图。

4.2 核心创新模块详解

模块 A：LASS (Local Attention and State Space) 模块

设计目的：解决单一机制无法同时兼顾效率、全局信息和局部细节的问题。
内部结构拆解：

Natten (Neighborhood Attention)：

作用：负责局部细节编码。
机制：滑动窗口注意力。每个像素只关注其邻域内的像素，保持了平移等变性，且能够精细捕捉边界信息。

SS2D (2D Selective Scan / Mamba)：

作用：负责全局上下文建模。
机制：利用Mamba的线性复杂度特性，对特征图进行四个方向的扫描。这弥补了Natten感受野受限的缺陷。

残差连接与融合：

为了防止信息流失，SS2D 旁增加了一个残差连接（通常包含卷积）。
两者串联（或并联，文中最终选择串联结构更优），使得输出特征同时具备“见树木（局部）”和“见森林（全局）”的能力。

模块 B：MMSCopE (Mamba-based Multi-Scale Context Extraction)

设计理念：传统的多尺度融合（如ASPP）计算量大或容易丢失细节。作者希望利用Mamba的长序列处理能力，一次性处理多个尺度的特征。
工作机制详解：

多尺度生成：输入特征 (1/8尺度)，通过不同步长的卷积生成 (1/16尺度) 和 (1/32尺度)。
Pixel Unshuffle (关键步骤)：

为了将不同分辨率的特征图塞进同一个Mamba序列，作者没有使用暴力下采样，而是使用了Pixel Unshuffle。
它将空间维度（H, W）折叠到通道维度（C）。例如，1/8图和1/16图经过变换后，空间分辨率对齐到1/32，但通道数增加了。
目的：无损地保留了所有尺度的空间信息。

单次扫描 (Single Scan)：

将对齐后的三个特征图在通道维度拼接。
输入进SS2D模块。由于Mamba是线性复杂度的，这种“胖”通道输入的计算开销是可控的。
SS2D 实现了跨尺度的信息交互。

恢复与融合：通过 Pixel Shuffle 恢复空间分辨率，最终输出融合了多尺度上下文的特征。

4.3 理念与机制总结

SegMAN 的成功在于它拒绝妥协：

它没有为了效率放弃全局信息（使用了Mamba）。
它没有为了全局信息放弃局部精度（使用了Natten）。
它没有为了多尺度融合引入复杂的金字塔结构，而是利用Mamba的特性，将“多尺度问题”转化为了“通道混合问题”，通过 MMSCopE 实现了极其优雅且高效的解法。

5. 即插即用模块的作用

本文提出的模块具有极高的通用性，可应用于以下场景：

LASS Block (Encoder Layer)：

适用场景：任何视觉Backbone设计，特别是需要处理高分辨率输入的任务（如目标检测、分割）。
应用：可以替换 Swin Transformer Block 或 ConvNeXt Block。相比Swin，它有更好的全局感知；相比ConvNeXt，它有动态权重调节能力。

MMSCopE (Decoder Module)：

适用场景：语义分割、全景分割的解码头（Decoder Head）。
应用：可以替换 UPerNet、SegFormer Head 或 SegNeXt 的 HamDecoder。特别适合需要以低计算成本提升多尺度感知能力的场景。

SegMAN Encoder (Backbone)：

应用：论文在补充实验中证明（Table 13），将该Encoder放入Mask DINO框架，在实例分割和全景分割任务上同样超越了ResNet和MiT骨干，证明了其强大的特征提取泛化能力。

6. 实验分析

SOTA 性能：
ADE20K：SegMAN-B 达到了52.6% mIoU，比同量级的 SegNeXt-L 高出 1.6%，且 GFLOPs 减少了 15%。
Cityscapes：在 1024x2048 的高分辨率输入下，SegMAN展现出巨大优势（得益于线性复杂度），SegMAN-B 达到83.8% mIoU。
效率分析 (Table 4)：
在推理速度（FPS）上，SegMAN-T 达到了34.9 FPS，远超 EDAFormer-T (12.7 FPS) 和 VWFormer-B0 (21.1 FPS)，证明了 Mamba 架构在实际部署中的优势。
消融实验 (Table 5)：
实验证明，单独移除 SS2D 或 Natten 都会导致性能显著下降（mIoU 下降 0.7%~1.8%），验证了“全局+局部”混合设计的必要性。

总结：SegMAN 是一篇典型的“架构设计”类优作。它敏锐地捕捉到了 Mamba 在视觉任务中的潜力，并理性地补充了 Mamba 缺失的归纳偏置（局部性），最终在分割任务上交出了一份接近完美的答卷。

到此，所有的内容就基本讲完了。如果觉得这篇文章对你有用，记得点赞、收藏并分享给你的小伙伴们哦😄。

即插即用系列 | CVPR 2025 SegMAN: Mamba与局部注意力强强联合，多尺度上下文注意力的新SOTA

目录

1. 核心思想

2. 背景与动机

2.1 文本背景与痛点

2.2 动机图解分析

3. 主要创新点

4. 方法细节（最重要）

4.1 整体网络架构

4.2 核心创新模块详解

4.3 理念与机制总结

5. 即插即用模块的作用

6. 实验分析

7. 获取即插即用代码关注【AI即插即用】

wait和notify

FastScheduler：让 Python 定时任务变得优雅简单

2026年物业管理行业发展核心趋势解析：服务升级与价值重塑

Qt国际化实战指南：使用翻译官实现多语言应用

如何做接口测试，5分钟时间看完这篇文章，你就懂了...

指令排序与内存顺序：并发编程的核心概念（deepseek）

目录

1. 核心思想

2. 背景与动机

2.1 文本背景与痛点

2.2 动机图解分析

3. 主要创新点

4. 方法细节（最重要）

4.1 整体网络架构

4.2 核心创新模块详解

4.3 理念与机制总结

5. 即插即用模块的作用

6. 实验分析

7. 获取即插即用代码关注 【AI即插即用】

wait和notify

FastScheduler：让 Python 定时任务变得优雅简单

2026年物业管理行业发展核心趋势解析：服务升级与价值重塑

Qt国际化实战指南：使用翻译官实现多语言应用

如何做接口测试，5分钟时间看完这篇文章，你就懂了...

指令排序与内存顺序：并发编程的核心概念（deepseek）

7. 获取即插即用代码关注【AI即插即用】