news 2026/6/25 12:56:12

深度学习进阶(十五)通道注意力 SE

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
深度学习进阶(十五)通道注意力 SE

也可以说的再广泛一些:大多数 CV 任务的核心就是学习找到数据里的“特征在哪”和“特征是什么”。
而位置体现在空间信息中,特征则体现在通道信息中。

我们在之前的内容里所介绍的内容,基本都是围绕前者而展开的:自注意力、窗口注意力、可变形卷积,本质上都是在让模型更灵活地聚焦空间位置。

而后者,我们却没有太系统的展开,想象这样一个问题:

卷积得到的特征图中,不同通道代表着不同的语义特征,边缘、纹理或特定颜色。但所有通道被一视同仁地传到下一层,无论这个通道当前是否真的携带了有用信息。

显然,我们又发现了新的优化空间。

于是,18 年的论文 Squeeze-and-Excitation Networks 便从这个问题出发,提出了一种轻量级的通道注意力机制,让网络能够显式地建模通道之间的依赖关系,并根据全局信息对每个通道的重要性进行重新校准。
由于其结构简单、即插即用,时至今日 SE 模块仍然是计算机视觉中最常用的注意力模块之一。

1. 通道注意力的核心思想#

续接开头,我们知道:
传统 CNN 在完成一次卷积后,输出的特征图是一个 的三维张量,其中 是通道数。这个张量会原封不动地传给下一层。

但实际情况是:在一次前向传播中,不同通道所携带的信息重要性完全不同
比如一张以猫为主体的图片,响应耳朵轮廓的通道可能比响应背景纹理的通道对分类更重要
因此,理想的做法是让网络学会:对当前任务重要的通道,给它更高的权重;不太重要的通道,适当抑制。

SE 模块的核心思想可以概括为:

通过一个轻量级的子网络,自动学习每个通道的重要性权重,然后用这个权重重新调整原始特征图。

而这个子网络的结构非常简洁,由三个操作组成:

  1. Squeeze
  2. Excitation
  3. Scale


下面我们逐一展开。

2. Squeeze:全局信息压缩#

显然,要计算权重,我们的首要目标便是:为每个通道计算一个重要性分数
但问题是,卷积层的输出是一个 的张量,每个通道本身是一个二维特征图,而一个标量的重要性分数需要从整个二维空间中提取出来。
也就是说,我们需要一种方式,把一整个二维空间的信息压缩成一个数值

SE 选择的压缩方式非常简单:全局平均池化(Global Average Pooling,GAP)
原理非常简单:对于第 个通道的特征图 ,我们计算其所有空间位置的平均值:

对所有 个通道分别做一次 GAP,我们就得到了一组标量:

这样一来,每个通道就被压缩成了一个标量值,它大致代表了该通道在整个空间上的响应强度
一个必定的道理是:压缩一定会带来信息损失。但在这里,是合理的。
因为我们现在的目的不是保留空间结构,而是为每个通道产生一个整体的重要性估计。全局均值是一个相当有效的指标。

这便是第一步。

3. Excitation:通道权重的自适应学习#

现在我们得到了每个通道的全局描述 ,下一步就是根据这个描述来生成每个通道的权重
面对这种情况,一个很直接也很常见的思路就是归一化:计算每个通道的响应在总和中的占比作为权重。
但在这里并不合适,因为通道之间存在着复杂的非线性依赖关系,不能只看响应的数值大小来建模。

某些纹理通道可能响应很强,但对分类没用;某些语义通道响应很弱,反而很关键。
此外,还有通道间可能存在依赖关系,比如 “边缘强、颜色弱,是目标 A” 这时的特征是组合体现的。
单纯的归一化显然无法建模这些情况。

要实现自适应,显然还是要靠数据驱动。
因此,SE 用一个两层的全连接网络,也就是一个 MLP 来完成这个映射,这个过程就是 Excitation:

其中:

  1. :第一层全连接,降维
  2. :ReLU 激活函数。
  3. :第二层全连接,升维
  4. :Sigmoid 激活函数,将输出压缩到 区间。

这里的 是一个降维比例(reduction ratio),是 SE 模块中唯一的超参数,通常取 16。

除去通过激活函数引入非线性外, 的设计其实也是为了控制参数量。
如果直接从 映射到 ,那参数量就是 。当 很大时,这个参数量是不可接受的。
所以设计为先降维到 再升维回来,这样参数量就变为:

当 时,参数量直接降低到原来的 。

用专业术语来说,这“两边宽,中间窄”的结构叫bottleneck(瓶颈结构),它在减少参数量的同时,其实起到在低维空间逼迫网络只保留“最重要的信息”的作用,可以提升模型对关键信息的表达能力,是现代深度网络中的核心结构之一。

自此,SE 的第二步我们也完成了。

4. Scale:权重应用#

得到了通道权重向量 后,最后一步就是把这个权重应用到原始特征图上。

这一步非常简单:逐通道的标量乘法。(工程具体实现是靠广播)
对第 个通道,将原始特征图 与对应的权重 相乘:

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/25 12:53:56

在普通CPU上跑通Vicuna大模型的实战指南

1. 项目概述:在普通笔记本上跑通Vicuna大模型的实操真相你手边那台三年前买的MacBook Pro,或者办公室里那台i516GB内存的Windows台式机,真的不能跑大语言模型吗?我去年在客户现场调试一个边缘AI客服系统时,客户指着桌上…

作者头像 李华
网站建设 2026/6/25 12:53:34

Java8 到 Java21 核心新特性详解(附实战代码)2026后端面试必备

Java8 到 Java21 核心新特性详解(附实战代码)2026后端面试必备 文章标签:#Java新特性 #Java21 #后端开发 #面试 #Java实战 阅读受众:Java后端开发者、面试刷题、进阶提升、技术复盘 阅读收获:一次性掌握 Java8、11、17…

作者头像 李华
网站建设 2026/6/25 12:53:18

早期停止聚合:贝叶斯模型选择与泛化误差控制实战

1. 项目概述:当“停下来”比“跑下去”更需要智慧在机器学习和深度学习的实战中,我们常常陷入一种“训练焦虑”:模型在训练集上的损失曲线一路向下,我们总想让它再多跑几个epoch,生怕错过任何一点性能提升的可能。然而…

作者头像 李华
网站建设 2026/6/25 12:52:07

Codex CLI 安装与环境配置完整指南

Codex CLI 安装前先确认两件事装 Codex CLI 最常见的场景,是想在终端里直接让它读项目、改代码、解释报错,而不是每次复制粘贴到网页。真正开始安装前,建议先查两件事:本机 Node.js 版本是否够新、当前网络是否能正常访问模型接口…

作者头像 李华
网站建设 2026/6/25 12:52:04

如何用免费工具快速下载哔咔漫画:打造个人离线图书馆的完整指南

如何用免费工具快速下载哔咔漫画:打造个人离线图书馆的完整指南 【免费下载链接】picacomic-downloader 哔咔漫画 picacomic pica漫画 bika漫画 PicACG 多线程下载器,带图形界面 带收藏夹,已打包exe 下载速度飞快 项目地址: https://gitcod…

作者头像 李华
网站建设 2026/6/25 12:51:15

如何高效解决Windows热键冲突:Hotkey Detective实用指南

如何高效解决Windows热键冲突:Hotkey Detective实用指南 【免费下载链接】hotkey-detective A small program for investigating stolen key combinations under Windows 7 and later. 项目地址: https://gitcode.com/gh_mirrors/ho/hotkey-detective 你是否…

作者头像 李华