TPAMI 2025 | 顶刊速递！Pixel2Pixel：基于非局部自相似性的零样本去噪，真实RGB 与显微图像均获 SOTA-育师

点击上方“小白学视觉”，选择加"星标"或“置顶” 重磅干货，第一时间送达

你有没有过这样的经历：拍了一张超有意境的夜景照，结果放大一看全是密密麻麻的噪点；显微镜下的细胞图像糊成一团，关键细节根本看不清？图像去噪，这个看似基础的任务，其实藏着不少门道。

传统去噪方法要么需要大量干净-噪声图像对当“教材”，要么在面对真实世界复杂噪声时掉链子。但今天要给大家介绍的这篇TPAMI 2025新论文，直接颠覆了我们对去噪的认知——只用单张噪声图像，就能实现超高质量去噪！它就是由Qing Ma等人提出的Pixel2Pixel，一个靠“像素自己教自己”的零样本去噪框架。

论文信息

题目：Pixel2Pixel: A Pixelwise Approach for Zero-Shot Single Image Denoising

像素对像素：一种用于零样本单图像去噪的逐像素方法

作者：Qing Ma, Junjun Jiang, Xiong Zhou, Pengwei Liang, Xianming Liu, Jiayi Ma

先聊聊：为什么去噪这么难？

在说Pixel2Pixel之前，咱们得先明白：去噪难在哪？

过去的深度学习去噪方法，要么是“监督派”——拿着海量干净图和对应噪声图当训练数据，让模型死记硬背“噪声长啥样”。但这种方法有个大问题：现实中的噪声千奇百怪（比如相机传感器噪声、低光噪声、显微镜噪声），训练数据里没见过的噪声，模型就抓瞎。

后来又出现了“自监督/零样本派”，试图摆脱对干净图的依赖。比如有些方法会从单张噪声图里扣一小块区域，用相邻像素当“伪干净样本”。但这些方法有个致命缺陷：太依赖局部相似性，没考虑真实噪声的空间相关性。

啥意思？真实世界的噪声可不是杂乱无章的，相邻像素的噪声往往“抱团”（比如相机传感器的热噪声）。如果采样的像素离得太近，噪声很可能高度相关，相当于用“带偏见的数据”训练模型，效果自然好不了。

Pixel2Pixel的核心思路：让像素“找亲戚”+“随机组队”

Pixel2Pixel之所以牛，就在于它跳出了“局部采样”的思维，用两个关键操作解决了上述问题：构建像素库和逐像素随机采样。咱们一步步来看。

第一步：给每个像素找“远房亲戚”——构建像素库

自然图像有个神奇的特性：非局部自相似性。简单说就是，图像里的图案会在不同地方重复出现（比如树叶的纹理、布料的花纹）。Pixel2Pixel就利用了这一点，给每个像素找“亲戚”。

具体怎么做呢？

拿一张噪声图，对每个像素（比如位置(i,j)的像素），先取它周围一小块区域（比如7x7的块）当“模板”；
在一个大窗口（比如40x40）里搜索和这个模板最相似的M个“远房亲戚”块（非局部的，离得远但长得像）；
把这些相似块的中心像素拎出来，组成一个“像素库”。每个像素都有自己的“亲戚库”，整个图像就形成了一个巨大的4D张量（高度x宽度x通道xM）。

看下面这张图就明白了，每个像素都能在远处找到“长得像”的同伴，这些同伴虽然带着不同噪声，但核心内容是一致的：

第二步：让亲戚们“随机组队”——生成伪训练样本

有了像素库，接下来就是“训练数据”的生成。Pixel2Pixel玩了个聪明的操作：逐像素随机采样。

简单说，就是对每个位置的像素，从它的“亲戚库”里随机挑两个不同的像素，组成一对“伪样本”（一个当输入，一个当目标）。这样一来：

生成的样本数量超级多（理论上能有M²×像素总数这么多），足够喂饱神经网络；
最重要的是，这些样本来自图像的不同位置，彻底打破了原始噪声的空间相关性（邻居变“网友”，噪声不抱团了）。

对比一下其他方法就知道多妙了：ZS-N2N只能固定从2x2小方块里采样，噪声相关性还在；而Pixel2Pixel的采样像素可能隔得很远，噪声几乎独立。看下面的噪声相关性对比，Pixel2Pixel生成的样本噪声相关性明显更低：

方法总体流程：从单张噪声图到干净图的魔法

把上面两步和网络训练串起来，就是Pixel2Pixel的完整流程，一目了然：

输入一张噪声图像；
为每个像素构建包含M个相似像素的“像素库”（利用非局部自相似性）；
从像素库中随机采样，生成海量“伪样本对”；
用这些样本训练一个轻量CNN（5层卷积，结构简单但高效）；
训练好的网络直接输出去噪结果。

整个过程不需要任何干净图像，也不需要提前知道噪声类型——管它是高斯噪声、椒盐噪声，还是相机实拍的复杂噪声，全能干掉！

实验结果：各种噪声下都碾压对手！

说再多理论不如看效果。Pixel2Pixel在各种噪声场景下的表现，只能用“惊艳”来形容。

1. 合成噪声：零均值/非零均值通吃

先看合成噪声（实验室里能控制的噪声）。不管是高斯噪声（零均值）还是椒盐噪声（非零均值），Pixel2Pixel都稳坐第一。

比如高斯噪声（σ=50，高噪声水平），对比ZS-N2N、Self2Self等方法，Pixel2Pixel去噪后的图像既干净又保留了细节，而ZS-N2N还残留大量噪声，Self2Self则过度平滑：

再看椒盐噪声（像素随机变0或1），这种非零均值噪声很棘手，但Pixel2Pixel处理得干干净净，而其他方法要么去不彻底，要么糊成一片：

2. 真实世界噪声：相机/显微镜图像大翻身

最能体现实力的还是真实场景。比如手机实拍的噪声图像（SIDD数据集），这些噪声复杂且有空间相关性，传统零样本方法表现拉垮，但Pixel2Pixel去噪后，细节清晰，色彩自然：

还有显微镜下的生物图像（FMD数据集），细胞、组织的细节对科研至关重要。Pixel2Pixel处理后，噪声没了，细胞边缘和内部结构看得清清楚楚，比其他方法强太多：

3. 关键指标：PSNR全面领先

从定量指标（PSNR，数值越高越好）来看，Pixel2Pixel在所有测试集上都霸榜：

高斯噪声（Kodak24）：比ZS-N2N高1-2dB，比Self2Self高0.5-1dB；
真实相机噪声（SIDD）：比第二名MASH高0.8dB；
显微镜噪声（FMD）：平均比其他方法高1.5dB以上。

这意味着它不仅视觉效果好，客观指标也硬气。

为什么Pixel2Pixel这么强？

总结一下它的核心优势：

零样本通用性：不用干净图，不用提前知道噪声类型，单张图就能搞定；
打破噪声相关性：非局部采样+随机配对，专治真实噪声的“抱团”问题；
利用图像自相似性：从全局找相似像素，即使局部细节被噪声破坏，也能从远处“借”信息修复；
轻量高效：5层CNN就能跑，训练快，适合实际应用。

写在最后：去噪技术的新方向

Pixel2Pixel的出现，不仅给图像去噪提供了一个新思路，更证明了“挖掘图像自身信息”的巨大潜力。对于那些难以获取干净样本的场景（比如医学成像、遥感监测、低光摄影），这种零样本方法简直是“及时雨”。

未来，或许我们手机拍的废片、显微镜下的模糊图像，都能靠这种“像素自救”技术重获新生。不得不说，让像素自己教自己去噪，这波操作太秀了！

下载1：OpenCV-Contrib扩展模块中文版教程 在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。 下载2：Python视觉实战项目52讲 在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。 下载3：人工智能0基础学习攻略手册 在「小白学视觉」公众号后台回复：攻略手册，即可获取《从 0 入门人工智能学习攻略手册》文档，包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源，可以下载离线学习。 交流群 欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~