点击上方“小白学视觉”,选择加"星标"或“置顶” 重磅干货,第一时间送达你有没有过这样的经历:拍了一张超有意境的夜景照,结果放大一看全是密密麻麻的噪点;显微镜下的细胞图像糊成一团,关键细节根本看不清?图像去噪,这个看似基础的任务,其实藏着不少门道。
传统去噪方法要么需要大量干净-噪声图像对当“教材”,要么在面对真实世界复杂噪声时掉链子。但今天要给大家介绍的这篇TPAMI 2025新论文,直接颠覆了我们对去噪的认知——只用单张噪声图像,就能实现超高质量去噪!它就是由Qing Ma等人提出的Pixel2Pixel,一个靠“像素自己教自己”的零样本去噪框架。
论文信息
题目:Pixel2Pixel: A Pixelwise Approach for Zero-Shot Single Image Denoising
像素对像素:一种用于零样本单图像去噪的逐像素方法
作者:Qing Ma, Junjun Jiang, Xiong Zhou, Pengwei Liang, Xianming Liu, Jiayi Ma
先聊聊:为什么去噪这么难?
在说Pixel2Pixel之前,咱们得先明白:去噪难在哪?
过去的深度学习去噪方法,要么是“监督派”——拿着海量干净图和对应噪声图当训练数据,让模型死记硬背“噪声长啥样”。但这种方法有个大问题:现实中的噪声千奇百怪(比如相机传感器噪声、低光噪声、显微镜噪声),训练数据里没见过的噪声,模型就抓瞎。
后来又出现了“自监督/零样本派”,试图摆脱对干净图的依赖。比如有些方法会从单张噪声图里扣一小块区域,用相邻像素当“伪干净样本”。但这些方法有个致命缺陷:太依赖局部相似性,没考虑真实噪声的空间相关性。
啥意思?真实世界的噪声可不是杂乱无章的,相邻像素的噪声往往“抱团”(比如相机传感器的热噪声)。如果采样的像素离得太近,噪声很可能高度相关,相当于用“带偏见的数据”训练模型,效果自然好不了。
Pixel2Pixel的核心思路:让像素“找亲戚”+“随机组队”
Pixel2Pixel之所以牛,就在于它跳出了“局部采样”的思维,用两个关键操作解决了上述问题:构建像素库和逐像素随机采样。咱们一步步来看。
第一步:给每个像素找“远房亲戚”——构建像素库
自然图像有个神奇的特性:非局部自相似性。简单说就是,图像里的图案会在不同地方重复出现(比如树叶的纹理、布料的花纹)。Pixel2Pixel就利用了这一点,给每个像素找“亲戚”。
具体怎么做呢?
拿一张噪声图,对每个像素(比如位置(i,j)的像素),先取它周围一小块区域(比如7x7的块)当“模板”;
在一个大窗口(比如40x40)里搜索和这个模板最相似的M个“远房亲戚”块(非局部的,离得远但长得像);
把这些相似块的中心像素拎出来,组成一个“像素库”。每个像素都有自己的“亲戚库”,整个图像就形成了一个巨大的4D张量(高度x宽度x通道xM)。
看下面这张图就明白了,每个像素都能在远处找到“长得像”的同伴,这些同伴虽然带着不同噪声,但核心内容是一致的:
第二步:让亲戚们“随机组队”——生成伪训练样本
有了像素库,接下来就是“训练数据”的生成。Pixel2Pixel玩了个聪明的操作:逐像素随机采样。
简单说,就是对每个位置的像素,从它的“亲戚库”里随机挑两个不同的像素,组成一对“伪样本”(一个当输入,一个当目标)。这样一来:
生成的样本数量超级多(理论上能有M²×像素总数这么多),足够喂饱神经网络;
最重要的是,这些样本来自图像的不同位置,彻底打破了原始噪声的空间相关性(邻居变“网友”,噪声不抱团了)。
对比一下其他方法就知道多妙了:ZS-N2N只能固定从2x2小方块里采样,噪声相关性还在;而Pixel2Pixel的采样像素可能隔得很远,噪声几乎独立。看下面的噪声相关性对比,Pixel2Pixel生成的样本噪声相关性明显更低:
方法总体流程:从单张噪声图到干净图的魔法
把上面两步和网络训练串起来,就是Pixel2Pixel的完整流程,一目了然:
输入一张噪声图像;
为每个像素构建包含M个相似像素的“像素库”(利用非局部自相似性);
从像素库中随机采样,生成海量“伪样本对”;
用这些样本训练一个轻量CNN(5层卷积,结构简单但高效);
训练好的网络直接输出去噪结果。
整个过程不需要任何干净图像,也不需要提前知道噪声类型——管它是高斯噪声、椒盐噪声,还是相机实拍的复杂噪声,全能干掉!
实验结果:各种噪声下都碾压对手!
说再多理论不如看效果。Pixel2Pixel在各种噪声场景下的表现,只能用“惊艳”来形容。
1. 合成噪声:零均值/非零均值通吃
先看合成噪声(实验室里能控制的噪声)。不管是高斯噪声(零均值)还是椒盐噪声(非零均值),Pixel2Pixel都稳坐第一。
比如高斯噪声(σ=50,高噪声水平),对比ZS-N2N、Self2Self等方法,Pixel2Pixel去噪后的图像既干净又保留了细节,而ZS-N2N还残留大量噪声,Self2Self则过度平滑:
再看椒盐噪声(像素随机变0或1),这种非零均值噪声很棘手,但Pixel2Pixel处理得干干净净,而其他方法要么去不彻底,要么糊成一片:
2. 真实世界噪声:相机/显微镜图像大翻身
最能体现实力的还是真实场景。比如手机实拍的噪声图像(SIDD数据集),这些噪声复杂且有空间相关性,传统零样本方法表现拉垮,但Pixel2Pixel去噪后,细节清晰,色彩自然:
还有显微镜下的生物图像(FMD数据集),细胞、组织的细节对科研至关重要。Pixel2Pixel处理后,噪声没了,细胞边缘和内部结构看得清清楚楚,比其他方法强太多:
3. 关键指标:PSNR全面领先
从定量指标(PSNR,数值越高越好)来看,Pixel2Pixel在所有测试集上都霸榜:
高斯噪声(Kodak24):比ZS-N2N高1-2dB,比Self2Self高0.5-1dB;
真实相机噪声(SIDD):比第二名MASH高0.8dB;
显微镜噪声(FMD):平均比其他方法高1.5dB以上。
这意味着它不仅视觉效果好,客观指标也硬气。
为什么Pixel2Pixel这么强?
总结一下它的核心优势:
零样本通用性:不用干净图,不用提前知道噪声类型,单张图就能搞定;
打破噪声相关性:非局部采样+随机配对,专治真实噪声的“抱团”问题;
利用图像自相似性:从全局找相似像素,即使局部细节被噪声破坏,也能从远处“借”信息修复;
轻量高效:5层CNN就能跑,训练快,适合实际应用。
写在最后:去噪技术的新方向
Pixel2Pixel的出现,不仅给图像去噪提供了一个新思路,更证明了“挖掘图像自身信息”的巨大潜力。对于那些难以获取干净样本的场景(比如医学成像、遥感监测、低光摄影),这种零样本方法简直是“及时雨”。
未来,或许我们手机拍的废片、显微镜下的模糊图像,都能靠这种“像素自救”技术重获新生。不得不说,让像素自己教自己去噪,这波操作太秀了!
下载1:OpenCV-Contrib扩展模块中文版教程 在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。 下载2:Python视觉实战项目52讲 在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。 下载3:人工智能0基础学习攻略手册 在「小白学视觉」公众号后台回复:攻略手册,即可获取《从 0 入门人工智能学习攻略手册》文档,包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源,可以下载离线学习。 交流群 欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~