news 2026/3/12 13:09:04

ControlNet助力!电子科大港理工等提出Refaçade:图像编辑新框架

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
ControlNet助力!电子科大港理工等提出Refaçade:图像编辑新框架

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号:CVer2233,小助手拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用!发论文/搞科研/涨薪,强烈推荐!

论文:https://arxiv.org/abs/2512.04534

随着扩散模型(Diffusion Models)的快速发展,图像和视频编辑领域取得了显著的进步,但仍有部分任务尚未得到充分研究。本文提出了一项新的任务——对象重纹理(Object Retexture),旨在将参考对象的局部纹理迁移到目标对象的图像或视频上。

一个直接的解决方案是采用以源结构和参考纹理为条件的 ControlNet。然而,这种方法存在两个主要问题:

① 直接使用参考图像进行条件输入会引入不必要的结构信息;

② 该方法无法有效解耦源对象的外观纹理与结构信息,导致可控性受限。

为解决上述问题,团队提出了一种新方法——Refaçade,其包含两个核心设计,用于实现图像与视频中更加精准和可控的纹理迁移。首先,团队训练了一个纹理移除模块,该模块基于配对的有纹理/无纹理的3D网格渲染数据进行训练,能够移除源视频中的外观信息,同时保留其几何与运动特征。其次,团队采用拼图式扰动策略打散参考图像的整体布局,引导模型关注局部纹理统计特征,而非对象的整体结构。

大量实验结果表明,本文提出的方法在视觉质量、编辑精度和可控性方面均显著优于现有基线方法,并在定量结果与用户研究中取得领先表现。

1. 方法

数据集构建需要严格配对的三元组:原视频、参考图和目标视频。其中原视频和目标视频需要拥有相同背景、相同的物体3D结构,但是物体表面材质不同;参考图和目标视频的物体需要拥有相同的材质和主题颜色。最大的困难在于没有这种数据集。

团队认为,由于掩码可以轻松获取,可以利用掩码处理原视频,把背景作为真正的source,而完整原视频作为target,绕开显式目标视频的获取。

(1)拼图法解耦形状信息

使用视频第一帧作为参考图的好处是,材质和目标视频严格相符,但是模型会利用参考图里外形信息学会走捷径,只能做到简单的复制粘贴,并非真正的Retexture。

作者也尝试使用Image to Image模型Flux Kontext生成参考图,但这种方式成功率低,并且合成的参考图通常会和原始物体有明显颜色差异,后续模型会把色差继承,输出结果不理想。

以上实验进一步明确了参考图需要满足两个性质:

① 材质、颜色和视频物体严格相符;

② 参考图外形轮廓和视频物体必须不一样。

作者提出使用拼图法预处理视频第一帧,在掩码前景区域将物体切成小块,把众多小块顺序打乱、随机翻转,重新拼成一个矩形,如下图所示。

这样做的好处是参考图材质自然和视频完全一致,并且人工卷积预处理解耦了形状信息,模型被强迫学会Retexture而非复制粘贴。

(2)结构信息的补充

由于使用背景视频作为source,前景区域的物体3D结构信息被完全抹除,需要添加额外补偿以恢复物体立体结构。实验发现,常规的信号不能很好地胜任:

① Canny/Hed图对边缘、细节保留较好,但是输出结果趋于平面化,丧失立体感;

② Depth虽然保留大致的立体结构,但是对物体细节损失严重,和物体原始结构依旧有较大差距。

③ Gray灰度图,简单地把原始物体从彩色转化为灰度,这样做确实解决了颜色泄露问题,并且没有破坏掉物体3D结构,但是表面纹理没法去除,纹理信息泄露给后续模型。

除此之外,现有常规信号通常是逐帧抽取,在面对视频时通常不具备很好的时间一致性,会发生抖动。

针对上述传统信号的优势和问题,作者结合3D领域内知识,训练了Texture Remover,能够把物体表面材质、颜色剥离,但是能很好地保留物体原始结构细节。训练Texture Remover的数据集构建如下:

准备一张图,利用Hunyuan3D的Image to Mesh功能获取物体3D mesh,接下来将mesh渲染成视频。在每一次渲染过程中,保持相机参数以及物体运动方式不变,依次以有材质、无材质方式渲染出一对视频,这样获取的数据集是严格成对的。Texture Remover基于Wan2.1-VACE,以有材质视频作为输入,无材质白模视频作为输出。

Texture Remover本质上是一个多步去噪扩散模型,为了进一步加快推理、整合到后续Retexture模型训练过程里面,作者抛弃了它的Classifier-free Guidance,并且使用DMD2蒸馏为3步去噪,在尽可能少的能力损失前提下,加快了去材质速度。

2. 训练及模型架构

本方法采用Controlnet架构,以WAN2.1-1.3B作为主干,MMDiT作为支路。使用如下的Flow Matching训练方式。

作者将参考图、无材质白模视频、掩码以及背景作为条件注入支路,支路Transformer Block产生的hidden states加入主路,主路则负责Flow Matching去噪。

训练分为两阶段。第一阶段采用大规模数据集、大batch size进行训练,数据集分为三部分(180万WebVid视频、90万Wan合成视频以及80万Stable Diffusion合成图片),训练时随机缩放、改变帧数,以适应不同分辨率,拥有很好的背景保持能力。第二阶段使用高质量的18万Pexels视频进行微调,训练过程中加入抽帧使模型增强应对快速运动视频的能力。

推理阶段为了和训练保持一致,用户提供的参考图也需要经过拼图法预处理。除此之外可以采用Classifier-free Guidance增强参考图控制能力。作者在huggingface上搭建了在线推理dem供大家参考使用:https://huggingface.co/spaces/Ryan-PR/Refacade。

VACE也支持传入参考图,做法是把参考图在帧维度上贴在背景视频前,从而把参考图当作视频第一帧。本文中作者使用MMDiT架构把参考图和视频Token分离开,各自经过投影以后再联合做注意力计算,这有助于避免参考图背景扩散到后续背景视频Token上,有助于原始背景保持。

3. 实验

作者基于现有图片、视频数据集构建Benchmark,利用QWen-VL标注,每一组测试集包含原图/视频、掩码、文本指令、参考图。团队从多个维度评估结果:

(1)背景贴合度;

(2)前景材质相似度;

(3)视频物体动作流畅度;

(4)大语言模型评测;

(5)用户偏好。

结果表明,本文提出方法优于现有基线,无论图片还是视频,都能得到最自然、最稳定、最一致的结果。

消融实验进一步证明了拼图法处理第一帧的有效性,以及Texture Remover产生的白模信号相对于传统结构信号的优越性。

4. 小结

相较于现有大多数方法使用文本作为条件信息,本文使用图片来控制。正所谓“一图胜千言”,图片控制可以更好地满足用户对颜色、纹理的需求,避免使用文字描述精准的RGB值(这种精准数字是目前绝大多数模型难以理解的)。另外,拼图法和Texture Remover设计,使得此任务不再需要严格配对的三元组数据集,构建数据集时只需要原视频就可以设法变换出另外两元,数据集规模可以很轻松地扩大。

本文系学术转载,如有侵权,请联系CVer小助手删文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ICCV 2025 论文和代码下载

在CVer公众号后台回复:ICCV2025,即可下载ICCV 2025论文和代码开源的论文合

CVPR 2025 论文和代码下载

在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习

▲点击上方卡片,关注CVer公众号 整理不易,请点赞和在看
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/11 16:13:14

电机生产车间设备看板物联网方案

某电机制造商受限于传统生产管理模式的弊端,难以适应高精度、多品种、定制化的新型生产节奏,严重制约了企业在效率、品质与成本方面的精细化管控需求。现要求对生产车间进行数字化改造,打造可视化设备看板以实现对多个设备的监控与管理。由于…

作者头像 李华
网站建设 2026/3/11 6:48:45

mysql建表后的数据填入

1.添加指定字段数据insert into 表名 (字段1,字段2...) values (值1,值2...);insert into 表名 values (值1,值2,值3,...); 值与创建表的字段名一一对应2.添加批量数据insert into 表名 (字段1,字段2,字段3) values (值1,值2,...),(值1,值2,.…

作者头像 李华
网站建设 2026/3/11 16:13:16

Observe · Secure · AI|观测云2025中国可观测日深圳站圆满收官

12 月 10 日,观测云 2025 可观测日深圳站成功举办。来自云计算、AI、运维与工程领域的行业专家、企业技术负责人齐聚深圳,在一个下午的深度交流中,共同探讨 AI 时代下,可观测性的进化方向与落地路径。它不是一场“单向输出”的技术…

作者头像 李华
网站建设 2026/3/12 0:23:55

基于SpringBoot的大学生科技竞赛管理系统(毕业设计项目源码+文档)

课题摘要在高校科技竞赛规范化、数字化管理需求升级的背景下,传统竞赛管理存在 “报名流程繁琐、评审效率低、数据统计滞后” 的痛点,基于 SpringBoot 构建的大学生科技竞赛管理系统,适配高校教务处、竞赛组委会、参赛师生等多角色&#xff0…

作者头像 李华
网站建设 2026/3/10 3:59:31

基于SpringBoot的动漫分享系统的设计与实现(毕业设计项目源码+文档)

课题摘要 在二次元文化普及、用户动漫分享需求多元化的背景下,传统动漫平台存在 “内容分散、互动性弱、版权管理缺失” 的痛点,基于 SpringBoot 构建的动漫分享系统,适配动漫爱好者、创作者、版权方等角色,打造集资源分享、社区互…

作者头像 李华