news 2026/6/23 21:22:07

LAMIC:一种无需学习、布局可控的多参考图像生成方法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
LAMIC:一种无需学习、布局可控的多参考图像生成方法

概述

本文提出了一种新方法,即 LAMIC,用于在可控图像生成过程中使用多张参考图像进行带有布局信息的高质量合成。

传统的扩散模型在基于单个参考图像生成时具有优势,但在处理多个参考图像时,会出现 "不一致的身份退化 "和 "布局崩溃 "等问题。
此外,许多现有方法需要额外的训练和大型数据集,限制了其通用性和可扩展性。

LAMIC 基于多模态扩散变换器 (MMDiT),这是一种无需学习的零拍摄方法,可生成多个图像和文本,并结合区域规范(边界框和掩码)。
特别是,它引入了使用群体隔离注意力(GIA)的实体分离和使用区域调制注意力(RMA)的布局控制,以忠实再现空间布局,同时防止语义混淆。

在评估实验中,它在身份保持、背景一致性和布局准确性等指标上都优于现有方法,并在多参考和复杂组合中表现出卓越的性能。
由于采用了无需额外学习的高效框架,这项研究在电影制作和叙事生成等实际应用中显示出巨大的潜力。

建议的方法

LAMIC 的核心思想是构建一种标记表示法,将参考图像、文本描述和布局信息整合在一起,然后将其输入 MMDiT,从而实现多参考图像的一致合成。

首先,每个参照物都被定义为一个 VTS 三元组,由视觉(V)、文本(T)和空间(S)三个元素组成,并添加了实体之间的关系(跨实体交互,CEI)和非控制区域(U)。

然后,这些信息被转换成一个综合的标记序列,并在 MMDiT 中作为一致的表征进行处理。
在此过程中,将引入组隔离注意(GIA),以拦截每个 VTS 组之间不必要的相互干扰,防止不同实体的特征混杂在一起。

此外,还在生成的早期阶段应用区域调制注意力(RMA),以保持每个空间区域的独立性,并在后期阶段将它们整合在一起。

这样就能准确再现角色定位和背景一致性,并能处理复杂的布局。

重要的是,该方法不需要额外的训练或微调,可以直接扩展现有的单一参考模型,因此在实际操作中既高效又通用。

实验

为了评估所提出的 LAMIC 方法,作者在现有的 XVerseBench 数据集上扩展了各种参考图像(人物、动物、物体、衣服和场景)和相应的布局信息。

在实验设置中,使用了两张、三张和四张参考图像作为输入,并在多个指标上进行了性能比较,包括 ID 保留率 (ID-S)、背景相似度 (BG-S)、外观一致性 (IP-S) 和美学评价 (AES)。

此外,还使用了新提出的包含率(IN-R)和填充率(FI-R)来定量评估产品对布局指示的遵从程度。

结果表明,LAMIC 在所有情况下的平均得分(AVG)都优于现有方法,尤其是在 ID 保留和背景一致性方面。

即使在难度极高的三页和四页参考任务中,LAMIC 也比传统方法平均提高了 4 到 8 分。

此外,消融实验也证实了这两种机制的有效性,去除 GIA 和 RMA 后,性能显著下降。

此外,通过调整 RMA 的应用比例,观察到了布局精度和整体视觉平滑度之间的权衡,得出的结论是 0.05 的比例是最佳的。

总之,LAMIC 无需额外学习就能达到最先进的性能,并有可能成为多参考图像合成的新标准。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 18:27:58

Lsyncd排除路径配置终极指南:避开常见陷阱

Lsyncd排除路径配置终极指南:避开常见陷阱 【免费下载链接】lsyncd Lsyncd (Live Syncing Daemon) synchronizes local directories with remote targets 项目地址: https://gitcode.com/gh_mirrors/ls/lsyncd Lsyncd作为一款优秀的实时文件同步工具&#xf…

作者头像 李华
网站建设 2026/6/23 0:11:55

告别“从零开始”,百考通源码图纸库,你的项目开发加速器!

在软件工程、嵌入式开发、自动化控制乃至人工智能等领域,一个成功的项目往往始于一个扎实的起点。然而,对于广大的开发者、学生和工程师而言,“从零开始”构建一个复杂系统,不仅意味着漫长的学习曲线和巨大的工作量,更…

作者头像 李华
网站建设 2026/6/23 8:30:24

构建电商智能决策支持平台

构建电商智能决策支持平台 关键词:电商、智能决策支持平台、数据挖掘、机器学习、决策算法、大数据分析、实时决策 摘要:本文旨在深入探讨构建电商智能决策支持平台的相关技术和方法。随着电商行业的快速发展,企业面临着海量的数据和复杂的决策场景,智能决策支持平台能够帮…

作者头像 李华
网站建设 2026/6/23 15:55:37

Bazel插件生态:3步解决多语言项目构建难题

Bazel插件生态:3步解决多语言项目构建难题 【免费下载链接】bazel a fast, scalable, multi-language and extensible build system 项目地址: https://gitcode.com/GitHub_Trending/ba/bazel 还在为复杂的多语言项目构建而头疼?Bazel插件生态系统…

作者头像 李华
网站建设 2026/6/22 23:42:31

高端成果与需求端断层如何破局?区域科技创新体系可借助知识产权智能运营平台实现闭环的体系化竞争壁垒。

观点作者:科易网AI技术转移研究院在科技创新日益成为国家核心竞争力的今天,高校院所作为科技成果的重要源头,其成果转化效率直接影响着创新链与产业链的深度融合。然而,长期以来,“高端成果与需求端断层”问题一直是制…

作者头像 李华