【必读收藏】2025年扩散模型全领域变革：从架构到应用的深度解析-育师

2025年扩散模型正经历从U-Net到DiT(Transformer)架构的重大转变，引发可控生成、图像编辑和主体定制化等领域的创新与挑战。ControlNet面临算力瓶颈，OmniControl等高效方案兴起；图像编辑向基于指令的方法演进；主体定制化因架构变化而面临新问题；视频生成转向DiT架构，聚焦长视频生成、物理规律遵循和强化学习应用。这些变革为研究者提供了丰富的研究方向和机遇。

2025年，扩散模型的各个领域都经历了哪些变化？

现在diffusion的相关研究，其实没有2022年Stable Diffusion刚出来的时候那样，遍地都是研究空白。现在主流一些应用都已经定型，现在能做的一些方向更多是在这个生态架构上继续优化的问题。

下面，我会沿着三大经典应用——可控生成（Controllable Image Generation）、图像编辑（Editing）、主体定制化（Personalization）展开，同时拓展一些自己认为值得关注的最新技术和研究方向，欢迎大家交流。

主干模型上的架构变化

首先不管是可控、编辑，还是定制化，2025年还做基于U-Net主干模型（e.g., SD 1.x, SDXL）等研究，review的时候估计会比较吃亏，现在的研究范式基本上都开始转向DiT相关的了（e.g., FLUX, SD3），要么就是做通用范式——也就是在U-Net-based和DiT-based的主干网络上都能有效。

从U-Net为主导——也就是CNN主导的主干模型转向DiT——也就是Transformer主导的网络架构，意味着在整个生态上，各个领域应用的东西都需要和Transformer去做适配，这些变动底层实现里的，可能会决定了很多之前的方法没办法直接迁移过来。

简单说几个方面：从U-Net变成Transformer最直接的影响，就是网络中间预测特征，直接从2D feature map的形式变成了1D token embedding，除了在DiT的两端通过patchify和unpatchify转换成2D的形式。这就意味着2D feature map自带的空间分辨率不复存在，很多性质也就因此相应发生了变化。也就是为什么很多可控的工作、编辑中保持输入图像布局的特征替换（Plug-And-Play Diffusion Feature那一套）都没有之前好用了。

另外一个比较大的变化是text encoder，现在的text encoder大多是采用一个大号的CLIP模型加上一个T5-XXL的纯language model做编码。没记错的话之前看过一个做定制化生成的帖子，里面的人说在DiT主干模型上直接用Textual Inversion学出来的结果会非常糟糕，这一点也是很合理的，我们会在后面的讨论中具体展开。

自然地，从U-Net变成Transformer，所有的设计也要跟attention那一套东西对齐。加入条件直接通过token concat就可以了；特征替换可能要开始从multi-head attention的query、key、value里面入手设计了；时空顺序可能就要更多关注positional encoding，等等等等。总而言之：Attention is all you need，或许有很多的设计都可以从LLM那篇借鉴一下。

可控生成

T2I 的可控生成其实范式很成熟了，至少所有人都知道遇事不决ControlNet，肯定能学出来。

问题在于DiT的骨干网络不再是之前SD 1.x年代的～800M了，像最新的FLUX 2好像主干模型就直接干上了3B——也就是说如果你得需要一个1.5B量级的ControlNet才能训一个单条件的可控模型，做实验你还得做Canny edge、HED edge、Human Pose、Segmentation Map、……等等，算力开销上会非常夸张。

而且ControlNet的另一个特点是sudden convergence，没记错的话之前的sudden convergence大约需要10,000步数的迭代的才能找得到。我曾经一度尝试将ControlNet的设计直接用在一个1.5B的视频生成网络上，奈何训练了将近100,000步数都没能找到这个sudden convergence的点，遂放弃。

上面的种种原因可以看出，ControlNet的设计在2023年或许还能在一张3090上完成训练，但在模型规模和算力需求日益激增的今天，我们或许需要一些更efficient的解决方案。IP-Adapter这种基于图像提示的工作也是同理的（事实上IP-Adapter需要的训练资源比ControlNet还大，普通人根本无法支持）

可控生成的核心点主要是「如何加条件」。我个人比较看好的是OminiControl这一种通过token concat加入条件的方式，机制上更加吻合Transformer的架构。就好像我们LLM里面做SFT，训练的时候会把prompt token给concat到response前面一样，文章汇报的数据也相对会efficient很多。而且有意思的是，OminiControl不只是像ControlNet一样支持空间域控制，它本身也是支持图像提示定制的，从架构本身上就是统一的，就不存在DiT架构下的ControlNet和IP-Adapter了。

最早在VQ-GAN（也就是《Taming Transformers for High-Resolution Image Synthesis》）这篇文章中就是这么加条件的，只不过时尚是个圈，学术创新可能也是这样，从Transformer到U-Net架构的diffusion model，兜兜转转又回到了DiT架构上。

另外年初阿里他们做video editing的工作VACE，也是通过concat的方式将多种不同条件（视频序列上的seg mask、参考图像、深度谱等等，基本上mask、内容、结构控制都有）加入DiT的视频生成模型（wan）中，这篇工作效果是很好的。反正我自己看过之后感觉training-free没啥空间了，基本上放弃了继续做video editing的想法。也从侧面说明了，只要你算力充足，无脑token concat大力飞砖，Transformer也能学到条件token和图像token之间的对齐，哪怕是多个条件的setting。

后续能填的坑可以参考ControlNet后续的路线：多条件可控（Prompt Diffusion、Uni-ControlNet之流）；优化生成结果（ControlNet++）；架构优化（ControlNet-XS），这一方面估计就有点拼手速了。

图像编辑

似乎图像编辑的一些老方法还能继续用，在机制上还是没有太多的冲突。

比较经典的应该是通过Inversion将原图的信息，反演到采样路径上的不同timestep，然后在生成编辑图像的时候通过强行替换的方式enforce一些原图的特征（空间布局），而通过调整prompt将语义信息给换掉。这类方法大多关注怎么样做Inversion精度会更高，然后加各种魔改，或者是加入Self-Guided Diffusion那种gradient-based的score function修改做一些引导，对于语义的保持会更好，从而不会导致enforce之后就较大失真的问题。要知道DDIM Inversion本身的失真是很大的，就算采样的时候采的是原图，重构出来的样本也会出现很多很糊的artifacts。

现在这类方法应该都演进到flow matching的架构上了，代表作是拿了best paper的FlowEdit，非常不错的工作，能做图像、视频的editing。

我自己比较看好的是Instruction-based Editing，最早的代表作应该是instructPix2Pix，通过构造edited caption和original caption之间的编辑instruction。近期这类方法的新工作，尤其是「Omini-XXX」类的工作、benchmark都特别多，感兴趣的朋友可以去关注一下。

看好这个方向的主要原因，一方面是比较符合人类对于text prompt的交互方式，如果有关注Nano Banana Pro的朋友会发现，你跟Nano Banana Pro交互基本上就像跟ChatGPT交互一样，直接通过指令进行，甚至对于现在的Nano Banana Pro，给定非常精细的信息（方位、要渲染的文字）都能生成的非常好，闭源做好了开源跟上也是迟早的事，这中间空的东西就会是下一步大家研究的方向。

另一方面是Nano Banana Pro是有CoT的，这也是现在研究得比较多的一些方面。如果你点开Nano Banana Pro的thinking过程，你会发现它会对于图像有一定的refinement的过程，虽然不知道具体的底层技术是什么，但是就LLM目前的发展阶段，大家的共识都是「思考得越久，能够完成的任务也就更复杂」，而editing这个时刻开始做CoT感觉方向上是比较对味的。后期的Instruction-based Methods是否会成为统一CV的一大范式，甚至是在海量数据的训练下，涌现出一些类似于LLM的特定能力（事实上现在Nano Banana Pro读论文已经有一些苗头了），值得期待。

主体定制化

主体定制化最早的范式主要由两篇工作奠基——Textual Inversion和DreamBooth。前者是直接在text embedding上做定制化，后者是通过往主干网络加LoRA的方式做定制化。

LoRA类方法还是一向比较稳定的，但是DiT时代似乎Textual Inversion这类方法其实销声匿迹了，没记错的话应该是之前有一个关于FLUX的Textual Inversion的某个仓库里讨论的（如有错误欢迎指出）。

个人猜想有两点原因，一是Textual Inversion是很依赖CLIP的语义对齐能力的，这一点随着后续的主干模型架构设计开始引入T5-XXL之后，CLIP embedding不能完全主导text prompt在生成结果上的影响，而在T5-XXL上做Textual Inversion又不够合理（T5-XXL本身是一个纯语言模型，没有空间对齐能力）；二是架构变成Transformer之后，原本text embedding的变化会直接影响到卷积层之间的计算，从而会影响空间域上生成的像素，使其与主体信息有关。但是Transformer中的图像以1D token序列的形式存在，空间域上的信息由positional encoding决定，这样的性质也被削弱了很多。

定制化本身还是一个比较难的问题，存在经典的特征泄露问题——参考图片中的内容和风格和耦合在一起的，不过同时也衍生出很多类似于风格迁移、风格定制化上的工作，甚至后续有很多类似于ZipLoRA、B-LoRA、UnZipLoRA这类内容和风格之间相互组合的定制化工作，可玩性还是非常的高。

视频上相关的任务

视频上已经全面从Stable Video Diffusion、I2VGen-XL这类U-Net-based工作转移到了DiT架构的Wan系列主干模型上来。而2025年这个时间点有点像图像的2023年，已经标志着视频相关的几大任务板块定型：T2V, I2V, Video Editing，加上一些领域内的细分方向。

首先不管做什么，视频任务上的主旋律都是「视频序列的帧间一致性」，要知道现在研究的视频帧（去年平均是16～40帧，今年应该在～100帧），跟我们现实生活中的视频帧还差距非常大（参考一个DAVIS视频，1min的视频就能有上百帧）。下半年研究最多的应该还是长视频、物理规律以及RL for Video Generation。

长视频上影响力比较大的应该是Self Forcing一类的工作，动机是合理的，针对的视频模型训练和推理之间的不一致问题，采用自回归生成的方式生成长视频，视频序列一长，重心自然又落回了「视频帧间一致性」上来。长视频感觉永远都会是一个值得研究的问题，一个是跟real-world scenario有差距，另外一个是直接跟视频任务的主旋律绑定的，并且很多东西都可以兼容（不管是做T2I、I2V还是做编辑等应用型任务）

遵循物理规律个人感觉是一个很难的问题，而且解法感觉还是得数据驱动，现在可能还是缺数据，以及还在探讨是否需要依赖simulator来解物理规律的问题，我觉得这一块可以让子弹先飞一会。

RL上的设计就比较有讲究了，reward怎么设计直接就关系到了下游任务对齐什么东西——可以是美学质量、视频帧间一致性，等等，加上今年GRPO的热度还是可以继续做一做的，diffusion这一块的RL感觉才刚刚开始。
视频上已经全面从Stable Video Diffusion、I2VGen-XL这类U-Net-based工作转移到了DiT架构的Wan系列主干模型上来。而2025年这个时间点有点像图像的2023年，已经标志着视频相关的几大任务板块定型：T2V, I2V, Video Editing，加上一些领域内的细分方向。

首先不管做什么，视频任务上的主旋律都是「视频序列的帧间一致性」，要知道现在研究的视频帧（去年平均是16～40帧，今年应该在～100帧），跟我们现实生活中的视频帧还差距非常大（参考一个DAVIS视频，1min的视频就能有上百帧）。下半年研究最多的应该还是长视频、物理规律以及RL for Video Generation。

长视频上影响力比较大的应该是Self Forcing一类的工作，动机是合理的，针对的视频模型训练和推理之间的不一致问题，采用自回归生成的方式生成长视频，视频序列一长，重心自然又落回了「视频帧间一致性」上来。长视频感觉永远都会是一个值得研究的问题，一个是跟real-world scenario有差距，另外一个是直接跟视频任务的主旋律绑定的，并且很多东西都可以兼容（不管是做T2I、I2V还是做编辑等应用型任务）

遵循物理规律个人感觉是一个很难的问题，而且解法感觉还是得数据驱动，现在可能还是缺数据，以及还在探讨是否需要依赖simulator来解物理规律的问题，我觉得这一块可以让子弹先飞一会。

RL上的设计就比较有讲究了，reward怎么设计直接就关系到了下游任务对齐什么东西——可以是美学质量、视频帧间一致性，等等，加上今年GRPO的热度还是可以继续做一做的，diffusion这一块的RL感觉才刚刚开始。

最后

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200%，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

【必读收藏】2025年扩散模型全领域变革：从架构到应用的深度解析

2025年，扩散模型的各个领域都经历了哪些变化？

主干模型上的架构变化

可控生成

图像编辑

主体定制化

视频上相关的任务

最后

为什么说现在普通人就业/升职加薪的首选是AI大模型？

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

② AI大模型学习路线图（还有视频解说）

③学习电子书籍和技术文档

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

👉获取方式：

AI界的“经济适用男“！80亿参数小模型完胜GPT-5，成本降低70%，CSDN程序员必藏的智能调度方案

FPGA教程系列-Vivado Aurora 8B／10B 例程解读

227827827

MCU的启动流程你了解么？

逻辑回归（Logistic Regression）进行多分类的实战

RNN（循环神经网络）原理

2025年，扩散模型的各个领域都经历了哪些变化？

主干模型上的架构变化

可控生成

图像编辑

主体定制化

视频上相关的任务

​最后

为什么说现在普通人就业/升职加薪的首选是AI大模型？

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

② AI大模型学习路线图（还有视频解说）

③学习电子书籍和技术文档

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

👉获取方式：

AI界的“经济适用男“！80亿参数小模型完胜GPT-5，成本降低70%，CSDN程序员必藏的智能调度方案

FPGA教程系列-Vivado Aurora 8B／10B 例程解读

227827827

MCU的启动流程你了解么？

逻辑回归（Logistic Regression）进行多分类的实战

RNN（循环神经网络）原理

最后