阶段	名称	是否可学习	目的
第一阶段	前向过程（Forward Process）	❌ 否	将真实图像系统性加噪至纯噪声
第二阶段	反向过程（Reverse Process）	✅ 是	训练神经网络从噪声中重建图像

3.1 前向过程：系统性加噪（“主动搞破坏”）

输入：一张干净图像x 0 x_0x0（如猫的照片）
操作：逐步添加高斯噪声，共T TT步（通常T = 1000 T = 1000T=1000）
输出：纯噪声图像x T ∼ N ( 0 , I ) x_T \sim \mathcal{N}(0, I)xT∼N(0,I)

关键设计：固定噪声调度（Noise Schedule）

每一步的加噪强度由预设参数α t ∈ ( 0 , 1 ) \alpha_t \in (0,1)αt∈(0,1)控制。定义累积衰减系数：
α ˉ t = ∏ s = 1 t α s \bar{\alpha}_t = \prod_{s=1}^t \alpha_sαˉt=s=1∏tαs

则第t tt步的带噪图像可直接从原始图一步计算：
x t = α ˉ t ⋅ x 0 + 1 − α ˉ t ⋅ ϵ , ϵ ∼ N ( 0 , I ) x_t = \sqrt{\bar{\alpha}_t} \cdot x_0 + \sqrt{1 - \bar{\alpha}_t} \cdot \epsilon, \quad \epsilon \sim \mathcal{N}(0, I)xt=αˉt⋅x0+1−αˉt⋅ϵ,ϵ∼N(0,I)

💡优势：无需逐帧模拟加噪，训练时可随机采样任意t tt，极大提升效率。

✅妙处：无需对抗训练，损失稳定，收敛快。

生成过程（推理阶段）

从x T ∼ N ( 0 , I ) x_T \sim \mathcal{N}(0, I)xT∼N(0,I)开始，迭代执行：
x t − 1 = 1 α t ( x t − 1 − α t 1 − α ˉ t ⋅ ϵ ^ θ ( x t , t ) ) + σ t z x_{t-1} = \frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}_t}} \cdot \hat{\epsilon}_\theta(x_t, t) \right) + \sigma_t zxt−1=αt1(xt−1−αˉt1−αt⋅ϵ^θ(xt,t))+σtz
其中z ∼ N ( 0 , I ) z \sim \mathcal{N}(0, I)z∼N(0,I)（最后一步设为 0 实现确定性生成）。

⏱️缺点：需 50~1000 步迭代，速度慢（但可通过 DDIM、蒸馏等加速至 1~4 步）。

四、核心组件：为什么是 U-Net？

在扩散模型中，U-Net 是去噪网络的标准骨架。它最初为医学图像分割设计，却完美契合“去噪”任务的需求。

4.1 U-Net 的三大组成部分

（2）瓶颈层（Bottleneck）— “浓缩精华”

最小空间尺寸（如 28×28），最大通道数（1024）；
整合全局上下文信息。

（3）解码器（Decoder）— “还原细节”

通过上采样（转置卷积）逐步恢复分辨率；
关键创新：跳跃连接（Skip Connection）

4.2 跳跃连接：U-Net 的灵魂

将编码器各层的特征图，裁剪后拼接到解码器对应层。

为什么需要？

编码器下采样会丢失精确位置信息（如边缘、纹理）；
解码器仅靠高层语义无法精准重建细节；
跳跃连接提供“原始草稿”，实现语义 + 定位的融合。

举个例子（基于 U-Net 原始论文结构）：

上采样：将瓶颈层 28×28×1024 → 56×56×512（通过 2×2 转置卷积）；
裁剪：从编码器第四层取出 68×68×512 →中心裁剪为 56×56×512；
拼接：与上采样结果 concat → 56×56×1024；
后续卷积：融合信息，输出 56×56×512。

📌裁剪原因：因卷积无 padding，编码器特征图略大于解码器，需对齐尺寸。

4.3 U-Net 在扩散模型中的改造

原始 U-Net	扩散模型中的 U-Net
输入：干净图像	输入：带噪图像x t x_txt
输出：分割掩码	输出：噪声残差ϵ ^ \hat{\epsilon}ϵ^
无时间信息	加入时间嵌入（Time Embedding）
任务：分割	任务：噪声回归（MSE loss）

时间嵌入如何注入？

将时间步t tt通过 MLP 或正弦编码转为向量；
通过Adaptive GroupNorm或FiLM注入每个卷积块；
网络动态调整行为：
- 早期（t 大）：关注大结构（“是人脸”）；
- 晚期（t 小）：关注细节（“睫毛、皱纹”）。

五、扩散模型 vs GAN vs VAE

模型	核心思路	优点	缺点
GAN	生成器 vs 判别器对抗	生成速度快	训练不稳定、模式崩溃
VAE	编码-解码 + 隐空间约束	训练稳定	生成图像模糊
Diffusion	逐步去噪	高质量、稳定、理论强	生成慢（可加速）

🌟正因如此，所有主流 AI 绘图工具（Stable Diffusion 等）均采用扩散模型！

六、总结：扩散模型的三大优势

生成质量极高：细节丰富，接近真实照片；
训练极其稳定：无需调参对抗，损失函数简单；
原理优雅统一：将生成问题转化为噪声回归，数学基础坚实。

⚠️唯一短板：推理速度慢，但已有多种加速方案（DDIM、LCM、蒸馏等）。

七、结语

扩散模型的本质，不是“凭空创造”，而是“从混乱中恢复秩序”。它给 AI 一块“噪声画布”，依靠 U-Net 这样的智能去噪器，一步步擦出我们想要的世界。

而 U-Net 的设计哲学——“先看大局，再补细节”——不仅解决了医学图像分割的难题，更成为生成式 AI 的基石。这正是深度学习的魅力：一个为特定任务设计的结构，最终照亮了整个领域。

参考文献 & 延伸阅读

U-Net: Convolutional Networks for Biomedical Image Segmentation

网站建设 2026/6/23 17:34:01

飞书文档批量导出终极指南：告别手动烦恼，实现高效迁移

飞书文档批量导出终极指南：告别手动烦恼，实现高效迁移【免费下载链接】feishu-doc-export 项目地址: https://gitcode.com/gh_mirrors/fe/feishu-doc-export 你是否曾经为文档迁移而头疼不已？面对数百个飞书文档需要导出到本地&…

李华

网站建设 2026/6/22 17:48:11

SuperCom串口调试工具：终极免费解决方案与5分钟快速部署指南

想要摆脱串口调试的繁琐操作吗？SuperCom作为一款功能强大的免费串口调试工具，专为嵌入式开发者和硬件工程师设计，让你在5分钟内完成从零开始的完整配置。无论是多设备并行监控还是自动化命令执行，这款工具都能显著提升你的工作效率…

李华

网站建设 2026/6/23 18:07:00

Vulkan显存检测利器：memtest_vulkan快速验证显卡稳定性

Vulkan显存检测利器：memtest_vulkan快速验证显卡稳定性【免费下载链接】memtest_vulkan Vulkan compute tool for testing video memory stability 项目地址: https://gitcode.com/gh_mirrors/me/memtest_vulkan 显卡性能不稳定导致游戏闪退、画面异常&…

李华

网站建设 2026/6/22 22:39:28

揭秘BlenderGIS：5分钟搞定专业级地形生成的秘密武器

揭秘BlenderGIS：5分钟搞定专业级地形生成的秘密武器【免费下载链接】BlenderGIS Blender addons to make the bridge between Blender and geographic data 项目地址: https://gitcode.com/gh_mirrors/bl/BlenderGIS 还在为手动创建3D地形而头疼吗&#xff…

李华

网站建设 2026/6/23 18:09:35

终极Mac桌面歌词神器LyricsX完整使用指南

终极Mac桌面歌词神器LyricsX完整使用指南【免费下载链接】Lyrics Swift-based iTunes plug-in to display lyrics on the desktop. 项目地址: https://gitcode.com/gh_mirrors/lyr/Lyrics 还在为Mac音乐播放器缺乏歌词显示功能而烦恼吗？LyricsX桌面歌词插件…

李华

网站建设 2026/6/23 10:22:30

TranslucentTB中文版下载安装保姆级教程（附安装包，非常详细）

TranslucentTB 是一款专门把 Windows 10/11 任务栏变透明的小工具，体积不到 1 MB，完全免费。 TranslucentTB 可以接管系统自带的任务栏绘制接口，把原本灰黑色的长条替换成玻璃、亚克力、纯色或全透明四种效果，并跟随窗口最大化、…

李华

目录