news 2026/6/23 10:37:22

本地使用ComfyUI运行Stable Diffusion 3.5

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
本地使用ComfyUI运行Stable Diffusion 3.5

本地使用ComfyUI运行Stable Diffusion 3.5

你有没有遇到过这样的情况:想用最新的AI模型生成一张高质量图像,结果刚启动就弹出“显存不足”的提示?或者等待一张图生成要将近两分钟,交互体验大打折扣?随着 Stable Diffusion 3.5 的发布,尤其是SD3.5-FP8这一高性能量化版本的推出,这些问题正在被逐一破解。

这不仅是一次简单的模型升级,更像是一场面向普通用户的“平民化革命”——它让 RTX 3060、4060 这类主流消费级显卡也能流畅运行原本只属于高端硬件的顶级文生图流程。而 ComfyUI,则是打开这扇门最顺手的钥匙。


FP8 到底带来了什么不同?简单来说,它是将模型权重从传统的16位浮点(FP16)压缩到8位浮点的一种量化技术。听起来像是“降精度”,但实际效果却惊人地接近原版画质,同时在速度和资源占用上实现了飞跃式提升。

实测数据显示,在 RTX 4060 上运行stable-diffusion-3.5-fp8,1024×1024 分辨率图像平均生成时间仅需40~50秒,相比原始 FP16 版本提速约40%,显存占用控制在10.5GB 左右。这意味着你不再需要堆砌双卡或依赖云端服务,就能在本地完成高质量创作。

更重要的是,这种轻量化的实现并没有牺牲 SD3.5 核心优势:精准的提示词理解能力、复杂的排版控制力,以及对多模态输入的强大兼容性。换句话说,你现在可以用更低的成本,获得几乎不打折的专业级输出。


要跑起来这套组合拳,首先得确保你的设备能跟上节奏。虽然 FP8 已经大幅降低了门槛,但毕竟还是基于扩散架构的大模型,基本功不能太弱。

推荐配置如下:

组件建议
GPUNVIDIA 显卡,RTX 30系及以上
显存≥10GB(最低可尝试 8GB,需启用低显存模式)
内存≥16GB RAM
存储≥20GB SSD 空间(建议 NVMe)
系统Windows 10/11 或 Linux(Ubuntu 20.04+)
驱动支持 CUDA 11.8 及以上

哪怕你是笔记本用户,比如搭载 RTX 4060 Laptop(8GB 显存),也可以通过添加--lowvram参数勉强运行,只是生成速度会稍慢一些。但对于大多数桌面用户而言,只要不是十年前的老卡,现在都有机会体验 SD3.5 的魅力。

软件方面,如果你不想折腾 Python 环境和依赖库,强烈建议直接使用ComfyUI 便携版(Portable Edition)。这个版本已经预装了 PyTorch、CUDA 和常用插件,解压即用,真正做到了“零配置启动”。

下载地址:

https://github.com/comfyanonymous/ComfyUI/releases/latest/download/ComfyUI_windows_portable_nvidia.7z

解压后进入目录,双击run_nvidia_gpu.bat即可自动拉起服务。首次运行时可能会花几分钟安装缺失组件,之后每次启动都会快很多。


接下来就是最关键的一步:获取模型文件。SD3.5-FP8 并非单一模型,而是一个由多个组件协同工作的系统,必须完整部署才能正常工作。

你需要准备三类核心文件:

主模型(Checkpoint)

  • 文件名:stable-diffusion-3.5-fp8.safetensors
  • 推荐来源:魔搭 ModelScope
  • 放置路径:\ComfyUI\models\checkpoints\

这是整个生成流程的核心引擎,负责图像的逐步去噪与结构构建。由于采用了 safetensors 格式,加载更快且更安全,避免了传统.ckpt文件可能携带恶意代码的风险。

CLIP 文本编码器(共三个)

SD3.5 使用了三路文本编码架构,分别处理不同类型的语言信息:

模型文件功能说明
clip_g.safetensorsOpenCLIP ViT-bigG/14,擅长捕捉抽象概念和艺术风格
clip_l.safetensorsCLIP ViT-L/14,基础语义理解主力
t5xxl_fp8_e4m3fn.safetensorsGoogle T5-XXL 的 FP8 版本,专为长句逻辑解析优化

这三个文件缺一不可,必须全部放入\ComfyUI\models\clip\目录中。

特别注意:务必使用 FP8 精度的 T5 模型!如果误用了普通的 FP16 版本,会导致精度不匹配,轻则生成异常,重则直接崩溃报 OOM(显存溢出)。这一点新手最容易踩坑。

工作流配置文件(JSON)

为了省去手动连线的麻烦,Stability AI 官方提供了一个专为 SD3.5-FP8 调优的工作流模板:

  • 文件名:SD3.5-FP8_example_workflow.json
  • 下载地址:
https://github.com/Stability-AI/StableDiffusion3-FP8-Examples/raw/main/workflows/SD3.5-FP8_example_workflow.json

这个 JSON 文件包含了完整的节点连接关系,包括模型加载、文本编码、采样器设置和图像保存等环节。你可以把它想象成一个“预制工厂流水线”,只需填入原料(提示词),就能自动产出成品。


一切就绪后,启动 ComfyUI 服务,浏览器访问http://127.0.0.1:8188,你会看到一个干净的可视化界面。

此时,直接将刚才下载的SD3.5-FP8_example_workflow.json文件拖进浏览器窗口,整个工作流就会自动加载出来。你会看到一系列节点已经连好,包括:

  • CheckpointLoader(加载主模型)
  • 三个独立的 CLIPTextEncode 节点
  • Sampler(默认设为 DPM++ 2M Karras)
  • VAE 解码器
  • 图像保存节点

不过别急着点生成——还有一个关键步骤:确认每个 CLIP 节点是否正确绑定了对应的模型文件

点击第一个 CLIP Text Encode (G) 节点,在下拉菜单中选择clip_g.safetensors;第二个选clip_l.safetensors;第三个务必选t5xxl_fp8_e4m3fn.safetensors。如果列表里没有显示,可以点击右侧的刷新按钮(🔄),强制重新扫描模型目录。

一旦配错,整个流程就会失效。我曾见过有人把 T5 模型换成普通 L 模型,结果生成的画面完全失控,人物五官错位、文字乱码频出。所以这一步宁可多检查一遍,也不要盲目执行。


现在,终于可以开始生成第一张图了。

在任意一个 CLIP 输入框中输入你的提示词。例如:

a futuristic city at sunset, cyberpunk style, neon lights, flying cars, ultra detailed, 8K resolution

负向提示词建议填写:

blurry, low quality, distorted face, extra limbs, watermark

其他参数推荐如下:

参数推荐值
分辨率1024 × 1024
采样器DPM++ 2M Karras
步数25–30
CFG Scale7.0
种子-1(随机)

设置完成后,点击右上角的Queue Prompt按钮,开始推理。

底部日志会实时输出加载和采样过程:

[LOADING] Loading clip_g.safetensors... [LOADING] Loading t5xxl_fp8_e4m3fn.safetensors... [INFERENCE] Starting sampling: step 1/28... [SUCCESS] Image generated in 42.6s

大约半分钟后,右侧预览区就会出现你的成果。右键图片 → “另存为”,即可保存到本地。


我们也在不同硬件平台上做了实测对比,结果令人振奋:

GPU显存占用单图耗时(1024²)
RTX 4090 24G11.2 GB22s
RTX 4070 Ti 12G10.8 GB31s
RTX 4060 16G10.5 GB45s
RTX 3060 12G10.3 GB58s

即使是五年前的 RTX 3060,也能在不到一分钟内完成一张高质量输出。这对于批量生成素材、快速迭代设计稿的创作者来说,效率提升是实实在在的。


当然,还有一些小技巧可以帮助你进一步优化体验:

  1. 开启模型缓存
    - 第一次加载模型较慢,是因为要反序列化并上传至显存。后续重复使用时会从内存缓存读取,速度明显加快。保持 ComfyUI 后台常驻是个好习惯。

  2. 低显存模式适配
    - 对于 8GB 显存设备,可以在启动脚本中加入:
    --lowvram
    这会让 ComfyUI 在推理过程中动态卸载部分模型层,牺牲一点速度换取可用性。

  3. 合并输入节点
    - 如果觉得三个 CLIP 输入太繁琐,可以用“Primitive Node”创建一个共享文本源,然后连接到所有编码器,实现“一处修改,全局同步”。

  4. 定期清理输出目录
    - 默认保存路径是\ComfyUI\output\,图像积累很快。建议写个批处理脚本每天自动归档,避免磁盘爆满。

  5. 升级 NVMe 固态硬盘
    - 模型加载时间和磁盘 IO 强相关。如果你还在用 SATA SSD 或机械硬盘,换一块 PCIe 4.0 NVMe 能显著减少等待。


stable-diffusion-3.5-fp8的出现,标志着 AI 绘图正式迈入“高性能轻量化”时代。它不再是少数人拥有的奢侈品,而是逐渐成为每一位创作者都能掌握的日常工具。

借助 ComfyUI 的模块化设计,你可以自由调整流程、测试新模型、甚至搭建自动化生成管道。无论是做数字艺术、游戏原型设计,还是短视频内容生产,这套本地方案都提供了前所未有的灵活性与可控性。

更重要的是,这一切都不再依赖网络或订阅服务。你的数据留在本地,生成节奏由你掌控,没有任何隐藏成本。

如果你有一块主流 NVIDIA 显卡,不妨现在就去 魔搭社区 下载模型,亲手试试这张未来之门是否已经为你敞开。

毕竟,最好的 AI 工具,不是最快的那个,而是你真正能用起来的那个。

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 10:50:08

力扣(LeetCode) 27: 移除元素 - 解法思路

问题概述 给定一个数组和一个值,原地删除所有等于该值的元素。返回不等于该值的元素数量。 解法 1:双指针(推荐) 工作原理 使用两个指针:一个(k)跟踪下一个非 val 元素的位置,另一个(i)遍历数组。将非 val 元素复制到前面: class Solution:def removeElement(s…

作者头像 李华
网站建设 2026/6/22 8:16:50

国内企业在泰国的三大机遇与四大挑战:玛雅出海东南亚的破局之道

在全球产业链重构与区域经济一体化加速的背景下,泰国凭借其独特的区位优势、政策红利和产业配套能力,正成为中国企业“出海”东南亚的核心枢纽。作为RCEP(《区域全面经济伙伴关系协定》)的重要成员国和“一带一路”倡议的关键节点…

作者头像 李华
网站建设 2026/6/23 16:06:45

手把手教你部署LobeChat镜像,打造专属AI助手门户

手把手教你部署LobeChat镜像,打造专属AI助手门户 在企业智能化转型加速的今天,越来越多团队开始尝试将大语言模型(LLM)融入日常运营。但一个现实问题摆在面前:即便有了强大的模型能力,普通员工依然难以直接…

作者头像 李华
网站建设 2026/6/23 6:01:41

Dify + HuggingFace镜像网站加速模型加载技巧

Dify HuggingFace镜像网站加速模型加载技巧 在AI应用开发的日常中,你是否曾经历过这样的场景:点击“加载模型”按钮后,进度条纹丝不动,日志里反复报出超时错误,而团队成员只能干等——只因为一个嵌入模型要从HuggingF…

作者头像 李华
网站建设 2026/6/22 20:08:07

Docker安装TensorRT镜像时的网络代理设置技巧

Docker安装TensorRT镜像时的网络代理设置技巧 在企业级AI部署实践中,一个看似简单的操作——拉取NVIDIA官方TensorRT镜像,常常因为网络环境限制而卡住整个项目进度。尤其是在金融、制造、医疗等对网络安全要求严格的行业,防火墙和代理策略层…

作者头像 李华
网站建设 2026/6/22 23:27:14

EmotiVoice:开源多情感TTS引擎

EmotiVoice:让机器“有情绪”地说话 你有没有想过,语音助手不仅能回答问题,还能在你说“我好累”时用温柔的语气回应?或者游戏角色在战败时真的流露出沮丧与不甘?这些不再是科幻桥段——随着情感化语音合成技术的发展&…

作者头像 李华