用Dify构建文生视频自动化工作流-育师

用 Dify 构建文生视频自动化工作流

在短视频内容需求爆炸式增长的今天，人工制作已难以满足高频、多样化的产出要求。从电商商品展示到社交媒体运营，再到教育动画与品牌宣传，市场对“快速将创意转化为视频”的能力提出了前所未有的挑战。

有没有可能，只用一句话描述，就能自动生成一段高质量短视频？而且整个过程无需写代码、可复用、能集成进现有系统？

答案是肯定的——借助Dify这个开源的可视化 AI 应用开发平台，我们完全可以构建一条端到端的“文本生成视频”自动化流水线。它不仅支持多模态生成，还能通过图形化编排实现复杂逻辑串联，真正让非技术人员也能驾驭 AIGC 流程。

Dify 的核心优势在于其低门槛 + 高扩展性的设计理念。它融合了 LLM 推理、Prompt 工程、RAG、Agent 模式和插件生态，使得开发者可以像搭积木一样组合出强大的 AI 应用。尤其在内容创作领域，无论是文案生成、图像合成还是视频生产，Dify 都展现出极强的工程化潜力。

本文将带你一步步落地一个完整的文生视频工作流：用户输入一句提示词 → 自动扩写为详细场景描述 → 调用豆包（Doubao）API 生成视频 → 对结果进行语言润色 → 返回美观友好的输出。全程无需编码，仅通过拖拽节点即可完成。

环境部署：一键启动 Dify

为了快速上手，推荐使用官方提供的 Docker 镜像部署方式，避免依赖冲突和环境配置难题。

git clone https://github.com/langgenius/dify.git cd dify/docker cp docker-compose.prod.yaml docker-compose.yaml docker compose up -d

这条命令会启动包括前端（Web）、后端（API）、异步任务处理器（Worker）、数据库（PostgreSQL）和缓存服务（Redis）在内的完整套件。其中worker服务尤为关键——它是执行插件调用、轮询异步任务的核心组件。

访问http://localhost:3000即可进入控制台，首次登录需注册管理员账户。生产环境中建议额外配置 HTTPS、反向代理（如 Nginx）以及持久化存储策略，确保稳定性与安全性。

接入大模型：让语义理解更智能

进入【设置】→【模型供应商】页面，添加至少一个 LLM 提供商。推荐选择响应快、中文能力强的服务，例如：

SiliconFlow（硅基流动）
通义千问（Qwen）
Moonshot（月之暗面）
OpenAI

以 SiliconFlow 为例，只需填写 API Key 并测试连接成功即可保存。之后你就可以在 Workflow 中调用其高性能模型，比如deepseek-ai/DeepSeek-V3或Qwen/Qwen2-72B-Instruct。

这些模型将在流程中承担两个关键角色：
1. 将简短模糊的用户输入扩展为丰富具体的视觉指令；
2. 对机器生成的结果文本进行人性化润色，提升用户体验。

安装文生视频插件：打通视觉生成链路

目前社区中最成熟的文生视频插件之一是：

🔌Doubao Image and Video Generator

该插件封装了字节跳动“豆包”平台的视觉生成能力，支持文生图、文生视频和图生视频三大功能，底层调用的是Seedence 视频生成模型，质量稳定且推理速度较快。

安装步骤如下：

进入 Dify 主界面，点击左侧「插件」菜单；
切换至「Marketplace」标签页；
搜索Doubao，找到对应插件并点击「安装」；

授权配置：

安装完成后进入插件详情页；
点击「配置」按钮；
填入有效的 API Key。

🔑 获取方式：前往火山方舟控制台 → 开通「豆包大模型」服务 → 在「API密钥」页面创建并复制 KEY。

⚠️ 注意事项：
- 必须确保账号已开通Seedence 视频生成权限；
- 首次使用前建议先在火山方舟手动测试一次 T2V 是否可用；
- 若出现 “model not found” 错误，请检查是否正确启用了视频生成功能。

构建工作流：从零开始搭建自动化管道

我们的目标是实现这样一个流程：

[用户输入] ↓ [LLM 扩展描述] ↓ [Text-to-Video 生成] ↓ [LLM 润色输出] ↓ [返回最终结果]

每个环节都可通过可视化节点连接完成，无需编写任何代码。

创建 Workflow 应用

点击顶部导航栏「工作室」；
「创建空白应用」→ 选择「工作流（Workflow）」类型；
命名为文生视频自动化流程，填写简要说明；
点击确认，进入编辑器界面。

定义用户输入变量

在「开始」节点后添加一个输入节点：

类型：文本
变量名：query
显示名称：提示词
最大长度：512
是否必填：勾选

这个字段将接收用户的原始描述，比如：“一只小猫在海边奔跑”。

使用 LLM 扩充提示词

添加一个「LLM」节点，用于将简单输入转化为适合视频生成的详细指令。

配置要点：

模型选择：推荐deepseek-ai/DeepSeek-V3
模式：Chat 模式
System Prompt：

请根据用户提供的主题，生成一段适合作为视频生成模型输入的详细描述。 要求： 1. 描述生动具体，包含场景、动作、光影、情绪等元素 2. 控制在80-120字之间 3. 不要包含主观评价或引导性语言 这是用户输入的主题：{{#sys.query#}}

这里的{{#sys.query#}}是 Dify 的变量引用语法，表示动态注入上一步的用户输入。

例如，当输入“小狗追风筝”，模型可能输出：

“阳光明媚的草地上，一只金毛幼犬兴奋地追逐着天空中飘扬的彩色风筝。它四蹄飞奔，尾巴高高翘起，耳朵随风抖动。远处是蓝天白云，近景有野花摇曳，镜头低角度跟随奔跑轨迹，充满童趣与活力。”

这种具象化描述能显著提升视频生成的质量和一致性。

调用文生视频节点

继续添加一个「工具」节点，选择已安装的Doubao Image and Video Generator插件，并指定操作类型为Text to Video。

参数配置：

Prompt:{{#llm.output#}}← 引用上一步输出
Model:seedance-1.0-lite-t2v（轻量级，速度快）
Aspect Ratio:16:9（也可设为9:16竖屏）

由于视频生成是异步任务（通常耗时 20~60 秒），Dify 的 Worker 会自动轮询状态直至获取最终视频 URL。这一过程完全透明，开发者无需关心底层轮询逻辑。

后处理输出：让结果更友好

虽然插件返回了视频链接，但原始输出往往带有技术日志，例如：

“正在使用豆包 API 生成视频…任务ID: cgt-xxx…等待生成…视频生成成功！链接: https://xxx.mp4”

这对普通用户不够友好。因此我们再加一个 LLM 节点进行结果美化。

新增 LLM 节点配置：

模型：同前
System Prompt：

你是一个友好的AI助手。请将以下视频生成结果整理成一段简洁、温暖、易于阅读的回复。 要求： 1. 包含“视频已生成”提示 2. 提供可点击的播放链接（Markdown格式） 3. 加入表情符号增加亲和力 4. 给出播放建议（如网络要求、有效期等） 原始输出如下： {{#doubao_t2v.output.text#}}

这样冷冰冰的日志就会变成：

🎉 您的视频已成功生成！
👉 点击此处观看视频
温馨提示：
- 建议在Wi-Fi环境下播放
- 视频链接将在24小时后失效
感谢使用AI视频生成服务！

极大提升了终端用户的体验感。

添加结束节点，闭环流程

最后添加一个「结束节点」，并将前一步 LLM 的输出设为返回值：

输出变量类型：文本
来源字段：llm_postprocess.output

至此，整条工作流已经连通，数据流清晰明确。

实际运行示例

让我们测试一次完整流程：

用户输入：

樱花树下穿汉服的女孩跳舞

第一阶段 LLM 输出（扩展描述）：

粉色的樱花树下，一位身着淡青色汉服的女孩正随着古风音乐翩翩起舞。她裙裾飞扬，袖带轻扬，脚步轻盈地在落英缤纷中旋转。微风吹起她的发丝与衣角，阳光透过花瓣洒下斑驳光影，整个画面唯美浪漫，宛如一幅动态的国风画卷。

文生视频节点输出（精简版）：

{ "text": "视频生成成功！视频链接: https://ark-content-generation-cn-beijing.tos-cn-beijing.volces.com/.../video.mp4?X-Tos-Signature=...", "json": [ { "type": "video", "url": "https://.../video.mp4?..." } ] }

最终润色输出：

🌸 您的诗意视频已生成！ 在这春意盎然的时节，一位汉服少女于樱花树下起舞的画面已被AI还原👇 ▶️ [立即观看视频](https://.../video.mp4?...) ✨ 视觉亮点： - 落英缤纷，光影交错 - 衣袂飘飘，舞姿优雅 - 国风意境拉满 📌 小贴士： - 链接有效期为24小时 - 建议全屏播放获得最佳体验 愿这份数字浪漫打动你的心～

整个流程耗时约 40 秒，完全自动化执行，输出自然流畅，具备直接对外发布的品质。

进阶优化建议

这套基础流程已经足够实用，但在实际业务中还可以进一步增强健壮性和功能性：

✅ 启用失败重试机制

在「文生视频节点」中开启「失败重试」选项，最多尝试 2 次，防止因网络波动或服务限流导致任务中断。

✅ 支持图片参考输入（图生视频）

若希望实现“图生视频”，可在开始节点启用「文件上传」功能，并将 Base64 编码后的图像传入Image to Video插件，实现风格迁移或动态化处理。

✅ 添加品牌水印或版权信息

✅ 对接 Webhook 实现通知联动

利用内置的 Webhook 节点，在视频生成完成后推送钉钉、企业微信或邮件通知，特别适合批量处理任务的无人值守模式。

✅ 使用环境变量管理敏感凭证

对于测试/生产多环境部署，建议通过 Dify 的「环境变量」功能统一管理 API Key，避免硬编码带来的安全风险。

✅ 导出为 API 接口供外部调用

发布后可通过 RESTful API 调用该工作流，轻松集成至官网、小程序、CRM 或 CMS 系统中。

示例请求：

curl -X POST 'http://your-dify-host/api/v1/workflows/run' \ -H 'Authorization: Bearer <API_KEY>' \ -H 'Content-Type: application/json' \ -d '{ "inputs": {"query": "宇航员在火星种土豆"}, "response_mode": "blocking" }'

设置"response_mode": "blocking"表示同步阻塞等待结果，适合短任务；若视频生成时间较长，可改为"streaming"或"async"模式配合回调处理。

这套基于 Dify 的文生视频自动化方案，真正实现了“一句话变视频”的创意落地。它的价值不仅在于效率提升，更在于标准化与可复制性——一旦流程构建完成，任何人都可以反复使用，大幅降低对专业人员的依赖。

更重要的是，Dify 的开放架构意味着你可以随时替换组件：换一个更强的 LLM、接入新的视频生成服务、甚至加入语音合成与自动剪辑模块，逐步演化成一个多模态内容工厂。

未来，随着 AIGC 技术不断成熟，类似的自动化流水线将成为内容生产的基础设施。而 Dify 正在扮演那个“连接想法与现实”的桥梁——让每一句文字，都有机会变成会动的故事。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

用Dify构建文生视频自动化工作流