news 2026/6/23 11:48:27

每日一个开源项目(第138篇):OpenMontage - 把 AI 编程助手变成完整的视频制作团队

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
每日一个开源项目(第138篇):OpenMontage - 把 AI 编程助手变成完整的视频制作团队

引言

“12 条生产流水线、52 个工具、500+ Agent Skill——把你的 AI 编程助手变成完整的视频制作工作室。”

这是"每日一个开源项目"系列的第138篇文章。今天的主角是OpenMontage——一个开源的 Agentic 视频生产系统,用 Claude Code、Cursor 或 Codex 作为驱动引擎,把自然语言提示变成完整制作的视频。

大多数 AI 视频工具的输出是单个片段:输入提示,生成一段 5 秒的视频。OpenMontage 的设计目标不同——它模拟的是一个完整的视频制作团队:研究员、编剧、分镜师、素材制作、剪辑、合成、质量审核,每个阶段都有对应的 Agent Skill 在驱动。

起点是一句自然语言描述,终点是经过质量验证的完整视频文件。全程在你的 AI 编程助手里运行,不需要切换工具。

你将学到什么

  • OpenMontage 的三层知识体系架构:Tools / Skills / Pipeline Defs 如何协同
  • 12 条制作流水线的覆盖范围:从动画解说到纪录片蒙太奇
  • 零付费路径:不花一分钱能做出什么
  • 质量治理设计:预合成验证、滑动风险评分、预算控制
  • 7 维度提供商评分系统:AI 如何选择用哪个视频生成服务
  • 参考视频分析:输入 YouTube 链接后发生了什么

前置知识

  • 使用过 Claude Code、Cursor 或类似 AI 编程工具
  • 了解视频制作的基本流程(脚本、镜头、配音、剪辑)
  • Python 基础使用经验

项目背景

项目简介

OpenMontage 是一个 Agentic 视频生产系统,定位是"把 AI 编程助手变成完整的视频制作工作室"。

它解决的不是"用 AI 生成一段视频"的问题,而是"从零到发布的完整视频制作流程"的问题。研究内容、写脚本、规划分镜、生成素材、剪辑、合成、质量检查——这些步骤在传统视频制作里分属不同的人,在 OpenMontage 里对应不同的 Agent Skill,由 AI 编程助手按流水线顺序执行。

另一个设计重点是解决"动态假图"问题:大多数 AI 视频工具生成的是静态图片帧的动画效果,不是真正有运动的视频素材。OpenMontage 可以从 Pexels、Pixabay、Archive.org、NASA、维基共享资源等免费来源获取真实运动素材,再做蒙太奇剪辑。

作者介绍

  • 作者: calesthio
  • 社区: GitHub Discussions(展示、想法、Q&A 分类)
  • License: AGPL-3.0
  • 视频频道: @OpenMontage on YouTube

项目数据

  • ⭐ GitHub Stars:9,000+
  • 🍴 Forks: 1,300+
  • 🛠 制作工具: 52 个
  • 🎬 流水线: 12 条
  • 📚 Agent Skill: 500+
  • 📄 License: AGPL-3.0

主要功能

核心作用

传统 AI 视频工具: 提示词 → 生成单个视频片段 → 用户手动拼接 OpenMontage: "制作一个关于量子计算的 3 分钟科普视频" ↓ [研究] → 收集背景信息和事实 ↓ [提案] → 生成制作方案,包含预估费用 ↓ [脚本] → 完整旁白文本 ↓ [分镜] → 每个场景的视觉规划 ↓ [素材] → 生成/获取视频、图片、配音、音乐 ↓ [剪辑] → 组装时间线 ↓ [合成] → 渲染最终视频 ↓ [质量审核] → 帧验证 + 音频分析 + 交付检查 ↓ 完整视频文件

12 条制作流水线

流水线输出
Animated Explainer研究支撑的教育类动画视频
Documentary Montage真实素材剪辑的纪录片风格视频
Cinematic预告片、概念片、氛围短片
Clip Factory把长内容批量切成短视频
Talking Head主播/主持人视频
Avatar Spokesperson数字人发言人视频
Localization & Dub多语言翻译配音版本
Screen Demo软件操作演示录屏
Podcast Repurpose播客音频→视频剪辑集锦
Hybrid现有素材 + AI 生成内容混合
Animation动态图形、动态排版

零付费路径

不需要任何付费 API,可以完整跑通一个视频:

组件零付费方案
配音/TTSPiper(离线,免费)
视频素材Pexels、Pixabay、Archive.org、NASA、维基共享资源
图像生成Stable Diffusion(本地运行)
视频生成WAN 2.1、Hunyuan、LTX-Video(本地 GPU)
合成/渲染Remotion(React)、HyperFrames(HTML/GSAP)
后期处理FFmpeg

有付费 API 时的成本参考(来自 README):

  • Ghibli 风格动画(12 张 FLUX 图 + 音乐):$0.15
  • Pixar 风格动画短片(6 段 Kling 视频 + 配音):$1.33
  • 产品广告(仅 OpenAI):$0.69

快速开始

安装

gitclone https://github.com/calesthio/OpenMontage.gitcdOpenMontagemakesetup

在 Claude Code 中使用

cdOpenMontage claude# 打开 Claude Code

然后直接用自然语言描述:

制作一个 2 分钟的视频,介绍阿尔茨海默症的早期预警信号, 面向 40-60 岁的普通观众,科学严谨但不生硬, 使用真实医疗素材,不需要任何 AI 生成的人脸。

Agent 会先生成制作方案和费用估算,确认后才开始执行。


项目详细剖析

三层知识体系

OpenMontage 的架构把能力和知识分成三层:

Layer 1: 执行层 tools/ ← 52 个 Python 工具 pipeline_defs/ ← 12 条 YAML 流水线定义 schemas/ ← 15 个 JSON Schema(输入输出验证) └── 作用:定义"可以做什么"和"按什么顺序做" Layer 2: 使用规范层 skills/ ← OpenMontage 自身的使用约定 └── 作用:告诉 Agent 如何正确使用这套工具 Layer 3: 外部技术知识层 .agents/skills/ ← 深度的外部技术知识 └── 作用:关于 FFmpeg、Remotion、各提供商 API 的专业知识

500+ Agent Skill 分布在后两层,相当于把视频制作领域的专家知识打包给了 AI 编程助手。每个 Skill 是一个 Markdown 文件,包含这个步骤的专业知识、常见错误和判断标准。

渲染引擎:Remotion vs HyperFrames

OpenMontage 支持两种合成渲染引擎,各有适用场景:

Remotion(React 渲染):

  • 用 React 组件描述视频帧
  • 适合需要精确时间控制的内容:字幕、标题、数据可视化
  • 输出质量稳定,开发者可以用 React 语法定制

HyperFrames(HTML/GSAP 渲染):

  • 用 HTML + GSAP 动画描述视频
  • 适合动态排版、品牌内容、Web 风格的视觉设计
  • 自定义灵活度高

两者都通过 Node.js 在本地渲染,不依赖外部服务。

质量治理机制

这是 OpenMontage 里工程设计含量最高的部分:

预合成验证门禁:在开始渲染之前,系统检查生产承诺是否满足。如果检测到以下情况,拒绝继续执行:

  • 计划输出与脚本内容不匹配
  • 场景覆盖率低于阈值
  • 素材质量不满足目标规格

幻灯片风险评分(Slideshow Risk Score)
6 个维度评估视频是否过于"静态化"——把一堆图片拼一起假装是视频:

  • 场景平均时长
  • 运动素材占比
  • 摄像机运动检测
  • 场景切换频率
  • 音频动态范围
  • 视觉变化密度

评分超过阈值,Agent 会主动寻找更多动态素材或重新规划场景方案,而不是直接输出一个幻灯片。

预算控制

默认配置: - 单次操作超过 $0.50 需要确认 - 总预算上限 $10 - 任何执行前先给出费用估算 调整方式: 在对话中说 "set budget cap to $5" 或者修改配置文件

渲染后自审

  • FFprobe 验证:分辨率、帧率、码率是否符合规格
  • 关键帧提取:人工抽检视觉质量
  • 音频分析:音量、静音检测、同步验证

7 维度提供商评分系统

当同一个任务有多个可选的视频/图像生成提供商时,系统用 7 个维度打分选择:

维度权重说明
任务匹配度30%这个提供商对当前类型任务的专长
输出质量20%历史评测的质量分数
可控性15%支持多少参数精细控制
可靠性15%API 稳定性和成功率
成本效率10%单位输出的费用
延迟5%生成速度
连续性5%跨场景风格一致性能力

所有选择都写入决策审计日志,包含推理过程。出了问题可以回溯"AI 为什么选了这个提供商"。

参考视频分析功能

一个很实用的功能:提供一个 YouTube / TikTok / Reels 链接作为参考:

帮我做一个类似这个风格的视频:https://youtube.com/watch?v=xxx 主题换成量子计算,时长 2 分钟,但是面向中国观众

Agent 会分析参考视频的:

  • 旁白文本和节奏
  • 场景切换频率和节拍
  • 视觉风格类型
  • 钩子结构(前 5 秒的设计)

然后生成差异化的制作方案(不复制原视频,而是学习风格),并附上费用估算,等待确认后才开始执行。


项目地址与资源

官方资源

  • 🌟GitHub: calesthio/OpenMontage
  • 📺YouTube 频道: @OpenMontage(示例视频)
  • 💬GitHub Discussions: 展示作品、提问、提想法

技术栈参考

  • Remotion: remotion.dev
  • GSAP: greensock.com/gsap
  • Piper TTS: 开源离线 TTS

总结

OpenMontage 把视频制作这件事从"要会用十几个专业软件"变成了"在 AI 编程助手里描述你想要什么"。

12 条流水线覆盖了从科普动画到产品广告的主要视频类型;52 个工具对接了视频/图像/TTS/音乐/素材的完整供应链;质量治理机制在防止 AI 交付一个幻灯片风格的劣质输出;预算控制机制让成本可预期。

零付费路径意义在于:即使完全没有 API 预算,也能跑通整个流程理解系统是怎么工作的,再按需接入付费服务。

9k Stars 对于一个功能如此复杂的项目来说增长速度很快,说明"AI 辅助视频制作"这个方向有真实需求。


探索 PrimeSkills —— 精选 AI Agent 与技能的市场,每一个都经过真实企业工作流验证,去掉浮夸,留下真正有用的。

欢迎访问我的个人主页,发现更多有价值的见解和有趣的产品。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 11:45:02

独立研究者开发的土耳其语“形态大脑“

这项由独立研究者完成的研究以预印本形式发布于2026年6月17日,论文编号为arXiv:2606.18717,有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。土耳其语有一种神奇的"积木特性"。一个最基本的词根,可以通过不断往后面粘…

作者头像 李华
网站建设 2026/6/23 11:40:15

Childhood,23款童年卡牌游戏复刻

卡牌游戏 刀杀鸡龙虎斗兽棋 军师旅团营猫捉老鼠小皇帝 经典棋盘游戏 中国象棋国际象棋军棋(棋盘版) 五子棋黑白棋国际跳棋 井字棋中国跳棋围棋 欢乐骰子游戏 飞行棋 童年棋盘游戏 狼吃羊憋茅坑小猫钓鱼钻牛角尖…

作者头像 李华
网站建设 2026/6/23 11:39:03

大数据需要掌握哪些主流大数据工具框架

分布式存储与基础底座 Hadoop是大数据行业的底层核心底座,至今仍是企业数据仓库、离线数仓、海量数据归档的主流方案,不会被淘汰。核心掌握两大组件:HDFS分布式文件存储、YARN资源调度。无需深耕底层源码,重点掌握集群基础运维、任…

作者头像 李华
网站建设 2026/6/23 11:38:55

React 可拖拽列宽 + 点击行选中 ProTable 封装笔记

整体思路 把功能拆成两部分解耦: 列宽拖拽核心逻辑:独立封装可调整表头组件,无业务侵入ProTable 业务封装:集成列宽拖拽 点击行选中 选中状态受控/非受控 暴露清空选中方法 两个文件配合使用,开箱即用&#xff0…

作者头像 李华
网站建设 2026/6/23 11:34:11

.NET 高级开发 | 设计、实现一个事件总线框架

使用事件总线在编写事件总线框架之前,首先了解 Maomi.EventBus 的使用,其示例代码参考 Demo8.Console 项目。创建一个项目,然后通过 nuget 引入 Maomi.EventBus 包。这里我们来模拟用户注册的流程,模拟用户注册流程。假设用户提交…

作者头像 李华
网站建设 2026/6/23 11:23:40

Vscode 使用Copilot拓展接入deepseek v4

1.首先去deepseek开放平台去申请一个API key[注意:申请完成后请立即复制并妥善保存您的key,该信息仅显示一次]2. 在vscode中安装DeepSeek V4 for Copilot Chat 拓展,并启用3. 在 VS Code 中配置 API Key打开命令面板(CmdShiftP / …

作者头像 李华