news 2025/12/26 13:50:56

MagicTime: Time-Lapse Video Generation Models asMetamorphic Simulators论文精读(1)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
MagicTime: Time-Lapse Video Generation Models asMetamorphic Simulators论文精读(1)

T2V的最新进展在文本描述合成高质量的一般视频方面取得了显著成功,但是在T2V中有一个被忽视的问题:没有充分编码真实世界的物理知识,因此生成的视频往往运动会被限制,变化不佳。因此本文提出了一个变形延时视频生成模型,从延时视频中学习真实世界的物理知识。

MagicTime 通过解耦训练、动态帧采样、增强文本理解三大核心策略,结合 ChronoMagic 数据集,实现了高质量变质延时视频的生成,为构建物理世界的变质模拟器提供了有效路径,同时其框架可无缝集成到现有社区模型,为后续研究提供基础。

(一)Introduction

介绍了一下T2V模型现状,然后提出当今模型生成视频缺乏连续的对象变形过程,对物理知识的融入有限如下图a所示,由于训练数据集主要由一般视频组成,当前T2V模型难以生成种子发芽、冰山融化等复杂现象的视频。另一类视频涵盖主体的整个变化过程,文中将这类视频称为变性视频,如图b所示。

此前在Free-bloom: Zero-shot text-to-video generator with LLM director and LDM animator的研究中虽然使用重复推断和连接普通视频产生了类似效果,但是编码物理知识方面有所欠缺,所以本文目标是开发一种端到端的延时视频生成方法,用于自适应编码有较强繁华能力的物理知识。

为了应对生成变性视频的挑战,本文引入了一个MagicTime框架,可以制造时间维度压缩的视频。首先是提出了魔术自适应策略来把物理知识编码到特征提取中,然后提出了动态帧提取策略让模型可以适应延时训练视频,此外还引入一个元文本编码器完善提示理解。

本文还收集了一个数据集,并展示优越性:

(二)Related Work

围绕文本到视频(T2V)生成的相关领域展开梳理,明确现有研究的进展与局限,先是介绍了T2I的发展,然后是T2V发展,然后介绍到本文的延时视频生成,工作目标是生成高质量变性延时视频。这一部分通过梳理 T2I、T2V、延时视频生成三大领域的研究现状,明确了现有工作在 “物理知识编码” 和 “变质过程生成” 上的空白,为本文 MagicTime 框架(融入物理知识、针对变质视频设计专属策略)和 ChronoMagic 数据集(聚焦变质延时视频)的提出提供了合理性与必要性支撑。

(三)Methodology

这一部分简要概述扩散模型,然后描述了ChronoMagic数据集构造。

ChronoMagic Dataset

收集过程:

从YouTube上检索原始视频,使用延时作为搜索条件,随后将标题较短、观看次数较少或缺少标签的视频排除在外。最终收集了2265个符合标准的延时视频。

为了解决互联网视频中场景过渡混乱的问题,确保视频片段连贯性,首先将F定为所有视频帧的集合,然后在初始阶段将F中的每一帧转换为灰度图以减轻颜色对检测的影响:

随后计算连续帧之间的像素强度差:

并计算平均像素强度:

当平均像素强度大于某个阈值,就将这个位置定义为过渡点,但是这种简单的方法易出错,进一步使用CLIP检测转变:

用 CLIP 计算帧的特征相似度,低于阈值则标记为过渡点,仅当两个阶段均标记为过渡点时,才进行视频分割,最终得到低过渡、高连贯的视频片段。使用识别的转换点将视频分割成不同的部分,最终得到较少过渡的高质量视频数据集:

补充:CLIP 计算帧特征相似度的核心逻辑是 “先提取帧的语义级特征向量,再通过余弦相似度衡量向量间的语义一致性”。

多视点文本融合:

采用基于GPT-4V的上下文学习和思想链来分阶段生成字幕:

随后,使用这些字幕来开发整个视频的综合表示,最终生成最终的视频字幕。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/26 21:17:12

Laravel 13多模态表单处理:从入门到精通的6大实战场景,错过等于失业

第一章:Laravel 13多模态表单处理概述在现代Web应用开发中,表单不再局限于文本输入。Laravel 13 引入了对多模态数据的原生支持,允许开发者在一个请求中高效处理文本、文件、JSON结构体甚至流媒体数据。这一能力极大增强了表单处理的灵活性与…

作者头像 李华
网站建设 2025/12/24 14:52:05

读捍卫隐私03同步

1. 隐私预期1.1. expectation of privacy1.2. 隐私预期应该从传统的纸质信件时代扩展到数字时代1.3. 在美国,执法部门在没有得到收信人许可的情况下不能打开密封的实体信函1.4. 隐私预期是一种司法测试,用于确定美国宪法《第四修正案》声明的隐私保护是否…

作者头像 李华
网站建设 2025/12/22 19:09:35

[Android] B站第三方电视TVapp BV_0.3.10

[Android] 哔哩哔哩第三方电视TVapp BV_0.3.10 链接:https://pan.xunlei.com/s/VOgBfL5mtfupyqvldvMw5dWUA1?pwd45ud# b站官方的TV版使用体验颇受争议,因此许多用户更倾向于使用网上广受好评的第三方开发的TV版本(BBLL)。这款第…

作者头像 李华
网站建设 2025/12/23 14:19:06

【time-rs】 time-core crate 的 Cargo.toml 配置文件详解

概述 time-core 是 time-rs 项目的底层核心库,提供基础的时间算法和数据类型。这个配置文件体现了其作为"内部实现细节"的定位,设计上高度精简且专注于特定用途。 1. 包基本信息分析 包标识与定位 name "time-core" # 明…

作者头像 李华
网站建设 2025/12/17 17:41:35

政府网站与政务新媒体考核指标有什么区别

政府网站与政务新媒体虽然都是数字政府建设的重要组成部分,但由于其载体性质、传播方式和服务定位不同,上级监管部门(如国办、网信办)对二者的考核指标存在显著区别。简单来说,政府网站考核更侧重“功能完备与服务供给…

作者头像 李华
网站建设 2025/12/13 5:30:02

FLUX.1 Kontext终极指南:重新定义AI图像编辑的边界

FLUX.1 Kontext终极指南:重新定义AI图像编辑的边界 【免费下载链接】FLUX.1-Kontext-dev 项目地址: https://ai.gitcode.com/hf_mirrors/black-forest-labs/FLUX.1-Kontext-dev 你是否曾经遇到过这样的困扰:想要精确修改图片中的某个元素&#x…

作者头像 李华