哈佛等联合研究团队揭开视频生成模型的致命盲区-育师

这项由哈佛大学牵头，联合麻省理工学院、约翰斯·霍普金斯大学、卡内基梅隆大学、波士顿大学、谷歌及MIT-IBM Watson AI实验室多机构完成的研究，于2026年6月25日以预印本形式发布，编号为arXiv:2606.27537。研究的核心成果是一个名为MemoBench的评测基准，专门用来衡量视频生成模型在物体"消失再出现"场景下的记忆能力。

假设你正在拍一段厨房视频。镜头先对准炉子上慢慢沸腾的汤锅，然后你转过身去拿一根勺子，镜头跟着你转向了餐柜，等你再转回来，屏幕里的汤锅还在吗？颜色对不对？水位有没有变化？对于真实的摄像机，这个问题简单到可笑——因为物理世界的汤锅就在那里，无论镜头看不看它，它都持续沸腾着。但对于一个用AI生成视频的软件来说，这个看似幼稚的问题，却是一道至今没有模型能满分通过的难题。

正是为了系统地测量这道难题，研究团队构建了MemoBench。这个基准数据集由360段高清视频构成，每一段都遵循同一个剧本结构：目标物体先在画面中可见，随后摄像机转向别处让物体消失，最后摄像机转回来，物体重新出现。评测的核心问题就是：重新出现的物体，是不是那个应该出现的样子？

一、为什么AI在"转个身"之后就会"忘事"？

回到那个厨房场景。当AI视频模型工作时，它的思维方式其实更像一个画家，而不是一台摄像机。真实摄像机忠实记录光信号；AI模型则是根据已经看到的画面，推测并"画出"下一帧应该是什么样子。这个推测过程依赖大量的统计规律——模型在海量视频数据上学习过"汤锅通常长什么样"、"厨房通常有什么布局"，然后用这些记忆来填充新的帧。

问题在于，当镜头转走之后，模型就失去了直接参考的视觉输入。它不再能"看到"那口锅，只能凭借对之前画面的"印象"来推测锅在不可见时发生了什么变化，以及重新入镜时应该呈现什么状态。这种在没有直接视觉输入的情况下维持对物体状态的认知能力，在认知科学里有一个专业名称，叫做"客体永久性"——这是人类婴儿在出生后几个月内就会发展出的能力，知道玩具被布盖住了依然存在。然而，当前最先进的AI视频生成模型，在这个人类婴儿轻松掌握的能力上，表现出令人担忧的缺失。

现有的视频生成评测基准大多只关注"镜头里能看到的东西"，比较两帧之间的颜色是否一致、人物动作是否流畅。少数测试会让物体短暂离开画面，但那些场景里，物体消失期间什么都不变化——环境是静止的。而MemoBench专门针对的是一个更贴近现实的挑战：物体消失期间，世界还在继续变化。那口锅里的汤，在镜头看不见它的时候，还是在沸腾的。

二、360段视频构成的"消失与重现"考卷

MemoBench的360段视频分为两大类，各有侧重，共同构成一份全面的考卷。

合成数据集包含196段视频，全部在虚幻引擎5这款专业游戏开发软件中制作。研究团队在14个不同的场景分类下搭建了五类虚拟环境，涵盖城市街道、农场、日式庭院等多种风貌。在每个场景里，一个有动画效果的目标物体沿预设路径运动，摄像机则跟随一个"第一人称观察者"按照剧本走：先面向目标物体（可见阶段），再做一个转头、掉头或U形弯（消失阶段），最后回到原来的方向（重现阶段）。这批视频的最大优势在于精准可控：每一帧都同步导出了RGB图像、精确深度图、相机内外参数，为评测提供了扎实的几何基准。

真实世界数据集包含164段视频，覆盖7大类共30种物理状态变化过程。研究团队在受控的室内环境中录制了各种化学与物理变化：溶解（固体溶于水中）、燃烧（蜡烛或纸张被点燃）、扩散与吸收（墨水在水中晕开，液体渗入布料）、化学反应（颜色变化、气体产生）、粘性流动（倒液体、滴水、软泥变形）、泡沫与气泡（碳酸饮料起泡、洗洁精泡沫消散），以及物理形变（压缩、撕裂、弯曲）。摄像机同样执行三段式动作：先对准变化中的物体，然后摇开，再摇回来。这批视频的核心价值在于材料多样性——游戏引擎无法精确模拟粘度、弹性、热传导等真实物理属性，只有真实录像才能捕捉这些细腻的状态变化。

每段视频都由人工标注了两个关键时间节点：目标物体完全离开画面的帧，以及目标物体完全重新进入画面的帧。这两个节点将整段视频切分为三个评测阶段，研究团队在不同阶段分别衡量模型的表现。

三、测量AI记忆力的工具箱

给AI的记忆力打分，不是一件可以凭直觉完成的事。研究团队设计了一套由自动化指标和大语言模型问答两部分组成的评测体系，两者互补。

自动化指标这一侧，研究团队首先关注整体视频质量，通过两个不依赖参考视频的评分工具——LAION美学评分和CLIP-IQA+图像质量评分——来衡量生成画面的视觉观感，然后将这两个分数平均，映射到0到100的范围内。

运动流畅度的测量借助了RAFT-Large光流算法，这个工具专门用来分析两帧之间的像素移动情况。简单说，就是用第一帧预测第二帧应该长什么样，再对比预测和实际的差距——差距越小，运动越流畅。注意，这个指标只在物体可见阶段和重现阶段计算，消失阶段被有意排除在外。

物体身份一致性的测量使用了DINOv2这个视觉特征提取工具。具体做法是，把每帧图像分成许多小块，提取每块的视觉特征向量，然后计算重现阶段的帧与视频第一帧之间最相似的那40%小块的平均相似度。之所以选相似度最高的40%，是为了聚焦于画面中持续存在的前景物体，而不是整体场景。计算时既考虑所有帧的平均相似度，也特别关注最差帧的最低相似度，两者按7比3加权合并，这样即使偶尔出现一帧极差表现，也无法被整体平均掩盖。

三维几何一致性则通过Depth Anything V2深度估计模型实现。这个模型能从单张图片估算出每个像素距离镜头的远近，生成深度图。研究团队比较相邻帧的深度图是否相似——如果AI在生成过程中悄悄改变了场景的三维结构，深度图就会出现跳变，这个指标就会下降。

在这些通用指标之外，研究团队还专门为"消失再重现"这一核心场景设计了专属指标。其中最关键的叫做"物体重现分数"，英文缩写ORS。这个分数回答一个最基本的问题：当摄像机转回来的时候，那个目标物体有没有出现在画面里？评测方法是用SAM-3这个文字驱动的分割模型，用目标物体的文字描述去检测每一帧画面。如果检测到了合理大小的目标物体，就记录检测置信度；最终将成功检测帧的比例乘以平均置信度，得出ORS分数。分数高说明模型在重现阶段能稳定地生成可辨识的目标物体，分数低则意味着物体消失了、变得面目全非，或者直接融入背景。

对于有真实视频参考的样本，研究团队还在三个阶段分别计算像素级保真度，包括峰值信噪比PSNR、结构相似度SSIM，以及基于深度神经网络的感知距离LPIPS。通过对比可见阶段和重现阶段的分数差异，可以直观看出模型在物体重新入镜时保真度下降了多少。

摄像机轨迹控制能力同样被纳入评测。研究团队用MapAnything工具从生成视频中估算每帧的摄像机位姿，与真实轨迹对比旋转误差——因为"消失再重现"剧本的核心就是摄像机转向，控制旋转角度的能力是衡量模型能否真正执行预定轨迹的关键。

除了这些数值化的自动指标，研究团队还构建了一套大语言模型驱动的问答评测体系。这套体系的工作流程像是一个三轮筛选的考官系统。首先，大语言模型根据视频的文字提示和第一帧图像，生成24道是非题，涵盖四个维度：对指令的执行情况、物体与背景的一致性、记忆连续性，以及物理合理性。每个维度6题，且刻意混合正向题（答"是"代表通过）和反向题（答"是"代表失败），以避免模型一味答"是"就能得高分的情况。接下来进入双重过滤：先把这些题目拿去看真实视频，删掉模型答错的题目；再把剩余题目拿去看人工制作的失败案例，删掉那些无法识别出已知错误的题目。经过人工审核确认题目清晰无歧义之后，最终的题库才被用于评测每个AI模型。

为了验证这套问答评测的可靠性，研究团队邀请了30位博士研究员和资深AI工程师对真实视频进行人工答题，结果人类与大语言模型的答题一致率高达92.9%，统计学上用于衡量一致程度的Cohen's κ系数达到0.85，属于非常高的一致水平。这说明这套问答体系的判断标准与人类直觉高度吻合。

四、十个模型的大考——没有人能满分

研究团队对10个当前最先进的视频生成模型进行了全面评测，这些模型分为三大类。

第一类是"摄像机可控的图生视频模型"，简称CI2V。这类模型接受第一帧图像、文字描述和具体的摄像机运动轨迹作为输入，理论上能够按照指定路径移动镜头。参评的五个模型分别是LingBot-World、Wan2.2、FantasyWorld、HunyuanWorldPlay和HunyuanGameCraft。

第二类是基于三维重建的模型，包括Matrix-Game 2.0和Stable Virtual Camera。这类模型先从第一帧图像构建一个三维场景表示，然后从指定的摄像机角度渲染新视角。

第三类是普通的"图生视频模型"，不接受摄像机轨迹控制，只根据图像和文字描述生成视频。参评的三个模型是Open-SoRA、LTX-Video和CogVideoX。

考试结果揭示了几个清晰而有趣的规律。

Stable Virtual Camera在摄像机控制和像素保真度上领先，因为它是直接从三维坐标渲染图像，轨迹精度由数学保证。但它的视觉质量评分却相对偏低，原因在于渲染过程中会出现模糊、接缝和深度填补错误等视觉瑕疵。Matrix-Game 2.0同样基于三维表示，但它通过动作条件而非直接位姿输入来控制视角，导致摄像机轨迹精度大幅下降，只相当于普通图生视频模型的水平。这说明，决定轨迹控制精度的关键不是有没有三维表示，而是这个三维信息有没有被直接用于控制摄像机角度。

LTX-Video在通用视频质量的三项指标中位居前列，物体重现分数也达到了0.330，看起来相当不错——但这背后藏着一个隐患。LTX-Video几乎不移动摄像机：当连续帧之间几乎一模一样时，流畅度自然满分，深度一致性自然满分，物体一致性也自然满分，甚至物体重现分数也会虚高，因为目标物体根本就没有真正离开过画面。这就像一个"考试作弊"策略——通过偷懒回避难题来获得高分，但实际上根本没有解决"摄像机转身后还能记住物体"这个核心挑战。

在真正执行了摄像机轨迹的模型中，HunyuanWorldPlay的物体重现分数最高，达到0.582；LingBot-World紧随其后，在像素保真度指标上领先所有CI2V模型。然而，即便是最好的成绩，距离"可靠"还相当遥远——没有任何一个模型的物体重现分数超过0.6，意味着即使是最优秀的模型，在重现阶段也有相当比例的帧无法可靠地呈现目标物体。

摄像机控制能力本身并不能自动带来更好的物体记忆。五个CI2V模型都接受摄像机轨迹输入，但它们的物体记忆表现差距悬殊：FantasyWorld的视觉质量高于LingBot-World，但物体重现分数却低得多。这说明模型在学习如何跟踪摄像机轨迹的同时，并没有自动发展出维持被遮挡物体状态的能力。物体永久性必须作为一个独立目标在模型设计和训练中被专门处理，而不是作为其他能力的自然附产品。

大语言模型问答评测进一步揭示了自动化指标遗漏的问题。Matrix-Game 2.0在自动化指标中视觉质量最高，但在问答评测的物体与背景一致性、物理合理性两个维度上垫底。这是因为三维渲染模型产生的扭曲接缝、纹理闪烁等视觉错误，在数值质量分数上体现不明显，但会被理解场景语义的大语言模型所察觉和惩罚。

在问答评测的"记忆连续性"这个最核心维度上，所有模型的表现都令人担忧。分数最高的LTX-Video同样因摄像机不动而存在虚高嫌疑；在真正执行轨迹的模型中，HunyuanWorldPlay以55.6分最高，但这意味着将近一半与记忆相关的问题还是没能答对。问答评测的物理合理性维度则由HunyuanWorldPlay以63.6分领先，紧随其后的是LTX-Video的63.5分和HunyuanGameCraft的61.0分。

五、两份失败日记：合成场景与真实场景的不同考验

研究团队还对LingBot-World进行了专项失败分析，将观察到的错误分为六类：目标物体完全消失、物体外观漂移变样、物体状态被重置回消失前的样子、物体发生瞬移、背景产生幻觉般的错误内容，以及摄像机轨迹偏离预期。

在合成数据集上，背景幻觉是最常见的失败，共出现131次；目标物体消失次之，有85次；摄像机偏移出现72次；物体瞬移出现54次；外观漂移出现49次；状态被重置则只有5次。在真实世界数据集上，失败模式有所不同：外观漂移跃升为最常见问题，出现83次；背景幻觉次之，57次；摄像机偏移35次；目标消失15次；物体瞬移13次；状态重置只有2次。

这种差异反映了两类数据的本质特点。合成场景的摄像机运动更复杂，U形掉头、自由轨迹让背景随之剧烈变化，模型容易在大角度旋转后"忘记"背景应该是什么样子，于是凭空生成了看似合理但实际错误的场景。真实世界场景的摄像机运动相对简单，主要是水平平移和垂直倾斜，但目标物体会发生真实的物理状态变化。模型虽然能"记住"物体大概在哪里，却无法准确把握物体在消失期间经历了多少状态变化，结果生成的重现物体外观与真实状态不符，产生身份漂移。

六、细节中的规律——消融实验揭示的深层逻辑

研究团队还进行了一系列针对性的对照实验，验证各项设计选择的合理性并挖掘更深层的规律。

物体重现分数的鲁棒性测试表明，这个指标对检测区域的阈值设置相当不敏感：在八种不同的覆盖率阈值配置下，LingBot-World的分数最大波动只有0.013，Stable Virtual Camera只有0.020。但提示文字的措辞非常重要：使用完整的目标物体描述与稍加改写的表达差异很小，但一旦只使用物体名称的第一个词，分数就会急剧下降。这说明该指标确实在衡量语义层面的物体识别，而不是简单的纹理匹配。

进一步按物体尺寸分层，大型物体（占画面面积超过10%）得到更高的物体重现分数，中型和小型物体分数依次下降。按摄像机旋转角度分层，旋转超过120度的重现场景下，Stable Virtual Camera的物体重现分数接近零——这意味着在极大角度转身后，三维渲染模型在重建场景时已经出现严重失真，目标物体实际上无法被可靠识别。

针对初始帧条件与模型参数规模的对比实验非常有启发性。研究团队测试了Wan2.2的5B和14B两个版本，分别在有无第一帧图像条件的情况下对比表现。结论是：提供第一帧图像，对GT对齐保真度的提升幅度，远大于把模型从50亿参数扩大到140亿参数。5B模型加入第一帧图像后，PSNR提升了4.2分贝；14B模型加入后提升了4.7分贝。相比之下，参数规模翻近三倍带来的改善要小得多。然而，14B的无条件版本（不提供第一帧）在自我一致性指标上——物体一致性、运动流畅度、几何一致性——反而更高。这说明"自我内部一致"和"与真实世界一致"是两件不同的事：一个模型可以生成自圆其说的流畅视频，但它的内容与真实应有的状态完全不符。这个发现为同时使用GT对齐指标和自我一致性指标的设计选择提供了实验支撑。

过滤掉摄像机运动不足的样本，只保留摄像机旋转角度超过90度的片段重新评测，排行榜发生了显著变化。Stable Virtual Camera的摄像机控制分数达到92.43的峰值，但物体重现分数跌至0.012，几乎为零。LingBot-World的摄像机控制分数75.04，物体重现分数0.281，在所有真正执行轨迹的模型中兼顾两端表现最为均衡。LTX-Video在这个筛选条件下的物体重现分数仍有0.248，但那是因为部分样本中它依然没有充分移动摄像机。这一结果揭示了一个隐藏的权衡关系：准确跟随摄像机轨迹的能力和维持物体记忆的能力，在现有模型中存在明显的张力，两者很难同时做好。

归根结底，MemoBench用一套精心设计的测试体系揭示了当前AI视频生成领域一个核心的未解难题：模型可以生成流畅的视频，可以追踪摄像机的移动，可以维持短时间内画面内容的一致性，但一旦目标物体从画面中消失，哪怕只是短暂地消失，模型就会丢失对那个物体的"记忆"。重新入镜的物体可能变了样，可能消失了，可能被重置回初始状态，也可能根本就是从虚空中重新生成的一个相似但并非同一个物体。

这对于机器人、自动驾驶、游戏世界建模、增强现实等众多真实应用来说，是一个无法回避的障碍。一个自动驾驶系统的视觉模块，必须在路口行人走到视野盲区后，仍然记得那个人在哪里、往哪个方向走、走得多快。一个机器人助手，必须在转头拿工具的一两秒后，仍然记得工作台上那颗螺丝的位置有没有变化。现有的模型，在MemoBench这道题上，还远远没有达到这些应用所需要的可靠水平。

研究团队将数据集、代码和实时排行榜公开，期待这个基准能够成为推动该领域研究的共同标尺。感兴趣的读者可以通过arXiv编号2606.27537查阅完整论文，获取全部技术细节和实验数据。

Q&A

Q1：MemoBench评测的核心指标ORS是如何判断物体有没有在画面里出现的？

A：ORS使用SAM-3这个文字驱动的分割模型，在重现阶段的每一帧图像上，用目标物体的文字描述进行检测。检测到符合合理面积范围的物体就算成功，并记录置信度分数。最终ORS等于成功检测帧比例乘以平均置信度，数值越高说明模型越可靠地让物体在重现阶段"现身"。

Q2：为什么LTX-Video在多项指标上排名靠前，却不算真正解决了记忆问题？

A：LTX-Video的高分主要源于它几乎不移动摄像机。当相邻帧内容几乎完全一样时，流畅度、几何一致性和物体一致性这些指标自然都会很高，物体也从未真正消失所以重现分数也虚高。这就像考生通过跳过难题来保住简单题分数，但MemoBench设计的考卷专门考的就是那道"转身之后还记不记得"的难题，LTX-Video实际上回避了这道题而非解答了它。

Q3：MemoBench的合成视频和真实视频在测量目的上有什么区别？

A：合成视频侧重空间多样性，提供了精确的三维几何信息、摄像机参数和深度图，适合评测模型在复杂摄像机轨迹下的空间记忆能力。真实视频侧重材料多样性，涵盖游戏引擎无法精确模拟的粘度、弹性、热传导等真实物理变化，适合评测模型对真实物质状态演化的记忆能力。两者共同覆盖了"空间记忆"和"状态记忆"这两个不同维度的挑战。

哈佛等联合研究团队揭开视频生成模型的致命盲区

《Windows Go gRPC 端口占用 bind 报错完整解决方案｜Kratos 微服务优雅停机保姆级教程》

3分钟从B站视频到文字稿：bili2text终极指南

iSpaRo 2025｜月球基地布线，机器人“胳膊不够长”怎么办？

《传世无双》2026年7月最新官网下载：九大元神组合与实战攻略

【JAVA毕设源码分享】基于springboot基于协同过滤课程推荐的线上安全教育平台的设计与实现(程序+文档+代码讲解+一条龙定制)

使用74HC165与ARM Cortex-M4实现高效并行转串行输入设计