news 2026/6/23 21:12:31

【复旦-AAAI26】Segment Anything Across Shots

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【复旦-AAAI26】Segment Anything Across Shots

文章:Segment Anything Across Shots: A Method and Benchmark

代码:https://henghuiding.com/SAAS/

单位:复旦大学


引言

在视频编辑、自动驾驶、人机交互等场景中,“视频目标分割”技术一直扮演着关键角色——给定视频第一帧的目标掩码,AI需要全程精准追踪并分割该目标。但现实中我们接触的视频大多是多镜头剪辑而成(比如电影切镜、vlog换场景),传统方法在镜头切换时往往“认不出”目标,性能大幅下滑,成为学术研究与实际应用之间的一道鸿沟。

一、问题背景:多镜头分割的核心痛点

传统视频目标分割(VOS)方法主要针对单镜头视频优化,而真实世界的多镜头视频(MVOS)存在三大挑战:

  1. 镜头切换断层:不同镜头中目标的外观、位置、背景可能发生剧烈变化,现有模型(如SAM2、XMem)性能会暴跌,SAM2-B+在多镜头场景下的J&F值甚至下降21.4%;

  2. 训练数据稀缺:多镜头视频的标注成本极高,目前仅有YouMVOS一个相关数据集,且存在标注未开源、镜头切换少、目标类别单一(以人类为主)等问题;

  3. 评估基准不足:缺乏能反映真实多镜头复杂度的测试数据集,无法公平衡量模型的跨镜头分割能力。

这些问题导致现有技术难以应用于视频编辑、多摄像头监控等实际场景,亟需针对性的解决方案。

二、方法创新:三大核心突破,搞定多镜头分割

为解决上述痛点,复旦团队提出“数据增强+专用模型+全新基准”的三位一体方案,核心创新包括:

1. 过渡模拟数据增强(TMA):单镜头数据也能练出多镜头能力

针对多镜头标注数据稀缺的问题,TMA策略通过在单镜头视频上模拟多种镜头切换效果,生成高质量的多镜头训练样本:

  • 支持四种核心过渡模式:包括画面翻转/缩放(模拟远景-特写切换)、同视频不同片段拼接(模拟时间跨度带来的姿态变化)、跨视频切回(模拟切走再切回场景)、目标复制平移(模拟延迟切入);

  • 无需依赖真实多镜头标注,仅用现有单镜头数据集就能让模型学习跨镜头适应能力,大幅缓解数据稀疏问题。

2. SAAS模型:精准识别+理解镜头切换

基于SAM2框架,团队设计了首个专门针对多镜头视频的半监督分割模型——Segment Anything Across Shots(SAAS),核心模块包括:

  • 过渡检测模块(TDM):用轻量级卷积金字塔实时判断当前是否发生镜头切换,引导模型启用不同分割策略;

  • 过渡理解模块(TCH):结合场景记忆库和相邻帧特征,解析切换类型并优化目标特征,搭配目标存在预测、边界框回归两个辅助目标提升准确性;

  • 局部记忆库(B_local):存储目标细粒度特征(如衣服花纹、物体标记),即使镜头切换也能通过细节精准识别目标。

3. Cut-VOS基准:首个开源的多镜头分割测试集

为公平评估模型性能,团队构建了全新的多镜头视频分割基准Cut-VOS:

  • 包含100个视频、174个目标、10.2K高质量掩码,覆盖11类目标(是YouMVOS的3倍);

  • 镜头切换频率达0.346次/秒(是YouMVOS的1.6倍),手动筛选9种复杂过渡类型(如延迟切入、场景突变、特写切换);

  • 完全开源标注,成为首个支持多镜头分割研究的完整基准。

三、实验结果:性能全面刷新SOTA

在YouMVOS和Cut-VOS两大基准上的测试显示,SAAS模型表现亮眼:

  1. 核心指标领先:SAAS-B+在YouMVOS上的J&F值达73.5%、跨镜头Jt值达68.9%,分别超越SAM2-B+ 5.9%和5.2%;在更复杂的Cut-VOS上,J&F值达60.7%、Jt值达53.1%,大幅领先现有方法;

  2. 模块有效性验证:消融实验表明,TMA策略、局部记忆库、过渡理解模块分别能提升2.8%、2.4%、4.9%的J&F值,三者结合效果最优;

  3. 泛化能力出色:在传统单镜头数据集(如DAVIS2017、YoutubeVOS)上,SAAS性能与SAM2相当,不会因多镜头优化而“偏科”。

四、优势与局限

核心优势

  1. 实用性强:首次实现多镜头场景下的高精度分割,填补了实际应用缺口,可直接用于视频编辑、自动驾驶多摄像头融合等场景;

  2. 成本可控:TMA策略降低了对多镜头标注数据的依赖,无需额外大规模标注就能训练;

  3. 生态完善:开源的Cut-VOS基准为后续研究提供了统一的评估标准,推动多镜头分割领域发展。

现存局限

  1. 面对目标极端外观变化(如同一人更换衣服、发型)时,仍难以精准匹配,因为TMA无法有效模拟此类场景;

  2. 对完全未见过的目标局部区域(如极端特写镜头),分割精度有待提升,需要更强的推理能力而非单纯依赖视觉特征匹配。

五、一句话总结

复旦团队通过TMA数据增强、SAAS专用模型和Cut-VOS基准,首次系统性解决了多镜头视频目标分割的核心难题,让AI在镜头切换时也能精准追踪目标,为视频智能编辑、多摄像头监控等实际应用提供了强有力的技术支撑。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 18:55:56

Wan2.2-T2V-A14B模型在儿童教育动画生成中的合规性探讨

Wan2.2-T2V-A14B模型在儿童教育动画生成中的合规性探讨 在小学数学课堂上,一个卡通小熊正用三根彩色木棒拼出一个三角形,旁边的文字缓缓浮现:“三条边首尾相连,就组成了三角形。”孩子们盯着屏幕,眼睛发亮。这看似普通…

作者头像 李华
网站建设 2026/6/23 18:54:10

5分钟学会Beyond Compare密钥生成:简单快速激活终极指南

5分钟学会Beyond Compare密钥生成:简单快速激活终极指南 【免费下载链接】BCompare_Keygen Keygen for BCompare 5 项目地址: https://gitcode.com/gh_mirrors/bc/BCompare_Keygen Beyond Compare 5密钥生成工具让软件激活变得前所未有的简单。无论你是个人用…

作者头像 李华
网站建设 2026/6/23 20:44:49

37、计算机中的熵与算法复杂度解析

计算机中的熵与算法复杂度解析 在计算机科学领域,熵和算法复杂度是两个重要的概念。熵主要涉及随机数生成,而算法复杂度则用于衡量算法的性能和可扩展性。下面将详细介绍这两个方面的内容。 1. 熵与随机数生成 1.1 熵的概念起源 在信息领域,伟大的数学家约翰冯诺伊曼建议…

作者头像 李华
网站建设 2026/6/23 16:03:52

猫抓浏览器扩展终极指南:网页媒体资源智能捕获利器

猫抓浏览器扩展终极指南:网页媒体资源智能捕获利器 【免费下载链接】cat-catch 猫抓 chrome资源嗅探扩展 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 猫抓cat-catch是一款革命性的浏览器扩展工具,专为网页媒体资源捕获和下载管…

作者头像 李华
网站建设 2026/6/23 20:44:52

W_Mesh_28x:Blender参数化建模完整指南

W_Mesh_28x:Blender参数化建模完整指南 【免费下载链接】W_Mesh_28x Blender addon for parametric objects 项目地址: https://gitcode.com/gh_mirrors/wm/W_Mesh_28x W_Mesh_28x是一款专为Blender设计的参数化建模插件,彻底改变了传统3D建模的工…

作者头像 李华
网站建设 2026/6/23 20:45:03

Wan2.2-T2V-A14B如何生成符合特定年龄段审美的动画内容?

Wan2.2-T2V-A14B如何生成符合特定年龄段审美的动画内容? 在儿童教育平台需要为3-6岁孩子制作一集环保主题的动画时,传统流程可能需要编剧、原画师、分镜师和配音团队协作数周。而今天,只需输入一句提示:“一只会说话的小树苗在彩色…

作者头像 李华