【复旦-AAAI26】Segment Anything Across Shots-育师

文章：Segment Anything Across Shots: A Method and Benchmark

代码：https://henghuiding.com/SAAS/

单位：复旦大学

引言

在视频编辑、自动驾驶、人机交互等场景中，“视频目标分割”技术一直扮演着关键角色——给定视频第一帧的目标掩码，AI需要全程精准追踪并分割该目标。但现实中我们接触的视频大多是多镜头剪辑而成（比如电影切镜、vlog换场景），传统方法在镜头切换时往往“认不出”目标，性能大幅下滑，成为学术研究与实际应用之间的一道鸿沟。

一、问题背景：多镜头分割的核心痛点

传统视频目标分割（VOS）方法主要针对单镜头视频优化，而真实世界的多镜头视频（MVOS）存在三大挑战：

镜头切换断层：不同镜头中目标的外观、位置、背景可能发生剧烈变化，现有模型（如SAM2、XMem）性能会暴跌，SAM2-B+在多镜头场景下的J&F值甚至下降21.4%；
训练数据稀缺：多镜头视频的标注成本极高，目前仅有YouMVOS一个相关数据集，且存在标注未开源、镜头切换少、目标类别单一（以人类为主）等问题；
评估基准不足：缺乏能反映真实多镜头复杂度的测试数据集，无法公平衡量模型的跨镜头分割能力。

这些问题导致现有技术难以应用于视频编辑、多摄像头监控等实际场景，亟需针对性的解决方案。

二、方法创新：三大核心突破，搞定多镜头分割

为解决上述痛点，复旦团队提出“数据增强+专用模型+全新基准”的三位一体方案，核心创新包括：

1. 过渡模拟数据增强（TMA）：单镜头数据也能练出多镜头能力

针对多镜头标注数据稀缺的问题，TMA策略通过在单镜头视频上模拟多种镜头切换效果，生成高质量的多镜头训练样本：

支持四种核心过渡模式：包括画面翻转/缩放（模拟远景-特写切换）、同视频不同片段拼接（模拟时间跨度带来的姿态变化）、跨视频切回（模拟切走再切回场景）、目标复制平移（模拟延迟切入）；
无需依赖真实多镜头标注，仅用现有单镜头数据集就能让模型学习跨镜头适应能力，大幅缓解数据稀疏问题。

2. SAAS模型：精准识别+理解镜头切换

基于SAM2框架，团队设计了首个专门针对多镜头视频的半监督分割模型——Segment Anything Across Shots（SAAS），核心模块包括：

过渡检测模块（TDM）：用轻量级卷积金字塔实时判断当前是否发生镜头切换，引导模型启用不同分割策略；
过渡理解模块（TCH）：结合场景记忆库和相邻帧特征，解析切换类型并优化目标特征，搭配目标存在预测、边界框回归两个辅助目标提升准确性；
局部记忆库（B_local）：存储目标细粒度特征（如衣服花纹、物体标记），即使镜头切换也能通过细节精准识别目标。

3. Cut-VOS基准：首个开源的多镜头分割测试集

为公平评估模型性能，团队构建了全新的多镜头视频分割基准Cut-VOS：

包含100个视频、174个目标、10.2K高质量掩码，覆盖11类目标（是YouMVOS的3倍）；
镜头切换频率达0.346次/秒（是YouMVOS的1.6倍），手动筛选9种复杂过渡类型（如延迟切入、场景突变、特写切换）；
完全开源标注，成为首个支持多镜头分割研究的完整基准。

三、实验结果：性能全面刷新SOTA

在YouMVOS和Cut-VOS两大基准上的测试显示，SAAS模型表现亮眼：

核心指标领先：SAAS-B+在YouMVOS上的J&F值达73.5%、跨镜头Jt值达68.9%，分别超越SAM2-B+ 5.9%和5.2%；在更复杂的Cut-VOS上，J&F值达60.7%、Jt值达53.1%，大幅领先现有方法；
模块有效性验证：消融实验表明，TMA策略、局部记忆库、过渡理解模块分别能提升2.8%、2.4%、4.9%的J&F值，三者结合效果最优；
泛化能力出色：在传统单镜头数据集（如DAVIS2017、YoutubeVOS）上，SAAS性能与SAM2相当，不会因多镜头优化而“偏科”。