news 2026/6/23 9:17:02

在线教程丨30毫秒处理100个检测对象,SAM 3实现可提示概念分割,性能提升2倍

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
在线教程丨30毫秒处理100个检测对象,SAM 3实现可提示概念分割,性能提升2倍

在视觉场景中识别并分割任意物体的能力,是多模态人工智能的重要基础,可广泛应用于机器人、内容创作、增强现实、数据标注等领域。SAM(Segment Anything Model)是 Meta 于 2023 年 4 月发布的人工智能通用模型,提出了针对图像和视频的可提示分割任务,主要支持基于点、框或掩码的提示来分割单个目标。

已推出的 SAM、SAM 2 模型在图像分割领域取得了显著进展,但仍未实现在输入内容中自动寻找并分割某一概念的所有实例。为填补这一空白,Meta 推出最新迭代版本 SAM 3,新版本不仅显著超越了前代模型的可提示视觉分割(PVS)性能,更率先为可提示概念分割(PCS)任务确立了新标准。

SAM 3 在点击提示的视觉分割方面(左图)超越了 SAM 2 并引入了新的可提示概念分割功能(右图)

SAM 3 架构包含一个检测器(detector)与一个跟踪器(tracker),二者共享同一视觉编码器。检测器基于 DETR 框架构建,能够接收文本、几何信息或示例图像作为条件输入。为应对开放词汇概念检测的挑战,研究人员引入了一个独立的「存在头(presence head)」,以此解耦识别与定位过程。

跟踪器则沿用了 SAM 2 的 Transformer 编码器-解码器架构,支持视频分割与交互式优化。这种检测与跟踪分离的设计,有效避免了两项任务之间的冲突:检测器需要保持身份无关性,而跟踪器的核心目标正是在视频中区分并维持不同对象的身份。

SAM 3 架构图

SAM 3 在基准测试 SA-Co 的图像和视频 PCS 任务上取得了 SOTA 结果,性能是前代系统的 2 倍,且在 H200 GPU 上,新版本处理包含超 100 个检测对象的单张图像仅需 30 毫秒。模型还能扩展到 3D 重建领域,助力家装预览、创意视频编辑和科学研究等多场景应用,为计算机视觉的未来发展提供强大动力。

「SAM3:视觉分割模型」已上线 HyperAI 官网(hyper.ai)的教程版块,快来开启你的创作之旅吧!

教程链接:

https://go.hyper.ai/AbyCq

查看论文:

https://hyper.ai/papers/2511.16719

Demo 运行

1.进入 hyper.ai 首页后,选择「SAM3:视觉分割模型」,或进入「教程」页面选择。进入点击「在线运行此教程」。


2.页面跳转后,点击右上角「Clone」,将该教程克隆至自己的容器中。

注:页面右上角支持切换语言,目前提供中文及英文两种语言,本教程文章以英文为例进行步骤展示。

3.选择「NVIDIA GeForce RTX 5090」以及「PyTorch」镜像,按照需求选择「Pay As You Go(按量付费)」或「Daily Plan/Weekly Plan/Monthly Plan(包日/周/月」,点击「Continue job execution(继续执行)」。

HyperAI 为新用户准备了注册福利,仅需 $1,即可获得 5 小时 RTX 5090 算力(原价 $2.45),资源永久有效。

4.等待分配资源,首次克隆需等待 3 分钟左右的时间。当状态变为「Running(运行中)」后,点击「API address」旁边的跳转箭头,即可跳转至 Demo 页面。

效果演示

Demo 运行页面提供 Image Segmentation、Video Text Prompting、Video Point/Box Prompting 三个功能,仅支持英文输入。本教程以 Video Text Prompting 为例。

将测试视频上传后,在「Text Prompt(s)」处输入需要识别分割的名词短语,依次点击「Apply Text Prompt(s)」「Propagate across video」以应用提示词,最后点击「Render MP4 for smooth playback」即可生成带有高亮识别目标的视频结果。

一起来看看笔者使用近期热映的《疯狂动物城2》的预告片段进行的测试👇

SAM 3_playback

以上就是 HyperAI超神经本期推荐的教程,欢迎大家前来体验!

教程链接:

https://go.hyper.ai/AbyCq

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 5:21:53

基于web的酒品商城购物系统的设计与实现-计算机毕业设计源码31522

摘要 随着电子商务的迅速发展,酒品市场也逐渐进入线上交易的时代,消费者对于酒品购物的需求不断增加。传统酒品销售模式存在着信息不透明、购买体验差等问题,因此开发一个基于Web的酒品商城购物系统,能够为消费者提供便捷、安全、…

作者头像 李华
网站建设 2026/6/23 22:24:34

软件代码去个性化是智能制造落地的有效途径

一、命题的真实语境:不是“去个性化”,而是“将个性化在代码结构中隔离/剥离”智能制造的核心困境之一是:业务个性化(个体差异)与系统功能(普适能力)长期耦合在一起,使得软件工程无法…

作者头像 李华
网站建设 2026/6/23 23:17:44

如何了解腾讯云国际站代理商FL有什么跨境优势呢?

你这里的 FL 大概率指腾讯云的流量日志(Flow Logs)服务,其本身具备跨境网络监控、合规审计等核心优势,而通过腾讯云国际站代理商使用 FL,还能获得适配跨境业务的增值优势,若想全面了解这些优势,…

作者头像 李华
网站建设 2026/6/23 18:55:24

开发日志-正点原子RK3568运行Qt项目

本文章仅作为开发日志,并不具备较高的学习意义与参考价值最近更新 2025/12/102025.12.101.前期准备1.1 Linux环境准备安装正点原子官方提供的Ubuntu镜像 (具体路径:正点原子RK3568开发板资料B盘 -开发环境及SDK/Ubuntu开发环境)按…

作者头像 李华
网站建设 2026/6/23 21:14:00

萨拉赫如何用一次采访,毁掉自己在利物浦的八年传奇?

英超第16轮,利物浦客场3-3被利兹联绝平。赛后,一向沉默的穆罕默德萨拉赫在混合采访区停下脚步,公开抱怨自己被球队“抛弃”,并与主帅斯洛特关系破裂。这一举动,如同向已不平静的湖面投下巨石。利物浦名宿、天空体育评论…

作者头像 李华
网站建设 2026/6/23 14:04:22

18场造14球仍遭弃!巴萨为何对拉什福德关上大门?

2025年夏窗,当拉什福德身穿巴萨14号球衣亮相诺坎普时,这曾被视作一次球星与豪门的双向拯救。租借协议中设定的3000万欧元买断条款,似乎也为一段新传奇埋下了伏笔。然而,赛季过半,尽管交出了18场比赛直接参与14球的出色…

作者头像 李华