news 2026/1/18 7:38:53

Next Best Sense:利用FisherRF引导视觉与触觉的主动3D高斯泼溅重建

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Next Best Sense:利用FisherRF引导视觉与触觉的主动3D高斯泼溅重建

来源:Green生态智能机器人

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

前言

在机器人操作任务中,高效地感知和重建场景是至关重要的。3D高斯泼溅(3DGS)作为一种新兴的显式3D场景表示方法,因其逼真的渲染效果和高效的几何表达能力而备受关注。然而,传统的3DGS训练通常需要数十张甚至上百张图片以及完美的人工监督,这在机器人在线操作的场景中是不切实际的。

在机器人领域,获取大量视角的图像非常低效,且随机选择的视角往往包含大量冗余信息。此外,仅靠视觉往往难以处理反射、透明或缺乏纹理的物体表面,这时候触觉(Touch)就能发挥关键作用。

今天我们解读的这篇论文《Next Best Sense》提出了一套完整的机器人主动感知框架。该框架不仅优化了少样本下的3DGS训练(引入SAM2进行语义深度对齐),更重要的是提出了一种扩展的FisherRF方法,能够基于深度不确定性来主动选择“下一个最佳视点(Next Best View)”和“下一个最佳触点(Next Best Touch)”。这使得机器人能够自主地决定“看哪里”和“摸哪里”,以最少的操作获得最大的信息增益。

图1:我们的方法在少样本3DGS场景中优于随机视点选择

左图展示了机器人自主探索环境的场景。右图对比了本文方法(Next Best Sense)与随机策略在选择下一个视点时的效果。可以看出,Next Best Sense 能够选择覆盖盲区、更能提升重建质量的视点,而随机策略则较为盲目,导致重建结果模糊。

核心方法论

Next Best Sense 的核心在于解决两个问题:一是在只有少量图像时如何训练好3DGS;二是如何主动选择最有价值的观测(视觉或触觉)来进一步提升模型。

基于SAM2的少样本高斯泼溅初始化

在机器人操作中,视点数量非常有限。为了防止过拟合,作者提出了一系列改进措施,其中最关键的是SAM2 语义深度对齐

传统的单目深度估计虽然能恢复几何细节,但存在尺度模糊问题。作者利用Segment Anything Model 2 (SAM2)将图像分割成不同的语义对象,并结合真实深度传感器数据(虽然可能有噪声),对每个语义对象的单目深度进行分别对齐和矫正。

图3:SAM2 对齐流程

如图3所示,给定RGB图像和深度图像,首先利用单目深度模型获取相对深度,运行SAM2自动掩膜生成器获取物体和场景掩膜。然后,将单目深度中的每个物体与对应的传感器深度进行对齐。

这种基于对象的对齐策略,显著提升了初始几何的质量。

图2:结合提升深度(左)与提升SAM2深度(右)的网格对比

图2直观地展示了效果:左图直接提升原始深度生成的网格充满噪点,几何结构混乱;而右图经过SAM2语义对齐后的深度生成的网格,几何结构更加平滑、准确,为3DGS提供了稳健的初始化。

此外,作者还引入了Pearson 相对深度损失来温和地引导深度优化,并结合表面法线约束和各向同性正则化,进一步防止高斯球在少视角下出现“针状”伪影。

下一个最佳视点

为了决定机器人下一步看哪里,作者扩展了FisherRF方法。FisherRF 原本用于量化辐射场的信息增益,主要关注颜色信息。

作者指出,在机器人场景中,深度不确定性往往比颜色更重要。因此,作者推导了基于深度的 Fisher 信息增益公式:

其中是颜色信息增益,是深度信息增益。通过最大化这个信息增益,机器人倾向于观测那些深度不连续、几何模糊或未被覆盖的区域,从而快速完善场景几何。

下一个最佳触点

当视觉无法确定的区域(如镜面、透明物体),触觉是最好的补充。

  • 触觉数据监督:利用DenseTact触觉传感器获取接触面的局部几何。作者将触觉图像反投影为点云,并转换为三角网格,以此作为“绝对真值”来监督3DGS的训练。

  • 主动触觉选择:同样利用 FisherRF 框架,计算在物体表面不同位置进行“触摸”所能带来的深度信息增益,从而指导机器人去触摸那些视觉上最不确定的地方。

图4:触觉数据监督

图4展示了触觉数据处理流程:从鱼眼触觉图像反投影到3D点云,再光栅化为深度图。这个高精度的局部深度图被用来监督3DGS,修正视觉难以处理的表面几何。

实验结果与分析

作者在合成数据集(Blender)和真实机器人实验中进行了验证。

少样本重建质量提升

在Blender仿真实验中,作者模拟了极端少样本(仅6个视图)的情况。实验数据显示,相比于仅仅使用密集深度监督,引入Lifted SAM2 DepthPearson Loss后,重建质量显著提升。具体的误差分析表明,SAM2对齐后的深度误差大幅降低,尤其是物体区域的深度精度提升最为明显。这证明了在数据匮乏时,语义先验对几何初始化的巨大帮助。

真实物体与挑战性场景

在真实世界实验中,作者测试了具有挑战性的物体,如镜子(Mirror)棱镜(Prism)。这些物体对于纯视觉方法来说是噩梦。实验结果表明,Next Best Sense 方法在这些物体上依然取得了最优的重建质量(PSNR和SSIM指标均领先)。这得益于深度先验的引导以及触觉数据的补充。

主动视点选择的效果

作者对比了不同的视点选择策略:随机选择(Random)、基于颜色的FisherRF、以及本文提出的基于深度的FisherRF。

图5:FisherRF 消融实验定性结果

图5展示了消融实验的定性结果。最右侧的FisherRF Depth(基于深度的选择)重建出的细节最为锐利。

图6:下一个最佳视点选择的定性结果

图6进一步展示了不同策略的效果。可以看到,FisherRF Depth(第三列)能够引导机器人关注几何复杂的区域(如兔子的耳朵、椅子的腿),从而重建出更锐利的细节。而随机策略(第一列)往往导致几何模糊,未能覆盖关键区域。定量数据也显示,基于深度的视点选择在大多数情况下优于随机选择和纯颜色引导。

主动触觉感知的效果

最后,作者在镜子物体上验证了主动触觉选择的有效性。

图7:FisherRF 引导的触觉选择

图7展示了触点的分布情况。

  • Random Touch:触点随机分布,效率低,很多触点落在已经重建较好的区域。

  • FisherRF Touch:触点集中在视觉上难以判断的区域(如镜面上的孔洞区域),因为这些地方的深度不确定性(Hessian矩阵值)最高。

这有力地证明了算法具有“好奇心”,能自动发现“看不清”的地方并去“摸一摸”,从而修正几何错误。

总结

Next Best Sense 提出了一套完整的机器人主动感知方案:

  1. 少样本增强:利用 SAM2 和深度先验,解决了 3DGS 在稀疏视角下训练崩溃的问题,实现了“少样本、高精度”。

  2. 深度驱动的主动视觉:扩展了 FisherRF,证明了利用深度不确定性进行视点规划比利用颜色不确定性更有效,能更快地完善场景几何。

  3. 视觉-触觉融合:首次实现了基于不确定性引导的主动触觉数据采集,通过“摸”来修正“看”不清的几何细节(如镜面、透明物体)。

这项工作为机器人不仅能“看”懂世界,还能通过“互动”(移动和触摸)来主动理解世界提供了新的范式。

文章地址:https://arxiv.org/pdf/2410.04680


本文仅做学术分享,如有侵权,请联系删文。

  • 3D视觉1V1论文辅导

3D视觉硬件,官网:www.3dcver.com

3D视觉学习圈子

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

3D视觉全栈学习课程:www.3dcver.com

3D视觉交流群成立啦!

扫码添加微信,备注:姓名+方向+公司或高校名称,邀你入3D视觉交流群!
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/17 16:42:59

FaceFusion人脸融合在虚拟快递员形象定制中的创新尝试

FaceFusion人脸融合在虚拟快递员形象定制中的创新尝试 在智能物流服务日益“在线化”“可视化”的今天,用户对配送体验的期待早已超越“准时送达”这一基本需求。人们开始关心:“是谁在为我送件?”“他今天心情怎么样?”——这种拟…

作者头像 李华
网站建设 2026/1/18 4:38:30

12月的财务工作要达到的强度

1.核对往来账 先把应收账款、应付账款的明细账导出来,对着合同和回款/付款记录逐笔核对,标记出挂账超3个月的款项,给业务部门发核对单,让他们确认是否需要催收或核销,避免跨年遗留糊涂账2.盘点公司实物资产 提前列好固…

作者头像 李华
网站建设 2026/1/17 18:47:38

如何用GVHMR实现精准的3D人体运动恢复?5大核心技术解析

如何用GVHMR实现精准的3D人体运动恢复?5大核心技术解析 【免费下载链接】GVHMR Code for "GVHMR: World-Grounded Human Motion Recovery via Gravity-View Coordinates", Siggraph Asia 2024 项目地址: https://gitcode.com/gh_mirrors/gv/GVHMR …

作者头像 李华
网站建设 2026/1/18 1:57:03

TachiyomiJ2K通知系统:5分钟学会智能漫画更新提醒配置

TachiyomiJ2K通知系统:5分钟学会智能漫画更新提醒配置 【免费下载链接】tachiyomiJ2K Free and open source manga reader for Android 项目地址: https://gitcode.com/gh_mirrors/ta/tachiyomiJ2K 作为Android平台上最受欢迎的免费开源漫画阅读器&#xff0…

作者头像 李华
网站建设 2026/1/17 23:47:51

使用lsp-zero.nvim快速配置Neovim的LSP功能

使用lsp-zero.nvim快速配置Neovim的LSP功能 【免费下载链接】lsp-zero.nvim A starting point to setup some lsp related features in neovim. 项目地址: https://gitcode.com/gh_mirrors/ls/lsp-zero.nvim lsp-zero.nvim是一个为Neovim配置语言服务器协议(LSP)功能的起…

作者头像 李华