来源:Green生态智能机器人
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
前言
在机器人操作任务中,高效地感知和重建场景是至关重要的。3D高斯泼溅(3DGS)作为一种新兴的显式3D场景表示方法,因其逼真的渲染效果和高效的几何表达能力而备受关注。然而,传统的3DGS训练通常需要数十张甚至上百张图片以及完美的人工监督,这在机器人在线操作的场景中是不切实际的。
在机器人领域,获取大量视角的图像非常低效,且随机选择的视角往往包含大量冗余信息。此外,仅靠视觉往往难以处理反射、透明或缺乏纹理的物体表面,这时候触觉(Touch)就能发挥关键作用。
今天我们解读的这篇论文《Next Best Sense》提出了一套完整的机器人主动感知框架。该框架不仅优化了少样本下的3DGS训练(引入SAM2进行语义深度对齐),更重要的是提出了一种扩展的FisherRF方法,能够基于深度不确定性来主动选择“下一个最佳视点(Next Best View)”和“下一个最佳触点(Next Best Touch)”。这使得机器人能够自主地决定“看哪里”和“摸哪里”,以最少的操作获得最大的信息增益。
图1:我们的方法在少样本3DGS场景中优于随机视点选择
左图展示了机器人自主探索环境的场景。右图对比了本文方法(Next Best Sense)与随机策略在选择下一个视点时的效果。可以看出,Next Best Sense 能够选择覆盖盲区、更能提升重建质量的视点,而随机策略则较为盲目,导致重建结果模糊。
核心方法论
Next Best Sense 的核心在于解决两个问题:一是在只有少量图像时如何训练好3DGS;二是如何主动选择最有价值的观测(视觉或触觉)来进一步提升模型。
基于SAM2的少样本高斯泼溅初始化
在机器人操作中,视点数量非常有限。为了防止过拟合,作者提出了一系列改进措施,其中最关键的是SAM2 语义深度对齐。
传统的单目深度估计虽然能恢复几何细节,但存在尺度模糊问题。作者利用Segment Anything Model 2 (SAM2)将图像分割成不同的语义对象,并结合真实深度传感器数据(虽然可能有噪声),对每个语义对象的单目深度进行分别对齐和矫正。
图3:SAM2 对齐流程
如图3所示,给定RGB图像和深度图像,首先利用单目深度模型获取相对深度,运行SAM2自动掩膜生成器获取物体和场景掩膜。然后,将单目深度中的每个物体与对应的传感器深度进行对齐。
这种基于对象的对齐策略,显著提升了初始几何的质量。
图2:结合提升深度(左)与提升SAM2深度(右)的网格对比
图2直观地展示了效果:左图直接提升原始深度生成的网格充满噪点,几何结构混乱;而右图经过SAM2语义对齐后的深度生成的网格,几何结构更加平滑、准确,为3DGS提供了稳健的初始化。
此外,作者还引入了Pearson 相对深度损失来温和地引导深度优化,并结合表面法线约束和各向同性正则化,进一步防止高斯球在少视角下出现“针状”伪影。
下一个最佳视点
为了决定机器人下一步看哪里,作者扩展了FisherRF方法。FisherRF 原本用于量化辐射场的信息增益,主要关注颜色信息。
作者指出,在机器人场景中,深度不确定性往往比颜色更重要。因此,作者推导了基于深度的 Fisher 信息增益公式:
其中是颜色信息增益,是深度信息增益。通过最大化这个信息增益,机器人倾向于观测那些深度不连续、几何模糊或未被覆盖的区域,从而快速完善场景几何。
下一个最佳触点
当视觉无法确定的区域(如镜面、透明物体),触觉是最好的补充。
触觉数据监督:利用DenseTact触觉传感器获取接触面的局部几何。作者将触觉图像反投影为点云,并转换为三角网格,以此作为“绝对真值”来监督3DGS的训练。
主动触觉选择:同样利用 FisherRF 框架,计算在物体表面不同位置进行“触摸”所能带来的深度信息增益,从而指导机器人去触摸那些视觉上最不确定的地方。
图4:触觉数据监督
图4展示了触觉数据处理流程:从鱼眼触觉图像反投影到3D点云,再光栅化为深度图。这个高精度的局部深度图被用来监督3DGS,修正视觉难以处理的表面几何。
实验结果与分析
作者在合成数据集(Blender)和真实机器人实验中进行了验证。
少样本重建质量提升
在Blender仿真实验中,作者模拟了极端少样本(仅6个视图)的情况。实验数据显示,相比于仅仅使用密集深度监督,引入Lifted SAM2 Depth和Pearson Loss后,重建质量显著提升。具体的误差分析表明,SAM2对齐后的深度误差大幅降低,尤其是物体区域的深度精度提升最为明显。这证明了在数据匮乏时,语义先验对几何初始化的巨大帮助。
真实物体与挑战性场景
在真实世界实验中,作者测试了具有挑战性的物体,如镜子(Mirror)和棱镜(Prism)。这些物体对于纯视觉方法来说是噩梦。实验结果表明,Next Best Sense 方法在这些物体上依然取得了最优的重建质量(PSNR和SSIM指标均领先)。这得益于深度先验的引导以及触觉数据的补充。
主动视点选择的效果
作者对比了不同的视点选择策略:随机选择(Random)、基于颜色的FisherRF、以及本文提出的基于深度的FisherRF。
图5:FisherRF 消融实验定性结果
图5展示了消融实验的定性结果。最右侧的FisherRF Depth(基于深度的选择)重建出的细节最为锐利。
图6:下一个最佳视点选择的定性结果
图6进一步展示了不同策略的效果。可以看到,FisherRF Depth(第三列)能够引导机器人关注几何复杂的区域(如兔子的耳朵、椅子的腿),从而重建出更锐利的细节。而随机策略(第一列)往往导致几何模糊,未能覆盖关键区域。定量数据也显示,基于深度的视点选择在大多数情况下优于随机选择和纯颜色引导。
主动触觉感知的效果
最后,作者在镜子物体上验证了主动触觉选择的有效性。
图7:FisherRF 引导的触觉选择
图7展示了触点的分布情况。
Random Touch:触点随机分布,效率低,很多触点落在已经重建较好的区域。
FisherRF Touch:触点集中在视觉上难以判断的区域(如镜面上的孔洞区域),因为这些地方的深度不确定性(Hessian矩阵值)最高。
这有力地证明了算法具有“好奇心”,能自动发现“看不清”的地方并去“摸一摸”,从而修正几何错误。
总结
Next Best Sense 提出了一套完整的机器人主动感知方案:
少样本增强:利用 SAM2 和深度先验,解决了 3DGS 在稀疏视角下训练崩溃的问题,实现了“少样本、高精度”。
深度驱动的主动视觉:扩展了 FisherRF,证明了利用深度不确定性进行视点规划比利用颜色不确定性更有效,能更快地完善场景几何。
视觉-触觉融合:首次实现了基于不确定性引导的主动触觉数据采集,通过“摸”来修正“看”不清的几何细节(如镜面、透明物体)。
这项工作为机器人不仅能“看”懂世界,还能通过“互动”(移动和触摸)来主动理解世界提供了新的范式。
文章地址:https://arxiv.org/pdf/2410.04680
本文仅做学术分享,如有侵权,请联系删文。
3D视觉1V1论文辅导
3D视觉硬件,官网:www.3dcver.com
3D视觉学习圈子
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!