一个前馈式 3D 基础模型,从流式数据实时重建场景——20 FPS 推理速度,10000+ 帧稳定输出,不依赖迭代优化。
这个项目解决什么问题?
传统 3D 场景重建需要先拍完所有照片或视频,然后用 COLMAP/NeRF 做离线优化——等几个小时甚至几天才能看到结果。LingBot-Map 换了一种思路:前馈式(feed-forward),看到一帧重建一帧,不需要回头优化。20 FPS 的推理速度让它可以处理超过 10000 帧的长视频序列,这在之前的前馈式模型里是做不到的。
核心亮点
Geometric Context Transformer(GCT):LingBot-Map 的核心架构,把三种能力统一到一个框架里:
- Anchor Context——锚点上下文,建立全局坐标基准
- Pose-Reference Window——姿态参考窗口,用相邻帧约束局部几何
- Trajectory Memory——轨迹记忆,长程漂移校正
Paged KV Cache Attention:借鉴了 LLM 推理的分页缓存思想,让模型在 10000+ 帧的长序列上保持稳定推理,不会因为序列过长而崩溃。
全流式推理:不需要 COLMAP 做预处理,不需要全局 BA 优化,模型看到每帧就输出该帧的深度和姿态。518×378 分辨率下 ~20 FPS。
快速上手
conda create-nlingbot-mappython=3.10-yconda activate lingbot-map pipinstalltorch==2.8.0torchvision==0.23.0 --index-url https://download.pytorch.org/whl/cu128 pipinstall-e.pipinstallflashinfer-python# 下载模型(HuggingFace)python demo.py--model_pathlingbot-map-long.pt\--image_folderexample/courthouse--mask_sky# 浏览器打开 http://localhost:8080 查看 3D 点云我的评价
LingBot-Map 在学术上确实有突破——前馈式流式 3D 重建做到 20 FPS 和 10000+ 帧稳定输出。对比 DUSt3R 和 MASt3R 等同类工作,它在长序列上的表现明显更好。
但离实际落地还有距离。安装依赖链复杂(PyTorch 2.8.0 + FlashInfer + Kaolin),GPU 需求 24GB+ VRAM,而且目前只出了 demo 和论文,离"开箱即用"还差一个完整的应用层。如果你在做 3D 视觉研究,这个项目值得关注;如果你只是想拍个视频生成 3D 模型,建议再等等后续的封装版本。