project
LingBot-Map - 蚂蚁灵波开源的流式 3D 重建模型
LingBot-Map 是蚂蚁灵波科技开源的流式三维重建模型,普通 RGB 摄像头可在视频采集过程中实时完成相机位姿估计与场景三维结构重建。
LingBot-Map是什么
LingBot-Map 是蚂蚁灵波科技开源的流式三维重建模型,普通 RGB 摄像头可在视频采集过程中实时完成相机位姿估计与场景三维结构重建。模型以纯自回归式建模为核心,基于几何上下文 Transformer 架构,在 Oxford Spires 等权威基准上实现轨迹精度较此前最优流式方法提升约 2.8 倍,填补实时空间感知领域关键技术空白。
LingBot-Map的主要功能
-
实时流式重建:边看边理解,逐帧处理当前及历史画面,持续输出相机位姿和深度信息。
-
长序列稳定运行:支持 10,000+ 帧长视频连续推理,长序列运行精度几乎无衰减。
-
纯视觉空间感知:无需复杂硬件,单颗普通摄像头可实现实时三维建图。
-
相机轨迹估计:支持精准估计相机在三维空间中的运动轨迹(位姿估计)。
如何使用LingBot-Map
- 环境准备:确保本地环境配备 NVIDIA GPU(推荐显存 ≥ 12GB),安装 Python 3.8+、PyTorch 2.0+ 及 CUDA 工具链。系统需支持 Linux 或 Windows WSL2 环境以兼容依赖库编译。
- 安装部署:访问 GitHub 仓库
https://github.com/Robbyant/lingbot-map克隆代码,进入项目目录后通过 pip 安装依赖:pip install -r requirements.txt。环境会自动安装 DINO backbone、Transformer 架构及三维可视化所需的 Open3D 等库。 - 模型获取:从 HuggingFace (
robbyant/lingbot-map) 或 ModelScope 下载预训练权重,放置于项目checkpoints/目录。模型包含 Geometric Context Attention (GCA) 核心网络及 Camera/Depth 预测头。 - 运行推理:
-
离线视频模式:输入单目 RGB 视频文件,模型逐帧提取 DINO 特征,经 Frame Attention 与 GCA 层处理,输出相机位姿轨迹(Trajectory)和深度图(Depth),最后融合为三维点云地图。
-
实时摄像头模式:连接普通 USB 摄像头,设置输入流分辨率为 640×480 或 1280×720,模型用 ~20 FPS 实时推理,持续输出当前相机位姿并增量式更新场景三维结构。
-
- 结果输出:重建结果包含相机轨迹文件(标准坐标格式)和带尺度的稠密点云,可通过可视化脚本查看三维重建效果。长序列推理时,GCA 机制会自动管理内存,支持 10,000+ 帧连续处理而无需重启。
- 高级配置:调整
config.yaml中的anchor_context和trajectory_memory参数可平衡精度与计算开销;针对大场景可启用局部窗口优化(Local Pose-Reference Window)提升长轨迹稳定性。具体 API 调用示例与参数说明参考 GitHub 仓库的README.md与demo.py。
LingBot-Map的关键信息和使用要求
-
开发团队:蚂蚁灵波科技(Robbyant)
-
开源协议:模型权重、代码已开源(GitHub、HuggingFace、ModelScope)
-
硬件要求:需 GPU 支持(推荐显存充足的环境)
-
推理速度:约 20 FPS 实时推理
LingBot-Map的核心优势
-
精度领先:Oxford Spires 数据集绝对轨迹误差(ATE)仅 6.42 米,显著优于离线方法 DA3(12.87 米)和 VIPE(10.52 米);ETH3D 基准重建 F1 分数达 85.70,较第二名提升超 8%。
-
实时高效:20 FPS 稳定支撑机器人作业,计算与存储开销在长序列下几乎恒定。
-
硬件门槛低:无需深度相机或激光雷达,普通 RGB 摄像头即可运行。
-
端到端学习:突破传统 SLAM 依赖手工设计和复杂优化的局限,核心逻辑交由模型统一学习。
LingBot-Map的项目地址
- 项目官网:https://technology.robbyant.com/lingbot-map
- GitHub仓库:https://github.com/Robbyant/lingbot-map
- HuggingFace模型库:https://huggingface.co/robbyant/lingbot-map
- arXiv技术论文:https://arxiv.org/pdf/2604.14141
LingBot-Map的同类竞品对比
| 对比维度 | LingBot-Map | TTT3R / WinT3R | 传统离线方法(DA3/VIPE) |
|---|---|---|---|
| 技术路线 | 自回归式 GCA Transformer | 流式重建方法 | 先采集后处理 |
| 推理模式 | 实时流式(边看边建) | 流式重建 | 离线处理 |
| Oxford Spires ATE | 6.42 米(领先) | 约 18 米 | 10-13 米 |
| ETH3D F1 分数 | 85.70%(领先) | 约 77% | – |
| 硬件需求 | 普通 RGB 摄像头 | 通常需深度传感器 | 多传感器融合 |
| 序列长度支持 | 10,000+ 帧稳定运行 | 较短序列易漂移 | 受内存限制 |
| 开源情况 | 完全开源(代码+权重+论文) | 部分开源/闭源 | 部分开源 |
LingBot-Map的应用场景
-
机器人导航与避障:为移动机器人提供实时空间感知能力,支持连续在线处理。
-
自动驾驶:实时构建环境三维地图,辅助车辆理解物理空间结构。
-
具身智能:作为 LingBot 系列(含 Depth、VLA、World、VA 等模型)的空间感知基座,支撑机器人操作与交互。
-
AR/VR 空间计算:实时重建物理环境,实现虚拟与现实世界的精准对齐。