蚂蚁集团开源实时流式3D感知模型!直接把视频变成可交互的3D世界!🔥
LingBot-Map :用手机或普通摄像头拍视频,它就能实时生成3D地图和空间模型,像SLAM一样边看边建图,完全不用离线处理或后期优化。
狠点:
- 超快:~20 FPS实时流式处理,长视频(上万帧)也能稳稳跑
- 超稳:靠Geometric Context Transformer(融合Anchor坐标、Pose窗口、Trajectory记忆),长距离基本不漂移
- 效果牛:在ETH3D、Oxford等基准上SOTA,很多场景超传统离线方法
- 免费开源:代码+模型权重全放出,支持交互可视化和离线渲染
以后AR眼镜戴上就能秒懂真实世界;扫地机器人、无人机送货更聪明;自动驾驶在复杂路况更可靠;拍个房子视频就能快速生成3D户型;玩游戏、拍短视频也能实时加逼真3D效果。
3D感知终于从实验室走向日常,具身智能要加速落地了!
显示更多