当前位置: 首页 » 资讯 » 新科技 » 正文

MIT破解救援机器人导航瓶颈,无需标定,数秒生成3D场景

IP属地 中国·北京 DeepTech深科技 时间:2025-11-11 20:17:31


(MIT News)

在一场矿难救援中,时间意味着生命。想象一台搜救机器人在部分坍塌的矿井中穿行:浓烟、碎石、扭曲的金属梁。它必须在险象环生的环境中迅速绘制地图,识别路径,并精准定位自己的位置。

但要做到这一点并不容易。即便是当前最强大的人工智能视觉模型,一次也只能处理少量图像。在真实灾难救援场景中,时间分秒必争,搜救机器人必须快速穿越大范围区域,并在几分钟内处理成千上万张图像,才能完成任务。这种“算不过来”的限制,使得 AI 在真实世界的救援任务中显得力不从心。

为解决这一难题,麻省理工学院(MIT)的研究人员借鉴了最新人工智能视觉模型与经典计算机视觉的思想,开发出一套能在数秒内完成三维重建的新系统

这套系统不依赖标定摄像头,也不需要专家反复调参,却能快速拼接出复杂环境的高精度 3D 地图。对于救援机器人而言,这意味着在废墟或矿井中,“看清楚”的速度将以倍数提升。



拼接难题与对齐破局

机器人导航领域有个绕不开的难题,叫SLAM(Simultaneous Localization and Mapping,同时定位与地图构建)。顾名思义,机器人必须一边绘制环境地图,一边确定自己在地图上的位置。

传统的 SLAM 依赖复杂的数学优化和精确的相机标定,往往在光线不足、场景复杂的情况下失效。于是研究者们转向机器学习模型,希望 AI 能从海量数据中“学会看图识地”。

可问题在于:这些模型的吞吐量太低。即使是最先进的系统,一次也只能处理几十帧图像。而要让机器人穿越工厂、仓库,或废墟中的大片区域,就需要在短时间内分析数千张图像,这是目前 AI 无法承受的计算负载。

MIT 的解决方案是化整为零。他们让系统不是一次性重建整个场景,而是分批生成多个“子地图”(submaps),再通过算法把这些子地图拼接起来。这样一来,模型每次仍只需处理少量图像,却能通过拼接快速还原大场景。

听上去很简单,但研究者最初尝试时——失败了。

主导这项研究的博士生 Dominic Maggio 回忆说:“我们一开始以为,只要像传统方法那样,通过旋转和平移就能把子地图拼起来。但结果并不理想。”

问题出在 AI 模型生成的子地图往往带有几何形变。例如,一面本应笔直的墙在重建后可能出现轻微弯曲;房间的角度可能被拉伸。这些误差会让原本应当对齐的子地图错位。

于是,Maggio 开始翻阅上世纪 80、90 年代的计算机视觉论文。在那些“AI 之前的年代”,研究者早已提出了关于图像对齐、形变补偿等经典方法。

结合这些思路,团队意识到:他们需要一个更灵活的数学框架,去描述和校正子地图之间的变形关系。



AI 与几何的再握手

在团队导师、MIT 航空航天系副教授 Luca Carlone 的指导下,研究人员引入了一种来自传统计算机视觉的数学工具,能够表示并校正子地图间的复杂变形。

通过这种方法,系统不仅能将子地图对齐,还能确保所有局部重建的形变方向一致,从而拼接出连贯的整体场景。

最终,他们的 AI 系统可以在几秒钟内输出:场景的高精度三维重建;每个摄像头的位置估计;机器人在空间中的实时定位结果。而这一切,都无需专门的摄像头标定或外部传感器辅助。

“当 Dominic 找到把学习式方法与传统优化结合的直觉后,剩下的工作就顺理成章了,”Carlone说,“它既简单,又高效,有潜力应用在许多实际场景中。”

该系统在速度和重建误差上均优于其他方法,并且不需要特殊摄像头或额外工具。研究人员仅用手机拍摄的短视频,就生成了包括 MIT 教堂内部在内的复杂场景的近实时三维重建,平均误差不到5厘米

这不仅能为搜救机器人带来生死攸关的效率提升,还能拓展到更广泛的领域——从VR/AR 头显的实时场景建模,到仓储机器人的空间定位与路径规划。

如今的 AI 世界里,几乎一切问题似乎都能交给神经网络去学习。但 Carlone 认为,这项研究正好提醒人们:传统几何知识依然不可或缺。“了解传统几何是值得的。只要你真正理解模型的内部机制,就能获得更好的结果,让系统更具扩展性。”

在未来,团队希望将这项技术应用到真正的现场救援任务中,让机器人能在复杂、未知的环境中,又快又准地看见世界。

https://news.mit.edu/2025/teaching-robots-to-map-large-environments-1105

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。