北京商报讯(记者 魏蔚)10月27日,智源研究院宣布,单图高精度6D位姿估计方法开源,让机器人"一眼看懂"陌生物体。传统6D位姿估计方法大多依赖高质量CAD模型或多视角重建,难以满足动态、实时的实际需求。现有的单张图像推理方法则普遍受限于尺度、外观和姿态的模糊性。正因如此,尽管近年来视觉-语言-动作(VLA)模型在宽容度较高的任务中取得进展,但在毫米级精度的操作场景中,感知—控制链条仍难以闭合,制约了机器人通用操作能力的进一步提升。
针对这一挑战,北京智源人工智能研究院(BAAI)可控世界模型创新中心赵昊团队提出了OnePoseViaGen:该方法无需预设 3D 模型,仅依赖单张RGBD参考图像,即可在未知物体上实现高精度 6D 位姿估计。相关论文 "One View, Many Worlds: Single-Image to 3D Object Meets Generative Domain Randomization for One-Shot 6D Pose Estimation"入选 CoRL 2025 Oral。





京公网安备 11011402013531号