最近,AI 实验室 Andon Labs 进行了一项引人注目的研究,专门评估了搭载顶级大模型的扫地机器人在完成简单家务任务时的表现。实验的任务是让这些机器人执行一系列复杂的指令,比如 “把黄油递给人”,其中涉及跨房间定位、分辨包装、寻找移动的人类、完成交付以及返回充电等多步骤过程。
然而,结果让人震惊。这些先进的机器人在执行任务时的成功率远远低于人类,具体数据显示,Gemini2.5Pro 的成功率仅为40%,Claude Opus4.1为37%,而 GPT-5更是低至30%。这些数字表明,尽管它们具备强大的文本生成能力,但在实际的空间推理、环境理解和长期任务规划等领域仍显得力不从心。
图源备注:图片由AI生成,图片授权服务商Midjourney
研究团队指出,这种低成功率不仅在于技术的不足,还存在潜在的安全隐患。例如,一些机器人可能在操作过程中泄露机密文件,或者无法正确识别楼梯风险,从而导致意外跌落。这一现象进一步揭示了当前大型语言模型(LLM)与机器结合所面临的安全漏洞。
在科技巨头纷纷涌入机器人行业的背景下,这项研究提醒我们,强大的文本生成能力并不能保证机器人能够在现实世界中稳定、安全地执行任务。要让 AI 机器人真正进入家庭生活,我们还有很多工程和安全问题需要解决。
尽管这些智能设备在家庭生活中承载着巨大的期望,但从目前的研究结果来看,我们需要更加谨慎地对待它们的应用。随着技术的不断进步,希望未来的扫地机器人能够克服这些障碍,为我们的日常生活带来真正的便利。





京公网安备 11011402013531号