哈喽,大家好,今天小墨这篇评论,主要来分析大模型空间智能高分迷局 是真推理还是在背答案
2025 年,李飞飞等学者将「空间智能」推向聚光灯下,这一领域迅速成为大模型竞逐的新高地。各类大模型在室内空间推理基准上频频刷新纪录,看似已经精准读懂三维空间的奥秘。
这些亮眼分数的背后,却藏着不容忽视的隐患。中科院大学联合多机构发布的全新基准 OSI-Bench,撕开了这场「空间智能繁荣」的伪装,让大模型的真实能力暴露在公众视野中。
室内高分陷阱
近年来,空间智能研究大多聚焦室内场景。这一现象的核心原因是带有准确 3D 标注的数据极度稀缺,模型训练所用的 ScanNet++、ARKitScenes 等数据集,与测试基准高度同源。
这种数据的「近亲繁殖」,让模型在室内场景问答中占尽优势。面对「浴缸和马桶之间相距多远」这类问题,模型无需真实理解空间关系,仅凭「典型浴室布局」的先验知识就能盲猜答案。即便关闭视觉输入,也能得出大致合理的结果。
2026 年 1 月企业网 D1Net 报道了一则企业 AI 项目案例。某科技公司为优化仓储机器人路径规划,引入某宣称「空间智能领先」的大模型。该模型在标准室内仓储模拟测试中表现优异,路径规划准确率高达 92%。
但在实际仓储环境中,当遇到临时堆放的货物改变原有布局时,模型瞬间失效。机器人频繁碰撞障碍物,最终项目因模型无法适应真实空间变化而暂停。技术团队复盘发现,模型的高分仅源于对测试场景数据的熟练拟合,而非真正具备空间推理能力。
OSI-Bench 破局
为打破室内基准的局限,中科院大学联合微软亚洲研究院、苏黎世联邦理工大学发布 OSI-Bench 基准。该基准完全基于自采开放世界视频数据,通过双目相机、LiDAR等多传感器采集公园、步行街、古建筑等场景的精确 3D 信息。
从 20 小时视频素材中生成的 9000 条问答,涵盖相对关系、静态尺度、动态尺度三个层级的空间任务。开放世界的复杂性与随机性,让语义先验失去作用。面对「告示牌和遮阳篷之间的距离是多远」这类问题,模型无法再靠语义关联蒙混过关,必须进行真实的视觉空间推理。
评测结果令人震惊。包括 Gemini-2.5-Pro 在内的主流大模型普遍表现拉胯,远低于人类水平。更关键的是,2025 年在室内基准 VSI-Bench 上得分暴涨 24.1 分、性能近乎翻倍的 Qwen-VL 与 InternVL 系列,在 OSI-Bench 上完全没有重现这种优势。
在提问模板完全相同仅场景不同的绝对距离任务中,这些模型在室内基准上一致涨分,在开放世界基准上却一致退步。这一鲜明对比,直接证实模型的高分是对特定场景的过拟合,而非真正掌握可泛化的空间智能。
语言先验捷径
研究发现,面对空间任务时,模型更倾向于利用语言先验知识走「捷径」,而非进行复杂的视觉几何推理。为验证这一现象,研究团队设计了两组对比实验。
盲测实验显示,模型在有无视觉输入的情况下得分差距极小,视觉信息并未被有效用于推理。在「正常场景」与「反常场景」的对比实验中,人类的空间判断力不受场景反常影响,模型却在语言先验失效后性能断崖式下跌。
2026 年 1 月 arXiv 发布的相关研究也佐证了这一结论。该研究构建包含反常尺寸物体的场景,当询问「迷你冰箱和超大号水杯哪个更高」时,人类能通过视觉观察得出正确答案,而主流大模型仍基于常规尺寸认知给出错误回复。
这些实验共同指向一个事实:当前大模型的空间智能,本质是对语言先验和数据分布的拟合。所谓的「推理能力」,不过是对常见场景答案的记忆与复现。
总结
OSI-Bench 的出现,让大模型空间智能的真实水平浮出水面。这场高分迷局提醒行业,数据拟合不等于能力提升。未来,只有跳出室内数据的局限,构建真正能赋予模型空间感知与思考能力的新范式,才能推动空间智能走向实用。
相信随着开放世界数据的不断积累与技术突破,大模型终将实现真正的空间推理。





京公网安备 11011402013531号