当前位置: 首页 » 资讯 » 新科技 » 正文

通过几何代理任务增强视觉-语言模型中的空间感知和推理能力

IP属地 中国·北京 机器之心Pro 时间:2025-10-17 14:11:45



本文共同第一作者为华中科技大学博士生连仕杰与华东师范大学博士生邬长倜,二者同时也是北京中关村学院2024级学生。共同通讯作者包括:郑州大学学术副校长,郑州大学/华中科技大学教授,加拿大工程院/欧洲科学院院士杨天若教授;北京中关村学院&中关村人工智能研究院具身方向负责人陈凯。

近年来,多模态大语言模型(MLLMs)在广泛的视觉-语言任务中取得了显著成功。尽管如此,最先进的 MLLMs 仍然缺乏真正的空间智能。甚至如今,最先进的视觉-语言模型(VLMs)在一些儿童轻易就能完成的任务上仍会出现偶尔错误,例如数方块或识别给定物体左侧最近的邻近物体。



图 1,让 GPT5-Thinking 和 Gemini 2.5 Pro 数方块(正确答案是白色 10 块,橙色 13 块)

在李飞飞提出的 VSIBench 评估基准中显示,超过 70% 的记录错误源于模型对空间现象的推理错误,而非视觉识别或语言解析能力的不足。这一现象与著名的「莫拉维克悖论」一致,即对于 VLM 而言,有可能高层次推理任务在计算上比低层次的感知和感觉运动技能更简单。

近期如 Spatial-MLLM、SpaceVLM、RoboBrain2.0 等关于空间感知 VLM 的研究,尝试通过提供专门构建的空间数据集来提升模型性能。然而,这些空间数据集中的任务通常仅涵盖现实世界空间任务的一个子集,可能无法增强模型的整体空间智能。这凸显了实现空间智能的一个关键挑战:

尽管在特定空间任务数据集上进行微调可以实现高模型域内的性能,但可能导致模型过度特化,难以培养更基础且可泛化的空间智能。

为了打破这一僵局,来自华中科技大学、北京中关村学院和华东师范大学的研究团队将目光转向从更广泛且更基础的空间现象中学习,从而突破单一数据集的局限,扩展模型的能力范围。



论文标题:Euclid’s Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks论文地址:https://zgca-ai4edu.github.io/Euclids_Gift/

具体来说,为了培养模型在任何单一基准之外发展泛化的空间能力,他们尝试探索一种新颖的训练范式,将解决几何问题作为在 VLMs 中提升空间智能的代理任务。



几何将数个世纪的数学研究浓缩为对空间现象的形式化描述。因此,学习求解平面与立体几何问题迫使模型内化欧几里得几何公理等先验知识,并为模型提供更强的跨领域泛化能力,因为这些原理具有普适性且独立于任何单一任务。

为什么选择「几何问题」作为空间智能的代理任务?

实际上,解决几何问题所需的能力,包括识别形状与构型、推断空间关系(如平行、角度和相对位置)、计算或测量几何元素,以及执行多步逻辑推理,同样也是空间感知任务所必需的。

此外,教育心理学领域有大量现存证据表明,几何问题求解与空间智力密切相关,可以作为空间能力的有力指标,并且可以通过有针对性的练习加以提升 [1] [2] [3]。 本文通过大量实验进一步发现,这种关系不仅适用于人类学习者,也可推广至多模态大模型。

制作更丰富的、以几何为中心的训练集

遗憾的是,目前尚无针对多样化几何问题的大规模高质量训练数据集。此外,现存数据集中显著的不平衡性:立体几何题远少于平面几何题。然而,立体几何包含了更多明确的三维空间现象(例如视角不变性、多面体截断特征、体积与面积关系等),这些对 VLM 学习空间知识同样至关重要。

为此,本文从现有开源数据集与 K12 阶段的教程/练习册中重新收集数据,标注了一个具有 29,695 个几何问题的几何数据集——Euclid30K。Euclid30K 中的所有题目与答案都通过 GPT-4o 与 DeepSeek-V3.1 API 的混合清洗,以确保答案被重规范化为可以被 MathVerify 正确识别的格式。





验证

为了让训练得到的性能收益全部来自于几何数据集,而非精心设计的算法或其他 trick。本文只使用了常规的 GRPO 对模型进行训练。并参考 DAPO 使用了 0.28 的 CLIP 裁剪上界、Token-level 策略梯度损失以及动态采样。

结果显示,经过几何问题训练后,模型在 VSI Bench、Super CLEVR、Omni3D Bench 和 MindCube 这四个基准上的性能都出现了一定程度的增长。体现了使用几何问题作为代理任务这空间智能上的 zero-shot 泛化能力。



为了进一步确保模型的性能提升来自于可以明确归因于几何任务作为空间智能的有效代理任务,而非 GRPO 算法或数据量增加的影响。本文进行了一项因果消融研究。

具体而言,本文在非几何的空间智能数据集 Clevr-CoGenT 上随机采样了一个与 Euclid30K 大小相等的样本,并使用完全相同的 GRPO 设置来训练 Qwen2.5VL 和 RoboBrain2.0。结果表明,在 Euclid30K 上训练的模型相比在同等大小的 Clevr-CoGenT 数据集上微调的模型,整体准确率显著更高。



[1] Students' reasoning with logical mathematical and visual spatial intelligence in geometry problem solving,International Joint Conference on Science and Engineering 2020

[2] The effects of geometrical-mechanical intelligence games on the spatial abilities,International online Journal of Primary Education 2020

[3] The relationship between spatial reasoning and geometric reasoning in teachers,Eurasia Journal of Mathematics, Science and Technology Education 2025

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新