当前位置: 首页 » 资讯 » 新科技 » 正文

普林斯顿与纽约大学:单关键词实现AI视觉感知能力补全提升突破

IP属地 中国·北京 科技行者 时间:2026-04-24 00:02:03


这项由普林斯顿大学与纽约大学联合开展的研究成果以预印本形式发布于2026年4月,论文编号为arXiv:2604.09531,感兴趣的读者可通过该编号检索完整原文。

**研究概要:AI的眼睛,看了却没真正"看懂"**

手机里的AI助手能认出照片里的猫,能读懂菜单上的文字,甚至能帮你分析一张复杂的图表。但如果你问它"照片里这把椅子是面朝你还是背朝你",或者"这两个杯子哪个离镜头更近",很多时候它会给出令人哭笑不得的错误答案。这不是个例,而是当前几乎所有顶尖视觉语言模型(也就是那种既能看图又能对话的AI)共同面临的顽疾。

问题的根源在哪里?研究团队认为,很可能是因为训练这些AI用的图片,大多是从网上随机抓取的自然照片,这些照片对于"左右上下、远近深浅、朝向角度"这类基础视觉能力的覆盖,实在是太稀疏、太随机了。网络上确实有海量图片,但要系统性地教会AI分辨"哪个在前哪个在后",靠随机抓取的图片就像靠随机翻字典来学一门语言——效率极低,效果有限。

正是带着这个疑问,研究团队提出了一个大胆的解决思路:与其费力地从网上筛选合适的真实图片,不如直接"按需定制"合成图片来专项训练AI。他们把这套系统命名为**VisionFoundry**,并用它制作了一个包含一万张图片的专项训练数据集**VisionFoundry-10K**。实验结果显示,用这批合成图片微调过的AI,在视觉感知专项测试上的得分提升了7%到10%,同时在其他通用能力上并没有明显退步。

**一、AI的视觉短板:不是看不见,而是"看不懂"**

为了理解这个问题,可以把视觉语言AI比作一个刚从书堆里走出来的图书馆员。这位馆员读过无数书,对各种知识如数家珍,但对于"这扇门是开着的还是虚掩的""那本书是立着的还是斜着的"这类只需眼睛一扫就能判断的问题,却常常答错。这不是因为他的眼睛看不见,而是因为他从来没有专门练习过这种"看一眼就判断空间关系"的本能。

研究团队借助几个专门设计的测试基准来揭示这种短板。其中一个叫MMVP,它的设计原理颇为巧妙:给AI看一张图片,问一个本应从图片中直观可见的问题,但这类问题恰恰无法靠猜测或语言常识来回答,必须真正"看懂"图片才能答对。另一个叫CV-Bench,它专门考察AI对三维空间关系的理解,比如两个物体谁前谁后、谁远谁近。还有RealWorldQA,它测试AI在真实场景照片中的几何和空间推理能力。

多个顶尖AI模型在这些测试上的表现,与它们在语言理解或图片描述上的出色表现形成了鲜明反差。这让研究团队更加确信:这不是模型结构的问题,而是训练数据的问题——现有数据集对这类"低层次视觉感知"的覆盖严重不足。

**二、合成图片工厂:只需一个词,就能批量生产专项训练素材**

VisionFoundry的核心思路,可以用一家定制食品工厂来理解。普通超市的食品是大批量生产的,口味大众、营养均衡但不针对特定需求。如果你需要专门为缺钙的人设计食品,就需要一家能够"按需定制配方"的工厂。VisionFoundry就是这样一家工厂——只需要告诉它你想训练AI的哪种能力(比如"深度排序"或"朝向判断"),它就能自动生产出一批专门针对这项能力的训练素材。

整个生产流程分为三个环节,环环相扣。

第一个环节是"配方设计"。研究团队给系统输入一个任务关键词,比如"物体朝向与方向"。系统中的大语言模型(可以理解为一个超级聪明的文字助手)会自动构建一个"概念池",把相关的物体、属性、场景、风格等要素列出来,然后从中随机组合,形成具体的图片描述方案。与此同时,它还会同步生成配套的问题和答案。关键在于,答案所依赖的视觉信息必须完全包含在图片描述里——这就好比食品工厂规定,你声称的营养成分必须真实存在于食品配方中,不能靠消费者脑补。

第二个环节是"生产制造"。系统把第一步生成的图片描述交给一个文字转图片模型(类似于能按照文字描述画出图片的AI画手),生成对应的合成图片。研究团队选用了谷歌的Gemini-2.5-Flash-Image模型来承担这个角色,它能生成质量较高、细节丰富的图片,并且对文字描述的忠实度也相当不错。

第三个环节是"质量检验"。生成的图片不能直接进入训练数据,而要经过一道严格的审核。系统把生成的图片和对应的答案一起交给另一个强大的多模态模型——谷歌的Gemini-3-Pro,让它扮演"审核员"的角色。审核员会把问题和答案转化成一句陈述句,比如"红色的箱子在蓝色球的左侧",然后对照图片判断这句话是否属实。只有通过审核的图片才会被保留,审核不通过的则会先尝试修改图片,修改后仍不通过就直接丢弃,重新抽取新的组合来生成。

这三个环节共同保证了两件事:一是每张图片里的视觉信息确实能支撑配套问题的正确答案;二是整个过程完全自动化,不需要真实图片作为参考,也不需要人工标注。

**三、VisionFoundry-10K:一万个专项训练题**

用上面这套流程,研究团队制作了一个名为VisionFoundry-10K的数据集,共包含一万个"图片+问题+答案"三元组,覆盖十种不同的视觉感知技能,每种技能各一千个样本。

这十种技能可以大致理解为考察AI在看图时最基础、最本能的判断能力。第一类是朝向与方向,考察AI能否判断一个物体面朝哪个方向,比如一辆摩托车是朝向镜头还是背对镜头。第二类是视角与透视,考察AI是否能识别出拍摄角度,比如这张照片是从高处俯拍还是从低处仰拍。第三类是位置与关系,考察AI能否判断两个物体的空间位置关系,比如背包在行李箱的正上方。第四类是空间关系,考察AI能否在图纸或平面图中识别方位,比如三脚架是否在水槽的西侧。第五类是状态与条件,考察AI能否判断物体的状态,比如玩具船的舱门是关着的还是虚掩的。第六类是结构与物理特征,考察AI对物体轮廓和形态的识别,比如气压计的外轮廓形状。第七类是颜色与外观,考察AI对颜色的识别,比如沙发上的条纹是什么颜色组合。第八类是深度排序,考察AI能否判断哪个物体离镜头更近,比如潜水艇和刀哪个更靠近相机。第九类是相对距离,考察AI能否判断哪个物体离某个参照物最近。第十类是现实世界空间理解,考察AI在真实场景中的综合空间判断能力,比如窗台底部是否比信箱更高。

这十类技能涵盖了从上下左右到远近深浅、从物体状态到拍摄角度的方方面面,形成了一套相对完整的低层次视觉感知训练体系。所有问题都是简短明确的,所有答案也都是简洁确定的,比如"是"或"否"、"左"或"右"、某个物体名称,这使得数据非常适合用来微调AI模型。

**四、实验结果:小数据,大提升**

研究团队选了三个不同规模的开源视觉语言模型来验证效果,分别是Qwen2.5-VL-3B(约30亿参数,属于小型模型)、MiMo-VL-7B(约70亿参数,中等规模)和Llama-3.2-11B(约110亿参数,较大规模)。实验的核心思路是:用VisionFoundry-10K对这三个模型进行额外训练,然后在一系列视觉感知和通用能力测试上对比训练前后的表现。

在视觉感知专项测试上,结果相当清晰。以MiMo-VL-7B为例,在MMVP配对测试(即需要同时看两张图片判断差异的最难版本)上,得分从43.3%跃升至57.3%,提升幅度达14个百分点。在CV-Bench三维空间测试上,同一模型的得分从72.3%上升到83.7%,提升了11.4个百分点。Qwen2.5-VL-3B在CV-Bench三维测试上的提升也高达10.5个百分点,从66.0%升至76.5%。Llama-3.2-11B虽然提升幅度相对较小,但在多项测试上也有稳定的正向变化。

在通用能力测试上,结果呈现出"有得有失,整体无明显退步"的格局。部分通用测试的得分有小幅提升,部分有小幅波动,OCRBench(文字识别测试)出现了小幅下滑,这与训练数据完全不涉及文字识别任务直接相关——你没练过的技能当然不会因为练别的而变好,但也印证了这套方法的针对性:它提升了专项训练的技能,而不会大幅损害其他能力。

MiMo模型在MMBench通用测试上出现了一个格外显眼的提升——从50.5%大幅跃升至81.6%。研究团队经过分析后认为,这背后的原因是MiMo在非推理模式下本身对逻辑判断能力依赖较强,而视觉感知能力的提升在一定程度上弥补了这方面的不足,使其在更多题目上能给出正确答案。

**五、数据越多,效果越好:一个可预期的成长曲线**

研究团队还做了一个颇具实际意义的测试:如果不用完整的一万个样本,只用一部分,效果会怎样?他们把数据集随机抽样成500、1000、2000、5000和完整10000个样本,分别训练模型,观察效果随数据量的变化趋势。

结果呈现出一条整体向上的成长曲线。从500个样本到完整一万个样本,各项视觉感知测试的得分基本上都在稳步上升,中间偶有小幅波动,但整体趋势非常清晰。这意味着VisionFoundry生成的数据质量是可靠的,不存在"越多越乱"的情况,而是真正在帮助模型积累有效经验。

在训练轮数方面,研究团队发现了一个实用规律:如果只用单一任务的1000个样本训练,大约训练8轮后效果会达到峰值,继续训练反而略有退步;但如果用完整的十个任务一万个样本,只需较少的训练轮数就能达到收敛,说明任务多样性本身就有助于模型更快地找到稳定的学习状态。

**六、合成图片与真实图片的较量:各有千秋,混用最优**

一个自然而然的问题是:合成图片训练出来的效果,和用真实图片训练相比怎么样?研究团队专门设计了一组对照实验来回答这个问题。

他们从LLaVA-Instruct-80K(一个常用的自然图片问答数据集)中随机抽取了与合成数据等量的样本,分别测试"纯自然图片"和"合成图片+自然图片各一半"两种方案。结果表明,混合方案在视觉感知测试上的表现一致优于纯自然图片方案,而在通用能力测试上的表现也大体相当。这说明合成图片提供了自然图片难以覆盖的视觉信号——尤其是在系统性覆盖特定空间关系和朝向变化方面,自然图片的随机性无法与定制化合成图片相比。

研究团队还做了一个更精细的控制实验,专门把"图片来源"这个变量单独隔离出来。他们从自然图片中提取描述文字,然后用同样的描述文字去生成合成图片,保持问答内容完全一致,只改变图片本身的来源。结果依然是合成图片组在视觉感知测试上更胜一筹,尤其是在三维空间理解方面的优势最为突出。这进一步证实了合成图片本身的价值,而不仅仅是配套的合成问答起了作用。

**七、质量把关有多重要:验证环节的必要性**

验证环节是VisionFoundry区别于更简单合成方案的核心设计之一。为了验证这道"质检关卡"确实有意义,研究团队做了一个对照实验:用同一批数据,一组经过Gemini-3-Pro验证,另一组未经验证,其他一切条件相同,看两组的训练效果有何差异。

结果清楚地表明,验证是必要的。经过验证的数据在CV-Bench二维测试上高出0.5个百分点,在RealWorldQA上高出0.7个百分点,在Blink测试上高出1.2个百分点,在MathVista数学视觉测试上更是高出2.6个百分点。相反,未经验证的数据在多项测试上反而低于什么都不训练的基线——说明噪声数据不只是无效,而是有害的,会让模型学到错误的模式。

研究团队还对验证环节本身进行了一次人工抽查。他们让人工审核员对140个生成样本进行逐一判断,然后与Gemini审核员的判断进行对比。结果显示,在这批样本中,70.7%是生成正确且通过验证的有效样本,约21.4%是生成错误且被正确拒绝的样本,只有约0.7%是生成错误但被错误放行的"漏网之鱼",约7.1%是生成正确但被错误拒绝的"冤案"。综合来看,验证器的精确度达到99%,也就是说通过验证的样本有99%确实是正确的,尽管它也会漏判约9.2%的正确样本。验证器与人工审核员之间的一致性系数(Cohen's κ)为0.794,属于"高度一致"区间。这说明Gemini作为自动化审核员,其可靠性已经足够支撑大规模的数据过滤工作。

**八、不同任务的训练效果:并非所有技能都能迁移到所有场景**

研究团队还做了一个细粒度的分析:如果只用某一类任务的数据来训练,对各种测试的影响会有什么规律?他们分别用十类任务各自的1000个样本训练模型,然后全部测试,对比结果。

总体而言,大多数单任务训练都能在视觉感知测试上带来正面效果,但效果的大小和方向因任务和测试的组合而异。以"深度排序"任务为例,它在空间感知相关的测试上带来了较明显的提升,但对于ScreenSpot-Pro(一个测试AI在电脑屏幕界面上定位元素的能力的测试)和MMMU(包含大量需要专业知识的推理题的测试)效果有限,甚至略有下降——这说明专注于三维深度感知的训练,对于二维图形界面操作和学术推理的帮助并不大,符合直觉。

从各个测试对不同任务的敏感程度来看,CV-Bench三维空间测试对训练任务的选择最为敏感,不同任务带来的提升幅度差异明显;而RealWorldQA对任务选择的敏感度相对较低,原因是这个测试本身更侧重综合推理能力,而非单一感知技能。这些发现告诉我们,合成数据的效果具有一定的特异性——选对了训练任务,就能精准命中目标测试;如果任务与测试的需求不对齐,效果自然会打折扣。

**结语:给AI补课,原来这么简单?**

说到底,这项研究给了我们一个颇有启发性的视角:AI在视觉理解上的短板,未必是因为模型本身不够聪明,很可能只是因为它从没系统地学过这些"看似简单"的空间感知技能。就像一个从小只读书、从不做体育运动的孩子,并不是天生缺乏运动能力,只是没有经过针对性的练习。

VisionFoundry的意义在于提供了一套低成本、自动化的"专项补课"方案:只需要告诉系统要练什么,它就能自动生成图片、出题、验证答案,整个过程不需要人工标注,也不需要真实图片。用一万个这样的合成训练样本,就能在多个视觉感知测试上带来显著提升。

当然,这项研究也留下了值得继续探索的问题。目前VisionFoundry主要针对相对简单的低层次视觉感知技能,对于需要复杂推理链的高层次视觉理解任务是否同样有效,还有待进一步验证。合成图片的质量也受到文字转图片模型本身能力的限制,随着生成技术的进步,这套方法的上限也有望随之提高。

更深层的启示或许是:AI的能力不只取决于模型有多大、计算资源有多丰富,很大程度上也取决于训练数据是否覆盖了它需要掌握的技能。有针对性地设计训练数据,可能是一条比单纯扩大模型规模更高效的改进路径。有兴趣深入了解这项研究全貌的读者,可以通过arXiv编号2604.09531检索原始论文。

Q&A

Q1:VisionFoundry生成的合成图片和普通网络图片有什么本质区别?

A:普通网络图片是随机抓取的,对于"哪个物体在前、物体朝向哪里"这类空间感知信息的覆盖非常稀疏和随机。VisionFoundry生成的合成图片则是"按需定制"的——系统先确定问题和答案,再生成能够支撑该答案的图片,并通过AI审核验证图片与答案确实一致。这种"先有答案再生成图"的逻辑,保证了每张图片都对应明确、可验证的视觉信息,训练信号远比随机图片更精准。

Q2:VisionFoundry-10K训练完之后,AI在文字识别等其他能力上会不会变差?

A:会有小幅波动,但不会大幅退步。在文字识别测试OCRBench上,经过VisionFoundry-10K训练的模型得分略有下降,这是正常现象,因为训练数据里完全没有文字识别相关的样本。但总体来看,通用能力测试上的变化是双向的——有些测试有小幅提升,有些略有波动,并没有出现系统性的全面下降,说明这套方法在提升专项能力的同时,对整体能力的影响是可控的。

Q3:VisionFoundry需要人工参与标注吗,普通研究者能用得起吗?

A:整个流程是完全自动化的,不需要人工标注任何图片或问答对。系统只需要一个任务关键词作为输入,就能自动完成概念池构建、问答生成、图片合成和质量验证的全流程。成本主要来自调用大语言模型和图片生成模型的API费用,以及验证环节的计算开销。对于有一定计算资源的研究团队来说,这套方案的门槛远低于人工标注或真实图片采集。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。