当前位置: 首页 » 资讯 » 新科技 » 正文

索尼研究院首次实现视觉互动的图像文本通用嵌入模型

IP属地 中国·北京 科技行者 时间:2025-10-28 16:16:39


这项由索尼集团公司王为垚、立石和也、吴琦愚、高桥修介、光藤雄基等研究人员领导的创新研究发表于2025年的预印本论文中,有兴趣深入了解的读者可以通过arXiv:2510.00523v1查询完整论文。

当你在搜索引擎里输入"红色的车"时,系统会返回各种红车的图片。但如果你想要的不是整辆红车,而是这辆车停在海边的特定场景呢?或者你看到一张照片里有好几只动物,但你只对左边那只小猫感兴趣,希望找到类似的"左边小猫在草地上"的图片呢?这正是当前智能搜索系统面临的一个关键挑战。

现有的图像搜索和理解系统就像一个只会看整体的人,它们能告诉你照片里有什么,但无法理解你用手指点的具体区域。研究团队将这比作传统的"看图说话"模式,机器只能描述整张图片的内容,却无法响应用户的"你看这里"的指示。

研究团队发现了这个痛点后,开发出了名为VIRTUE(Visual-InteRactive Text-Image Universal Embedder,视觉互动文本图像通用嵌入器)的革命性系统。这个系统的核心创新在于,它不仅能像传统系统一样理解整张图片,还能精确理解用户通过鼠标框选、点击或者画圈等方式指定的特定区域,就像一个既能看森林也能看树木的智能助手。

为了验证这个系统的能力,研究团队还创建了一个名为SCaR(Segmentation-and-Scene Caption Retrieval)的大型测试数据集,包含100万个样本。这个数据集就像一个巨大的考场,专门测试机器是否真正理解了用户的视觉指示和上下文需求。实验结果显示,VIRTUE在传统任务上比现有最佳系统提升了3.1%到8.5%,在视觉互动任务上更是实现了15.2%到20.3%的显著提升。

一、机器理解的新境界:从全图扫描到精准定位

传统的图像理解系统就像一个只会用广角镜头拍照的摄影师,它们总是尝试捕捉整个画面的信息,但对于画面中的具体细节却往往力不从心。当用户想要搜索"桌子上的杯子"时,传统系统可能会返回包含桌子和杯子的所有图片,但无法区分杯子是放在桌子上、桌子旁边还是被人拿在手里。

这个问题的根源在于,现有的嵌入模型(可以理解为将图片和文字转换成计算机能理解的数字代码的系统)主要依赖于文本指令。用户只能通过文字描述来表达自己的需求,就像蒙着眼睛玩"你画我猜"游戏一样,缺乏直观的视觉交互方式。

VIRTUE的突破性创新在于引入了视觉互动能力。当用户在图片上用鼠标框出一个区域、点击一个位置或者画出一个形状时,系统能够准确理解这些视觉信号的含义。这就像给机器安装了一双能够跟随用户手指方向的眼睛,不仅能看到整体画面,还能专注于用户关心的特定区域。

更重要的是,VIRTUE不仅理解用户指定的区域,还能同时考虑这个区域在整体图像中的上下文环境。继续用摄影师的比喻,VIRTUE就像一个既能拍摄特写镜头又能保持全景意识的专业摄影师,既能聚焦细节又不失整体把握。

这种双重理解能力解决了一个长期困扰研究者的难题:如何在保持全局理解的同时实现精准定位。传统的解决方案要么是直接裁剪图片(这会丢失上下文信息),要么是将视觉指示转换为文字描述(这往往不够精确)。VIRTUE通过整合分割模型和视觉语言模型,实现了真正的视觉互动理解。

研究团队采用了SAM2分割模型作为视觉互动的处理引擎。这个模型就像一个精密的图像解析器,能够根据用户的视觉提示(比如点击、框选或涂抹)准确识别出用户关注的对象边界。然后,通过一个特殊的连接器将分割信息转换成与文本信息兼容的格式,最终由大型视觉语言模型进行综合理解和处理。

二、SCaR数据集:测试机器视觉理解的终极考场

为了验证VIRTUE的能力,研究团队面临着一个严峻挑战:现有的测试数据集都无法评估视觉互动能力。这就像想测试一个司机的夜间驾驶技能,但只有白天驾驶的测试题目。因此,他们决定从零开始构建一个专门的测试平台。

SCaR数据集的创建过程可以比作编写一本超级复杂的视觉理解教科书。研究团队从五个知名的公开数据集中精心挑选素材,包括RefCOCO+、RefCOCOg、VisualGenome、COCO-Stuff和ADE20k。这些数据集就像不同类型的图片库,涵盖了从日常生活场景到复杂的视觉关系描述。

但仅仅收集图片是不够的,关键在于创造具有挑战性的测试问题。研究团队采用了一个巧妙的策略:利用GPT-4V人工智能助手来生成既符合图像内容又具有迷惑性的错误选项。这个过程就像制作一个精心设计的视觉智力测验,每个问题都有一个正确答案和九个看似合理但实际错误的选项。

生成负面样本的策略特别值得关注。研究团队设计了三种不同的"陷阱"类型:全局场景交换(比如将"海边的长椅"换成"公园里的长椅")、关系交换(比如将"坐在长椅上"换成"站在长椅旁")、和对象交换(比如将"长椅"换成"雕塑")。每种陷阱都经过精心设计,确保如果机器只看局部区域而忽视整体上下文,就很容易掉入这些陷阱。

为了保证数据质量,研究团队还设计了一个严格的筛选流程。首先使用GPT-4V进行自动验证,检查生成的描述是否包含完整的"对象-关系-场景"三要素。然后使用WordNet语义网络检测是否存在近义词混淆的问题。对于评估数据集,还进行了人工审核,确保每个样本都达到高质量标准。

最终,SCaR数据集包含了95.7万个训练样本和4.7万个评估样本,成为目前最大规模的视觉互动理解测试平台。这个数据集的特殊之处在于,它不仅测试机器能否识别指定区域的对象,更重要的是测试机器能否理解这个对象在特定场景中的状态和关系。

三、VIRTUE系统:三重智能的完美融合

VIRTUE系统的设计理念可以比作一个三人协作的专业团队。第一个成员是视觉语言模型,就像一个经验丰富的图像分析师,擅长理解图片的整体内容和文字描述的含义。第二个成员是分割模型,就像一个精确的测量师,能够根据用户的指示精确定位和分析特定区域。第三个成员是连接器,就像一个翻译官,负责将不同成员的"语言"转换成统一的格式。

系统的工作流程设计得极为巧妙。当用户输入一张图片和相应的视觉提示时,分割模型首先发挥作用。无论用户是点击了图片上的某个点、框选了某个区域还是画出了某个形状,分割模型都能准确理解这些指示的含义,并生成相应的分割特征图。这个过程就像一个专业的图像编辑师根据客户的要求精确选中需要处理的区域。

同时,视觉语言模型的视觉编码器会处理整张图片,生成全局视觉特征。如果输入中还包含文字描述,文字编码器也会生成相应的文字特征。这三种特征就像三种不同的信息流,分别代表了局部细节、全局上下文和语言指令。

连接器的作用尤为关键。由于分割模型生成的特征图包含4096个特征点,直接处理会消耗大量计算资源。连接器通过一个二维卷积层将特征点数量压缩到256个,然后通过两层多层感知机将特征转换成与大型语言模型兼容的格式。这个过程就像将一本厚重的百科全书精炼成一份言简意赅的摘要,保留核心信息的同时大幅提高处理效率。

最终,三种特征按照"分割-视觉-文本"的顺序拼接在一起,输入到大型语言模型中进行综合处理。模型使用最后一个词元的隐藏状态作为最终的嵌入表示,这个表示既包含了用户指定区域的详细信息,也保留了整体图像的上下文信息。

训练过程采用了对比学习的策略,就像教会系统区分"相似"和"不相似"的能力。系统学会将语义相近的图像和文本拉近,将语义不同的内容推远,从而建立起精确的多模态理解能力。

四、实验验证:数字背后的突破性表现

VIRTUE系统的性能验证就像一场全方位的能力考试,研究团队在多个维度进行了严格测试。在传统的多模态嵌入基准测试MMEB上,VIRTUE展现出了全面超越现有系统的能力。这个测试平台包含36个不同的任务,涵盖分类、问答、检索和视觉定位等各个方面。

在2B参数规模的模型比较中,VIRTUE-2B相比最佳基线模型平均提升了5.1个百分点,从59.7%提升到64.8%。在7B参数规模的比较中,VIRTUE-7B也实现了2.0个百分点的提升,从66.6%提升到68.6%。这些数字看起来可能不够震撼,但在人工智能领域,每一个百分点的提升都意味着大量技术细节的优化和突破。

更重要的是,VIRTUE在各个子任务上都表现出了一致的优势。无论是图像分类、视觉问答、图像检索还是视觉定位,VIRTUE都能够超越同类系统。这种全面的优势表明,VIRTUE的设计理念是正确的,分割信息的引入确实能够增强模型对图像的理解能力。

在SCaR数据集上的测试结果更加令人印象深刻。VIRTUE-2B相比最佳基线模型平均提升了6.3个百分点,而在经过SCaR训练数据微调后,这个提升幅度达到了9.5个百分点。对于7B模型,相应的提升分别为1.5和7.5个百分点。这些结果清楚地表明,VIRTUE不仅在传统任务上表现出色,在需要视觉互动理解的新任务上更是展现出了显著优势。

研究团队还进行了详细的消融实验,验证了系统各个组件的贡献。结果显示,分割流的引入是性能提升的关键因素。当去除分割组件时,系统性能明显下降,证明了视觉互动能力的重要价值。同时,实验还表明,即使在非视觉互动任务中,分割组件通过提供实体级别的信息也能增强模型的整体理解能力。

五、实际应用:从理论到现实的无缝转换

VIRTUE系统的真正价值不仅体现在实验室的测试数据上,更在于它在实际应用中展现出的巨大潜力。研究团队设计了多个应用场景来展示系统的实用性,这些场景贴近日常生活,让人们能够直观感受到技术的魅力。

在图像搜索应用中,VIRTUE实现了真正的"指哪搜哪"功能。用户可以直接在图片上圈出感兴趣的区域,系统会找到包含相似对象且处于相似场景的图片。比如用户在一张街景照片中框选了停在路边的汽车,系统会找到其他"停在路边的汽车"的图片,而不是"在高速公路上行驶的汽车"或"在停车场的汽车"。这种精确的上下文理解能力是传统搜索系统无法达到的。

更有趣的是即时纠错功能。当系统对某个问题给出错误答案时,用户可以通过视觉提示来引导系统关注正确的区域,从而得到正确答案。这就像有一个能够接受视觉指导的智能助手,用户不需要费劲地用文字描述,只需要用手指一点,系统就能理解用户的意图。

在视觉问答任务中,VIRTUE展现出了处理复杂场景的能力。面对包含多个对象的复杂图像,用户可以通过点击或框选的方式让系统专注于特定区域进行分析。比如在一张包含多辆车的交通场景图片中,用户点击其中一辆车,系统就能准确回答关于这辆特定车辆的问题,而不会被其他车辆干扰。

研究团队还测试了系统在处理歧义情况下的表现。在一些包含相似对象的图片中,传统系统往往难以区分用户关心的具体是哪一个。而VIRTUE通过视觉提示能够精确识别用户的意图,大大提高了人机交互的效率和准确性。

六、技术深度:创新设计的精巧之处

VIRTUE系统在技术实现上的巧妙设计值得深入探讨。研究团队在架构设计时面临的一个核心挑战是如何有效整合来自不同模态的信息。传统的方法要么简单地将不同信息拼接在一起,要么使用复杂的注意力机制进行融合,但这些方法都有各自的局限性。

VIRTUE采用了一种更加优雅的解决方案。系统使用预训练的SAM2模型作为分割组件,这个模型已经在大规模数据上训练过,具有强大的分割能力。关键的创新在于如何将分割信息转换成与语言模型兼容的表示。研究团队设计的连接器不是简单的特征投影,而是一个经过精心优化的转换模块。

连接器的设计考虑了计算效率和表达能力的平衡。原始的分割特征图包含64x64=4096个特征点,直接处理会带来巨大的计算负担。通过二维卷积进行空间降采样,系统将特征点数量减少到256个,在保持关键信息的同时显著提高了处理效率。

训练策略的设计也体现了研究团队的深厚功力。系统同时支持有视觉提示和无视觉提示的输入。当没有明确的视觉提示时,系统会在图像上均匀采样9个点作为默认的分割提示。这种设计使得系统既能处理传统的全图理解任务,又能处理需要视觉互动的特定区域理解任务。

对比学习的使用也很有技巧。系统使用InfoNCE损失函数,通过在批次内构建正负样本对来学习有效的表示。这种方法特别适合多模态学习场景,因为它能够同时考虑不同模态之间的相似性和差异性。

实现细节上,研究团队选择使用LoRA(Low-Rank Adaptation)技术来微调大型视觉语言模型。这种方法只训练少量参数,既保持了预训练模型的能力,又使得训练更加高效。同时,分割模型和视觉编码器保持冻结状态,确保了预训练知识的保留。

七、对比分析:站在巨人肩膀上的创新

VIRTUE的创新价值更好地体现在与现有方法的详细对比中。当前的多模态嵌入模型主要分为两大类:基于CLIP的双塔架构和基于VLM的统一架构。CLIP类方法简单高效,但缺乏复杂推理能力。VLM类方法推理能力强,但缺乏视觉交互能力。

与直接裁剪方法相比,VIRTUE的优势尤为明显。简单裁剪会丢失上下文信息,导致理解偏差。比如一个"在桌子上的杯子"被裁剪后可能只剩下杯子本身,系统无法判断这个杯子原本的位置关系。VIRTUE通过保持全局上下文的同时增强局部理解,避免了这个问题。

与添加视觉提示标记的方法相比(比如在图像上画红圈),VIRTUE的分割方法更加精确和鲁棒。画圈方法依赖于视觉语言模型对标记的理解能力,而这种理解往往不够精确。VIRTUE直接在特征层面进行融合,避免了视觉标记可能带来的歧义。

研究团队还与最新的多模态嵌入模型进行了全面比较。在相同的模型规模下,VIRTUE不仅在传统任务上表现更好,在需要精细视觉理解的任务上优势更加明显。这种全面的优势表明VIRTUE的设计理念是正确的,分割信息的引入确实能够增强模型的多模态理解能力。

特别值得注意的是,VIRTUE在处理困难样本时的表现。在SCaR数据集中,许多样本都是精心设计的困难案例,需要模型同时理解局部细节和全局上下文。传统方法在这些样本上的表现往往不理想,而VIRTUE展现出了明显的优势。

八、局限性与未来方向:诚实面对挑战

诚实面对研究的局限性是科学态度的体现。VIRTUE系统虽然取得了显著进展,但仍然存在一些限制和改进空间。

首先是训练数据的限制。由于计算资源的约束,研究团队主要使用MMEB和SCaR数据集进行训练。虽然这些数据集质量很高,但规模相对有限。更大规模、更多样化的训练数据可能会进一步提升系统性能。这就像一个学生虽然在几个科目上表现出色,但如果能接触更多学科,可能会有更全面的发展。

其次是评估维度的限制。虽然SCaR数据集提供了视觉互动能力的评估,但主要聚焦于图像到文本的检索任务。图像到图像的检索,以及其他类型的视觉互动任务的系统性评估仍有待完善。研究团队在论文中也承认了这个限制,并表示这是未来工作的重要方向。

计算效率是另一个需要考虑的因素。虽然连接器设计已经考虑了效率问题,但整个系统仍然包含多个大型模型组件,计算需求相对较高。在实际部署时,特别是在资源受限的环境中,可能需要进一步的优化。

在应用场景方面,目前的评估主要集中在研究环境中构造的任务上。真实世界的应用往往更加复杂和多变,用户的行为模式也可能与实验设置有所不同。需要更多的真实用户测试来验证系统在实际使用中的表现。

展望未来,研究团队提出了几个有前景的发展方向。扩大训练数据规模是最直接的改进途径,更多样化的数据可能会带来更强的泛化能力。构建更全面的评估基准也是重要工作,特别是图像到图像检索和其他视觉互动任务的评估。

技术架构方面,探索更高效的融合机制可能会进一步提升性能。当前的线性拼接方法虽然简单有效,但可能不是最优的融合策略。更复杂的注意力机制或者其他融合方法值得探索。

说到底,VIRTUE代表了多模态人工智能发展的一个重要里程碑。它首次实现了真正的视觉互动嵌入,让机器能够理解用户的"指指点点",这种能力对于人机交互具有重要意义。虽然还存在一些限制,但这项研究为未来的发展奠定了坚实基础。

更重要的是,VIRTUE展示了一种新的思考方式:不仅要让机器理解我们说什么,还要让机器理解我们指向哪里。这种视觉互动能力可能会彻底改变我们与人工智能系统的交互方式,让人机交互变得更加自然和直观。随着技术的不断完善,我们有理由期待看到更多基于这种理念的创新应用出现在我们的日常生活中。

对于普通用户来说,VIRTUE技术的成熟可能意味着更智能的搜索引擎、更直观的图像编辑工具、更自然的人机对话系统。虽然距离大规模应用还需要时间,但这项研究已经为我们展示了一个充满可能性的未来。有兴趣了解更多技术细节的读者,可以通过论文编号arXiv:2510.00523v1查阅完整的研究报告。

Q&A

Q1:VIRTUE和现在的图像搜索有什么不同?

A:VIRTUE最大的不同是支持用户直接在图片上点击、框选或画圈来指定感兴趣的区域,然后基于这个区域搜索相关内容。比如你看到一张街景图,想搜索"停在路边的红车",你可以直接框选那辆车,系统就会找到其他"停在路边的红车",而不是"在高速路上的红车"。现在的搜索只能通过文字描述,无法理解用户的视觉指示。

Q2:SCaR数据集为什么这么重要?

A:SCaR数据集是全球首个专门测试视觉互动能力的大型数据集,包含100万个样本。它的重要性在于能够测试机器是否真正理解了用户指定区域的内容和上下文关系。比如用户框选了"桌子上的杯子",系统不仅要识别出杯子,还要理解它在桌子上的位置关系。这种测试在以前是不存在的,所以研究团队必须从零开始构建。

Q3:VIRTUE技术什么时候能在日常生活中使用?

A:虽然VIRTUE在实验室环境中表现出色,但距离大规模商用还需要时间。目前主要面临计算资源需求较高、需要更多真实场景测试等挑战。不过,这项技术的核心理念已经为未来的图像搜索、智能助手、图像编辑等应用指明了方向。预计在未来几年内,我们可能会在一些专业应用中看到类似技术的身影。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。