![]()
当你要找钥匙时,你不会站在门口不动,而是会走来走去、弯腰低头、换个角度仔细观察。同样道理,当AI要理解一个三维场景并回答相关问题时,也应该能够主动调整视角,而不是被困在几张固定的照片中。这正是浙江大学ZIP实验室联合莫纳什大学和阿德莱德大学AIML实验室在2026年1月发表的最新研究要解决的核心问题。
这项发表在arXiv预印本服务器上的研究(论文编号:arXiv:2601.05172v1)提出了一种名为"视角链"(Chain-of-View,简称CoV)的创新框架。研究团队发现,现有的视觉语言模型在面对复杂的三维环境问题时,往往受限于固定的输入视角,就像一个人只能透过几个固定的窗户观察外面的世界一样。而他们的新方法让AI能够像真正的探索者一样,主动移动和转动"视线",从不同角度收集信息,最终给出更准确的答案。
这项研究的独特之处在于它完全不需要额外的训练,就能让现有的AI模型具备"主动观察"的能力。研究人员在OpenEQA、ScanQA和SQA3D等权威测试数据集上进行了大量实验,结果显示这种方法平均提升了11.56%的表现,最高提升幅度达到了13.62%。更令人兴奋的是,随着AI"观察步数"的增加,它的表现会持续改善,这种"测试时扩展"的特性为未来的AI发展开辟了新的可能性。
**一、传统方法的困境:被困在"固定窗口"中的AI**
要理解这项研究的价值,我们先来看看传统AI在处理三维场景问题时遇到的困难。现在的大多数视觉语言模型就像一个只能通过几扇固定窗户观察世界的人。当你问它"冰箱在哪里"时,如果冰箱恰好不在这几个窗口的视野范围内,或者被其他物体遮挡了,AI就很难给出准确答案。
这种局限在现实应用中造成了很多问题。考虑这样一个场景:你在一个复杂的室内环境中寻找某个物品,比如"遥控器放在哪里"。作为人类,你会自然地环顾四周,走到沙发后面看看,弯腰查看茶几下方,甚至移动一些遮挡物来获得更好的视角。但传统的AI系统只能依赖预先提供的几张照片,无法主动调整观察角度。
更复杂的情况是当问题涉及空间推理时,比如"什么东西放在书架的左边"。这类问题需要AI理解物体之间的相对位置关系,而这往往需要从多个角度观察才能准确判断。单一或有限的视角很容易产生误解,就像盲人摸象的故事一样,每个人只能感知到大象的一部分,无法形成完整准确的认识。
研究团队通过深入分析发现,这种"视角固定"的问题在复杂室内环境中尤为突出。当场景中有很多家具、装饰品或者复杂的空间布局时,重要信息往往分散在不同的位置,需要通过多角度观察才能收集完整。而传统方法的表现往往随着场景复杂度的增加而急剧下降。
**二、视角链方法:赋予AI"主动探索"的能力**
面对这些挑战,浙江大学的研究团队提出了一个巧妙的解决方案。他们的"视角链"方法就像为AI安装了一个可以自由转动的"智能头部",让它能够主动调整观察角度,逐步收集回答问题所需的信息。
这个方法的工作原理可以用探险家寻宝来比喻。当一个探险家进入一个陌生的洞穴寻找宝藏时,他不会站在入口处就做出判断,而是会拿着手电筒四处照射,仔细观察每一个角落,根据发现的线索调整搜索方向,直到找到目标为止。视角链方法让AI具备了类似的"探索智慧"。
整个过程分为两个互补的阶段。第一阶段叫做"粗粒度视角选择",就像一个经验丰富的导游快速浏览整个场景,从众多可能的观察点中挑选出最有希望的几个位置。这个阶段的AI会分析问题内容,比如如果问题是关于厨房用具的,它就会优先选择厨房区域的视角;如果问题涉及书籍,它会重点关注书架附近的观察点。
第二阶段是"精细化视角调整",这里AI变身为一个细致的侦探。它会从第一阶段选定的起始位置开始,通过一系列精确的"动作"来调整观察角度。这些动作包括向前移动、向后退、左转、右转、向上看、向下看等等,就像操控一台灵活的摄像机一样。每执行一个动作,AI都会获得一个新的观察角度,然后分析这个新角度提供的信息,决定下一步该如何调整。
这个过程的精妙之处在于它的"渐进式推理"特性。AI不是一次性处理所有信息,而是像人类思考一样,每看到新的细节都会更新自己的理解,逐步构建对整个场景的完整认识。比如,当AI看到一个疑似冰箱的物体时,它可能会主动移动到更近的位置确认,或者换个角度查看是否有其他相似的物体。
**三、技术实现:将"观察"转化为具体行动**
要让AI具备这种主动观察的能力,研究团队需要解决一个关键技术问题:如何将抽象的"观察需求"转化为具体的"摄像机动作"。他们设计的解决方案就像为AI编写了一套详细的"探索手册"。
这套手册定义了AI可以执行的所有基本动作。平移动作包括向前、向后、向左、向右、向上、向下移动,每个动作都对应摄像机在三维空间中的一个固定位移。旋转动作则包括左右转动(水平旋转)、上下俯仰(垂直旋转)以及倾斜旋转,让AI能够调整观察方向。此外,AI还可以在之前选定的关键视角之间切换,就像在不同的观察哨所之间移动一样。
当AI决定执行某个动作时,系统会将这个抽象指令转换为精确的数学变换。比如,当AI说"我需要向右移动一点来看清楚那个物体"时,系统会计算出对应的三维坐标变换矩阵,更新摄像机的位置和朝向,然后从新的角度生成图像供AI分析。
这种设计的巧妙之处在于它将复杂的三维空间导航简化为一系列离散的、可控的动作。AI不需要理解复杂的几何学或者机器人学知识,只需要像玩电子游戏一样,通过简单的指令控制自己的"视角角色"即可。
为了确保探索过程的高效性,研究团队还设计了智能的"停止条件"。AI会在两种情况下结束探索:一是当它认为已经收集到足够信息回答问题时,二是当探索步数达到预设上限时。这种设计既保证了答案的质量,又避免了无意义的重复探索。
**四、实验验证:在多个权威数据集上的卓越表现**
为了验证这种方法的有效性,研究团队在三个广泛使用的权威测试数据集上进行了全面实验。这些数据集就像AI界的"标准考试",涵盖了从简单物体识别到复杂空间推理的各种挑战。
OpenEQA数据集是最新也是最具挑战性的测试平台,包含了来自180个真实室内环境的问题,这些环境来自知名的ScanNet和HM3D数据集。这个测试的特点是问题非常贴近日常生活,比如"我应该在哪里放置这个花瓶"或者"如果我想要降温应该怎么办"。研究团队使用了四种不同的主流AI模型进行测试,包括Qwen3-VL-Flash、GLM-4.6V、Gemini-2.5-Flash和GPT-4o-mini。
实验结果令人兴奋。在OpenEQA测试中,视角链方法在所有测试模型上都取得了显著提升。平均改善幅度达到11.56%,其中在Qwen3-VL-Flash模型上取得了最高13.62%的提升。这个数字看似不大,但在AI评估中已经是相当可观的进步,相当于从一个普通学生提升到了优秀学生的水平。
ScanQA数据集专注于物体定位和识别任务,包含超过41000对问答。在这个测试中,视角链方法在多个评估指标上都创造了新纪录。特别是在CIDEr指标(衡量答案与人类标准答案的一致性)上达到了116分,显著超过了之前最好的LEO模型的101.4分。在精确匹配率(答案完全正确的比例)上也达到了31.9%,这意味着近三分之一的问题都能得到完全准确的答案。
SQA3D数据集则侧重于情境推理,要求AI不仅要识别物体,还要理解它们在特定情境中的意义和关系。在这个更具挑战性的测试中,视角链方法同样表现出色,精确匹配率达到了51.1%,超过了一半的正确率。
**五、测试时扩展:探索步数越多,表现越好**
这项研究最令人兴奋的发现之一是"测试时扩展"现象。简单来说,就是AI观察的步数越多,回答问题的准确性就越高。这就像一个侦探调查案件一样,收集的线索越多,越接近真相。
研究团队通过仔细分析发现,当AI不受步数限制自由探索时,大多数问题只需要1到3步就能解决。但那些需要更多探索步数的复杂问题,往往也会获得更高的准确率。这表明AI确实在有效地利用额外的观察机会来改善理解。
为了进一步验证这个现象,研究团队采用了"强制最小步数"的策略。他们要求AI至少执行一定数量的探索动作,就像要求学生至少花一定时间复习一样。结果显示,当最小步数从1增加到7时,平均表现提升了2.51%,在某些模型上甚至达到了3.73%的提升。
这个发现具有重要的实际意义。它表明即使不对AI模型进行任何额外训练,仅仅通过给予更多的"思考时间"和"观察机会",就能显著提升其性能。这为未来AI系统的优化提供了一个全新的方向:与其花费巨大资源训练更大的模型,不如让现有模型更充分地利用推理时间。
**六、对比分析:优势与适用场景**
通过与传统方法的详细对比,研究团队发现视角链方法在多个方面都展现出明显优势。最重要的是,这种方法完全不需要重新训练AI模型,就像给现有的望远镜安装一个智能支架,让它能够自动调整角度一样。
在处理复杂场景时,这种优势更加明显。当房间里有很多遮挡物,或者问题涉及多个物体之间的关系时,传统固定视角的方法往往力不从心。而视角链方法能够像经验丰富的室内设计师一样,从多个角度观察空间,理解物体的真实布局和相互关系。
研究团队还进行了细致的消融实验,专门验证了粗粒度视角选择阶段的重要性。他们发现,如果跳过这个阶段直接进行精细调整,性能会平均下降4.59%。这说明初始的"战略性定位"对整个探索过程至关重要,就像登山者在开始攀登前需要选择最佳路线一样。
不过,研究团队也诚实地指出了这种方法的局限性。在极其动态或混乱的环境中,频繁的视角切换可能会引入噪音或产生错误理解。当探索路径过长时,也可能出现"迷失方向"的问题,导致效率降低甚至产生幻觉性错误。
**七、实际应用前景:从研究到生活的桥梁**
这项研究的价值不仅体现在学术指标上,更重要的是它为未来的AI应用开辟了新的可能性。在智能家居领域,配备了视角链技术的AI助手能够更准确地理解家庭环境,回答诸如"我的眼镜放在哪里了"这样的日常问题。它不再需要依赖预先安装在每个房间的多个摄像头,而是可以通过主动探索来定位物品。
在自动驾驶领域,这种主动观察能力对于理解复杂的交通环境具有重要意义。车载AI系统可以通过调整传感器角度,更好地观察盲区、识别潜在危险,或者理解复杂的交叉路口情况。这种能力对提升自动驾驶的安全性和可靠性具有重要价值。
机器人技术是另一个重要的应用领域。无论是家用清洁机器人还是工业装配机器人,都需要准确理解周围环境来执行任务。视角链技术让机器人能够像人类一样,通过主动观察来获取完成任务所需的信息,而不是被动地依赖预编程的行为模式。
在虚拟现实和增强现实应用中,这种技术能够让AI更好地理解用户所处的真实环境,提供更准确、更有用的虚拟信息叠加。比如,当你在厨房做饭时,AR助手能够通过主动观察来识别你正在使用的食材和厨具,提供相应的烹饪建议。
**八、技术创新的深层意义:重新定义AI的"观察"方式**
这项研究的创新不仅仅是技术层面的改进,更代表了AI研究思路的重要转变。传统的AI系统更像是被动的分析者,接收什么信息就处理什么信息。而视角链方法让AI变成了主动的探索者,能够根据需要主动寻找和收集信息。
这种转变的意义非常深远。它模拟了人类认知的一个重要特征:我们在理解世界时不是被动接受信息,而是主动地选择观察重点,根据已有知识调整注意力方向。一个婴儿学会走路时,会不断调整视线,观察地面、周围障碍物和目标方向。视角链技术让AI也具备了这种"学习型观察"的能力。
从计算效率的角度看,这种方法也很有意义。与其为AI提供海量的冗余视觉信息,不如让它学会"按需观察",只收集回答特定问题所需的关键信息。这种策略不仅提高了准确性,也大大减少了不必要的计算开销。
更重要的是,这种方法展现了"测试时扩展"的可能性。在传统的AI训练范式中,模型的能力主要取决于训练数据的质量和数量。而视角链方法证明了,即使不增加训练,仅仅通过给予AI更多的推理时间和探索机会,就能持续提升性能。这为未来AI发展提供了一个全新的维度。
**九、方法论创新:从工程技巧到科学原理**
浙江大学研究团队在设计视角链方法时,体现了从工程技巧到科学原理的重要转变。他们没有简单地增加更多摄像头或收集更多训练数据,而是深入思考了"观察"这一行为的本质规律。
研究团队发现,有效的观察需要遵循"从粗到细"的原则。这就像画家创作一幅画时,先勾勒整体轮廓,再逐步添加细节一样。粗粒度视角选择阶段确保AI不会迷失在海量信息中,而精细化调整阶段则保证了对关键细节的深入理解。
另一个重要创新是"行动-推理"循环的设计。传统AI系统往往是"先观察,后思考"的线性模式。而视角链方法实现了观察和思考的动态交互:每次新的观察都会影响下一步的思考方向,而思考的结果又会指导下一次观察的重点。这种循环迭代的过程更接近人类的认知模式。
在技术实现上,研究团队巧妙地利用了现有的三维场景表示技术。他们没有重新发明复杂的机器人导航算法,而是将抽象的"观察需求"转换为简单的几何变换。这种设计使得方法具有很好的通用性,可以轻松地应用到不同的AI模型和应用场景中。
**十、未来展望:开启智能系统新纪元**
这项研究为AI领域的未来发展指明了几个重要方向。首先是"主动感知"技术的普及。随着这种方法的成熟,我们可能会看到越来越多的AI系统具备主动调整观察角度的能力,从而在复杂环境中表现得更加智能。
测试时扩展的概念也将催生新的AI优化策略。传统上,提升AI性能主要依赖于更大的模型、更多的训练数据或更强的计算硬件。而这项研究证明了"给AI更多思考时间"也是一个有效途径,这可能会改变整个行业对计算资源配置的策略。
在具体应用方面,我们可以预见这种技术将首先在那些对空间理解要求较高的领域得到应用。比如智能安防系统,能够通过主动调整摄像头角度来跟踪可疑目标;智能购物助手,能够帮助顾客在复杂的商场环境中找到想要的商品;智能导游系统,能够根据游客的问题主动寻找和展示相关的景点细节。
长远来看,这种主动观察能力可能会成为通用人工智能(AGI)的一个重要组成部分。真正智能的系统不应该是被动的信息处理器,而应该是主动的环境探索者,能够根据目标灵活调整感知策略,持续学习和适应新环境。
研究团队也指出了一些需要进一步探索的方向。如何让AI的探索过程更加高效,避免无意义的重复观察;如何在动态环境中保持观察的连贯性;如何将这种方法扩展到其他感知模态,比如声音、触觉等,都是值得深入研究的问题。
说到底,浙江大学这项研究的最大价值在于它改变了我们对AI能力的认知。它告诉我们,智能不仅仅在于处理信息的速度和准确性,更在于主动获取信息的策略和灵活性。就像人类智慧的精髓不在于记忆力的强大,而在于观察世界、思考问题的独特方式一样。随着这种技术的不断发展和完善,我们有理由期待AI系统会变得更加聪明、更加贴近人类的认知模式,真正成为我们理解和改造世界的得力助手。对于普通人来说,这意味着未来的AI助手将能更好地理解我们的需求,更准确地回答我们的问题,让人机交互变得更加自然和高效。
Q&A
Q1:什么是视角链技术?
A:视角链是浙江大学开发的一种让AI主动调整观察角度的技术。就像人找东西时会走来走去、换个角度看一样,这种技术让AI能够在三维场景中主动移动和转动"视线",从不同角度收集信息来更准确地回答问题,而不是被困在几张固定的照片中。
Q2:视角链技术比传统方法好在哪里?
A:传统AI只能看固定角度的图片,就像只能通过几扇窗户看世界。视角链技术让AI能够主动探索,平均性能提升了11.56%,最高提升13.62%。更重要的是,这种方法完全不需要重新训练AI模型,探索步数越多表现越好,体现了"测试时扩展"的优势。
Q3:视角链技术有什么实际用途?
A:这种技术在智能家居、自动驾驶、机器人等领域都有广阔应用前景。比如智能家居助手能更准确地帮你找东西,自动驾驶汽车能更好地观察盲区和复杂路况,清洁机器人能更灵活地理解家庭环境。它让AI从被动的信息处理器变成主动的环境探索者。





京公网安备 11011402013531号