当前位置: 首页 » 资讯 » 新科技 » 正文

ApdativeNN:建模类人自适应感知机制,突破机器视觉不可能三角

IP属地 中国·北京 机器之心Pro 时间:2025-11-28 18:16:46



视觉是人类理解复杂物理世界的重要方式。让计算机具备视觉感知与认知的能力,是人工智能的主要研究问题之一,对多模态基础模型、具身智能、医疗 AI 等重要领域具有关键支撑作用。过去几十年间,计算机视觉取得了显著突破,已在图像识别、目标检测、多模态理解等多个任务上接近甚至超越人类专家水平。然而,当前的高精度模型在实际落地中常面临较大挑战:它们的推理过程往往需要激活上亿参数来处理高分辨率图像或视频、以解决复杂和挑战性的视觉问题,导致功耗、存储需求和响应时延急剧上升。这一瓶颈使得它们难以部署在算力、能耗、存储等资源高度受限的实际系统中(如机器人、自动驾驶、移动设备或边缘终端等),甚至在医疗、交通等场景下由于延迟决策危害生命安全。另一方面,大型模型庞大的推理能耗在也带来了大规模部署的环境可持续性问题。

上述挑战的一个重要原因在于现有视觉模型普遍采用了全局表征学习范式:一次性并行处理整幅图像或视频的所有像素、提取全部对应特征,再应用于具体任务。这种 “全局并行计算” 范式使得模型计算复杂度随输入尺寸呈至少平方或立方增长,逐渐形成了一个日益严峻的能效瓶颈:信息丰富的高分辨率时空输入、性能领先的大型模型、高效快速推理,三者难以同时满足。这一挑战正在成为制约视觉智能走向大规模、可部署落地、低碳环保的公认难题。



图1 当前计算机视觉范式所面临的能效瓶颈

人类视觉系统为突破上述瓶颈提供了重要启示:在观察复杂环境时,人眼不会一次性处理全部视觉信息,而是通过一系列 “注视” 动作主动、选择性地采样关键区域,以小范围高分辨率的感知逐步拼接出对物理世界中有用信息的认知。这种先进的机制能在庞杂的信息流中快速筛取要点,大幅降低计算开销,使得人类高度复杂的视觉系统即便在资源受限的前提下依然能够高效、快速运行。无论外界场景多么复杂,人类视觉的能耗主要取决于注视带宽与注视次数,而非全局像素量。早在 2015 年,LeCun, Bengio, Hinton 便在《Nature》综述论文 “Deep Learning” 中指出,未来的 AI 视觉系统应具备类人的、任务驱动的主动观察能力。然而近十年来,这一方向仍缺乏系统性研究。



图2 人类视觉系统的主动自适应感知策略

2025 年 11 月,清华大学自动化系宋士吉、黄高团队在《自然・机器智能》(Nature Machine Intelligence)上发表了论文《Emulating human-like adaptive vision for efficient and flexible machine visual perception》(模拟人类自适应视觉,实现高效灵活的机器视觉感知)。该研究提出了AdaptiveNN 架构,通过借鉴人类 “主动自适应视觉” 的机制,将视觉感知建模为由粗到精的最优序贯决策问题:逐步定位关键区域、累积多次注视信息,并在信息足够完成任务时主动终止观察。在理论上,该研究通过结合表征学习与自奖励强化学习,给出了 AdaptiveNN 所面临的离散 - 连续混合优化问题的无需额外监督的端到端求解方法。在涵盖 9 类任务的广泛实验中,AdaptiveNN 在保持精度的同时实现了最高 28 倍的推理成本降低,可在线动态调整其行为以适配不同任务需求与算力约束,同时,其基于注视路径的推理机制显著提升了可解释性。AdaptiveNN 展现出构建高效、灵活且可解释的计算机视觉新范式的潜力。另一方面,AdaptiveNN 的感知行为在多项测试中与人类接近,也为未来探索人类视觉认知机制的关键问题提供了新的见解和研究工具。



论文标题:Emulating human-like adaptive vision for efficient and flexible machine visual perception论文链接:https://www.nature.com/articles/s42256-025-01130-7

AdaptiveNN:类人主动感知架构



借助这一机制,AdaptiveNN 能够在保证高精度的同时显著降低计算量,实现“看得清,也看得省”。它使神经网络具备了类人式的主动感知,从而突破了传统视觉模型在效率与效果之间的权衡瓶颈。

值得注意的是,AdaptiveNN 在设计上具有较强的兼容性和灵活性,适用于多种不同的深度神经网络基础架构(如卷积网络、Transformer等)和多种类型的任务(如纯视觉感知、视觉-语言多模态联合建模等)。



图3 AdaptiveNN的网络架构和推理过程

理论创新:自激励强化学习驱动的主动感知行为学习

AdaptiveNN 的训练过程同时涉及连续变量(如从注视区域中提取特征)与离散变量(如决定下一次注视位置)的优化,传统反向传播算法难以直接处理这一混合问题。为此,研究团队在理论上提出了面向离散 - 连续混合优化问题的端到端求解方法,使 AdaptiveNN 能够在统一框架下简单易行地完成整体训练。具体而言,从期望优化目标出发,对整体损失函数 L(θ) 进行分解,AdaptiveNN 的端到端优化过程可自然地分解为两部分



其中第一项为表征学习目标(representation learning),对应于从注视区域中提取任务相关的特征;第二项为自激励强化学习目标(self-rewarding reinforcement learning),对应于优化注视位置的分布,驱使模型的主动注视行为实现最大化的任务收益。这一理论结果揭示了 AdaptiveNN 的内在学习规律:主动感知的优化本质上是表征学习与强化学习的统一



图4 强化学习驱动的端到端主动视觉的理论框架

实验验证:高效视觉感知,类人视觉行为

性能提升显著:在使用相同主干网络(如 DeiT-S、ResNet-50)的情况下,AdaptiveNN-DeiT-S 和 AdaptiveNN-ResNet-50 分别以2.86 GFLOPs 与 3.37 GFLOPs的平均计算量,取得与传统静态模型相当甚至更优的准确率(81.6% / 79.1%),实现了 5.4× 与 3.6× 的计算节省。可解释性增强:AdaptiveNN 的注视轨迹自动聚焦于类别判别性区域,例如动物的头部、乐器的关键结构、咖啡机的旋钮与喷嘴等。当目标较小或远离摄像机时,模型会自适应地延长观察序列,主动调整注视步数以获得更精确的判断。这种 “由粗到细、按需注视” 的策略,与人类视觉的逐步注视过程高度一致。



图5 ImageNet视觉感知实验结果

为了进一步验证 AdaptiveNN 的泛化与精细感知能力,研究团队在六个细粒度视觉识别任务(CUB-200、NABirds、Oxford-IIIT Pet、Stanford Dogs、Stanford Cars、FGVC-Aircraft)上进行了系统评估。

AdaptiveNN 在保持精度基本不变甚至略有提升的情况下,实现了5.8×–8.2× 的计算量节省,显著超越传统静态视觉模型的性能–能效上限。通过可视化(Fig. A1b–A1e),可以看到模型自发聚焦于任务判别性区域 —— 如鸟类的喙部、犬类的面部、汽车的灯组与航空器的螺旋桨 —— 而无需任何显式的定位监督。



图6 细粒度视觉识别任务实验结果

AdaptiveNN 在空间注视位置任务难度判断两个层面,都展现出与人类视觉高度一致的自适应行为。定量结果表明,无论是 “看哪里”、还是 “觉得什么难”,模型的感知策略都与人类极为相似。在 “视觉图灵测试” 中,人类受试者几乎无法区分模型与真实人类的凝视轨迹。

更值得关注的是,这一成果对认知科学的研究具有启发意义。AdaptiveNN 的结果不仅为理解人类视觉行为的关键认知科学问题(例如 “视觉能力的形成究竟源于先天机制还是后天学习”)提供了新的启发,也展示了其作为一种通用计算模型的潜力。未来,AdaptiveNN 有望用于模拟和检验人类的注意分配、感知学习、以及复杂任务中的视觉决策机制,为将来认知科学方面的研究提供了潜在的定量工具。



图7 AdaptiveNN与人类视觉感知行为的一致性测试

从视觉感知到迈向高效具身推理

在实验验证中,研究团队进一步将 AdaptiveNN 应用于具身智能的基础模型(视觉 - 语言 - 行为模型,VLA)上结果表明,该框架在复杂操作场景中显著提升了具身基础模型的推理与感知效率,在保持任务成功率的同时将计算开销大幅降低 4.4-5.9 倍。这一成果为解决具身智能系统长期面临的效率瓶颈提供了新的思路与技术路径。



图8 ApdativeNN应用于VLA具身任务的实验结果

清华大学自动化系博士生王语霖、乐洋、乐阳为论文共同第一作者,宋士吉教授与黄高副教授为共同通讯作者。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新