当前位置: 首页 » 资讯 » 新科技 » 正文

北大ProAct:首个双系统「主动社交」智能体,不做提线木偶

IP属地 中国·北京 新智元 时间:2026-02-26 12:21:11


新智元报道

编辑:LRST

现有的具身智能大多是「你说我做」的被动响应者。如何让机器人像人类一样拥有「主动性」?北京大学VCL实验室针对当前具身智能体「被动响应」的局限,提出了一个基于「双系统」架构的主动社交智能体框架ProAct,模仿人类「快思考」与「慢思考」的认知机制,使机器人不仅能够进行流畅自然的对话,还能基于情境理解主动发起互动,从而具备真正的「社交心智」。

在与机器人交互时,你是否常有这种感觉:如果你不说话,它就永远沉默;如果你不发指令,它就「呆若木鸡」。

这是因为目前的交互式系统绝大多数都是反应式的,它们被困在一个短暂的时间窗口里,只能根据当前的语音或视觉输入做出反馈,这种机制使得智能体难以基于积累的长期语境来推断意图,更无法发起主动行为。

然而,生活中的人类社交本质上是双向且主动的。

在日常互动中,人们不仅是对他人的话语做出反应,更会运用意向性去预测需求、掌握主动权并在未被请求时采取行动。

例如,当朋友显得犹豫不决时给予鼓励,或在看到空杯子时主动倒水。这种由内部目标驱动而非被动响应外部刺激的「主动性」,是区分真正的伙伴与简单问答机器人的关键。

想在具身智能体上实现这一点,还得解决一个核心矛盾:时间尺度。主动行为需要深思熟虑的推理和长程语境分析,也就是要「慢想」;而实时交互要求极低的延迟,必须「快回」。单一的端到端模型往往难以兼顾二者,因为深度推理会阻塞实时响应,而追求速度则会牺牲行为的合理性和准确性。

受认知科学中双重加工理论的启发,北京大学研究团队提出了一种双系统架构ProAct,核心思路在于快慢分离, 即将即时的反应与慢速的推理分离,使得ProAct兼具响应速度与主动的深度社交能力。


论文地址:https://arxiv.org/abs/2602.14048

项目主页:https://proactrobot.github.io/

其中,行为系统(Behavioral System)作为「快系统」,负责维持高频、低延迟的多模态交互流;认知系统(Cognitive System)作为「慢系统」,配备记忆与推理模块,负责长程推理并生成高层主动意图。


图1. ProAct 双系统框架概览。(a) 系统架构整合了快速的行为系统与慢速的认知系统;(b) 实时交互中,智能体在用户离开时主动发起挽留与提醒。

为了弥合两者的时间差,ProAct进一步提出了一种基于流匹配(Flow Matching)的流式生成模型,支持通过 ControlNet 异步注入语义意图,这样一来,机器人在保持流畅交互的同时,也能无缝地从「被动反应」切换到「主动出击」。

文章的技术贡献主要体现在以下三点:

提出了一种用于具身社交智能体的双系统架构,成功将实时反应与语境驱动的主动行为融为一体。

提出一种基于流匹配的流式生成模型,支持将高层语义意图异步注入实时动作流,实现了反应式与主动式行为的平滑切换。

将该系统部署于Unitree G1人形机器人,在真实世界中验证了其主动交互的有效性。

下方的演示视频可以直观地感受ProAct如何让机器人像人类一样拥有「社交心智」:


视频1. 在生活管家场景中,ProAct 发现用户有急事后停止说话,并主动提醒用户离开时忘记拿书包。


视频2. 在情感支持场景中,ProAct 检测到用户剧烈的情绪波动,主动询问缘由并安慰用户。


视频3. 在寻找物品场景中,ProAct在用户寻找物品时,回忆起用户之前放置药品柜的经过,主动提醒用户药瓶放在了哪里。

方法简介

ProAct采用双系统并行运行的机制:行为系统维持实时交互闭环,认知系统在后台进行周期性推理。

行为系统:流式多模态交互

行为系统充当着「快系统」的角色,负责处理用户音频与视觉流,生成低延迟的语音与动作反馈,由一个流式Omni-LLM和一个流式动作生成器级联而成。

语音方面,系统利用GPT-4o Realtime模型处理用户语音和第一视角图像,实现了支持随时打断的实时对话。动作方面,为了维持具身的「存在感」,动作必须连续且流畅。

为此,ProAct提出了一种基于流匹配的生成模型,具备极高的实时性,首次响应时间与真实社交场景中的人类相当。通过「重叠-缓存」机制,ProAct保证每一帧动作的生成时间小于播放时间,并且能完美衔接上一帧的动作,满足实时流式输出的要求。

此外,模型还能同时接收双方的语音流进行双人交互建模,这让机器人不仅在说话时有手势,在倾听时也能有自然的身体晃动等反馈。


图2. 认知系统架构。(a) 增量式多模态输入;(b) 上下文编码器与行为规划器并行工作;(c) 通过不同通道注入行为计划。

认知系统:社会语境推理

认知系统作为「慢系统」,通过一个基于 LLM 的智能体框架在后台运行,旨在解决「何时」以及「如何」发起主动行为的问题。如图 2 所示,该系统包含两个关键模块。

首先是上下文编码器 (Context Encoder)。为了防止随着对话进行导致推理延迟增加,该模块负责将累积的对话历史、视觉帧与过往行为压缩进一个「记忆库」。记忆库结构化地存储了用户分析(如心智理论)、情境追踪(如物体位置变化)以及机器人的历史行为。

其次是行为规划器 (Behavior Planner)。该模块依据当前的记忆与感知,进行动机评估。系统会从视觉场景变化、用户意图信号、对话状态、社会规范要求、情感响应需求这五个维度对当前状况进行打分。当任一维度的动机分数超过设定阈值时,系统将触发主动干预。

最终,认知系统的输出将通过三个通道注入行为系统:一是手势意图注入,通过 ControlNet 引导动作生成,例如「挥手打招呼」;二是对话干预,向 Omni-LLM 注入指令以打断对话或引导话题;三是移动控制,调整机器人的站位与朝向,例如「转向用户」。

实验结果与部署

研究者们将ProAct全栈部署在Unitree G1人形机器人上,实验设计了包括「海报讲解」、「讲故事」、「寻找物品」等多个交互场景。


图3. 在海报讲解场景中,ProAct 主动发现用户并打招呼,随后纠正用户的误解。


视频4. 在海报讲解场景中,ProAct 主动发现用户并打招呼,随后纠正用户的误解。


图4. 在讲故事场景中,ProAct 检测到用户玩手机分心,主动中断故事并提醒用户。


视频5. 在讲故事场景中,ProAct 检测到用户玩手机分心,主动中断故事并提醒用户。

如上述图片所示,在海报讲解任务中,ProAct 展现了超越简单问答的能力:它能主动捕捉路过的用户,建立眼神接触,并在用户表达错误观点时主动打断并纠正。在讲故事场景中,当检测到用户低头玩手机时,机器人并未继续自言自语,而是根据「社会规范」触发器,生成了不满的肢体语言(双手叉腰)并口头提醒用户专心。通过视频结果中的链接可以观看完整的社交视频。

视频6. ProAct的完整demo视频

结论

研究人员提出了一个用于主动具身社交智能体的双系统框架ProAct。

ProAct首先构建了一个支持语义意图注入的流式动作生成模型;在此之上,设计了能够解耦实时反应与长程推理的双系统架构。

可视化结果与用户研究表明,ProAct能够生成语境恰当的主动行为,显著增强了人机交互的自然度与参与感 。

尽管该方法在提升主动性方面取得了显著进展,仍存在一些局限性。首先,目前的触发机制基于固定频率与阈值,可能会错过最合适的干预机会 ;其次,当前系统主要依赖云端大模型,其网络延迟(约1-2秒)在一定程度上限制了对极速突发事件的响应能力 。未来研究者们将致力于端到端多模态模型的本地化部署与自适应触发策略的研究。

参考资料:

https://arxiv.org/abs/2602.14048

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。