当前位置: 首页 » 资讯 » 新科技 » 正文

莫斯科科学家发明记忆共享技术让机器人告别"各自为政"

IP属地 中国·北京 科技行者 时间:2025-09-18 22:11:42


这项由俄国人工智能研究所(AIRI)、莫斯科物理技术学院以及伦敦数学科学研究所的联合团队在2025年1月发表的研究,为多智能体协作问题提供了一个创新解决方案。论文题为《SRMT:多智能体终身寻路的共享记忆》,由阿尔苏·萨吉洛娃(Alsu Sagirova)、尤里·库拉托夫(Yuri Kuratov)和米哈伊尔·布尔采夫(Mikhail Burtsev)共同完成。感兴趣的读者可以通过arXiv预印本平台(编号:2501.13200v1)获取完整论文内容。

在人工智能的世界里,让多个智能机器人协同工作一直是个令人头疼的问题。你可以把这种困境比作一群失明的人试图一起通过一个拥挤的迷宫——每个人都只能看到自己周围很小的范围,但必须和其他人合作才能成功到达目标。传统的解决方案要么让所有机器人都听命于一个中央指挥官,要么让它们通过复杂的通信协议互相交流。但这些方法都有各自的局限性:中央控制在现实环境中往往不可行,而复杂的通信又容易在关键时刻出现故障。

研究团队受到人类大脑"全局工作空间理论"的启发,提出了一个巧妙的解决方案:共享记忆变换器(SRMT)。这个概念就像给每个机器人都装上了一个"集体大脑"的连接器,让它们能够通过共享记忆来隐性地交换信息和协调行动。与传统方法不同,这种技术不需要复杂的通信协议,而是让每个机器人都能访问一个共同的记忆池,从中获取其他机器人的经验和决策信息。

一、机器人的"瞬间移动"难题:什么是多智能体寻路问题

多智能体寻路问题听起来很学术,但其实在日常生活中随处可见。想象一下繁忙的机场里,数百名乘客需要同时从不同的登机口走向不同的目的地,但每个人的视野都很有限,只能看到周围几步的范围。如果没有良好的协调机制,人们就会在狭窄的走廊里发生拥堵,甚至完全堵死通道。

在机器人世界里,这个问题变得更加复杂。每个机器人都有自己的起始位置和目标位置,它们需要在一个二维网格环境中移动,这个环境就像一个巨大的方格纸,有些方格是障碍物(比如墙壁),有些方格是可以通行的空地。机器人的行动规则很简单:每个时间步骤,它们可以选择移动到相邻的方格,或者保持在原地不动。

这个问题的核心挑战在于"部分可观察性"。每个机器人就像戴着只能看到周围5x5范围的"望远镜",对于更远的环境一无所知。它们不知道其他机器人要去哪里,也不知道其他机器人下一步会做什么决定。这就好比在一个黑暗的房间里,每个人只有一支手电筒,照亮范围非常有限,但大家都需要到达房间的不同角落。

更棘手的是,机器人们不能占据同一个位置——它们会发生"碰撞"。这就像两个人试图同时挤进同一扇门,结果谁都过不去。在狭窄的通道中,这种问题尤为严重。研究团队特别设计了一个"瓶颈导航任务"来测试他们的方法:两个机器人分别位于由狭窄走廊连接的两个房间中,它们的目标都在对面的房间里。这意味着两个机器人必须通过同一条只有一个方格宽度的走廊,就像两个人要通过一扇很窄的门。

传统的解决方案通常依赖于手工设计的奖励机制和外部指导。比如,程序员会告诉机器人"如果你朝目标方向移动就给你奖励,如果你偏离方向就扣分"。但这种方法有个致命缺陷:它无法处理需要短期"牺牲"来获得长期利益的情况。在瓶颈场景中,有时一个机器人需要先后退几步,让另一个机器人先通过,这样整体效率才能最大化。但传统的奖励机制会惩罚这种"后退"行为,导致机器人陷入死锁。

二、大脑启发的解决方案:共享记忆的魔力

人类大脑的工作方式给了研究团队巨大启发。根据"全局工作空间理论",人类大脑中有许多独立的功能模块,这些模块通过一个共享的"全局工作空间"来协调工作。比如,当你看到一个红色的苹果时,视觉模块识别出形状和颜色,记忆模块提供关于苹果的知识,情绪模块可能会产生"想吃"的感觉。所有这些信息都会汇集到全局工作空间中,形成统一的意识体验。

研究团队把这个概念应用到机器人协作中:将每个机器人视为一个独立的"功能模块",通过共享记忆空间来实现协调。这就像给每个机器人都连上了一个"云端大脑",它们可以将自己的经验和想法上传到这个共享空间,同时也能下载其他机器人的信息。

具体来说,共享记忆变换器(SRMT)的工作原理可以用一个图书馆的比喻来理解。每个机器人都有自己的"个人笔记本",记录着自己的观察、经验和决策过程。在做决策时,机器人不仅会翻阅自己的笔记本,还会查阅"公共图书馆"中其他机器人留下的笔记。通过这种方式,即使机器人们无法直接交流,它们也能了解彼此的意图和计划。

这个系统的技术核心是变换器(Transformer)架构——这是目前人工智能领域最先进的神经网络结构之一,也是支撑ChatGPT等大语言模型的基础技术。研究团队对传统的记忆变换器进行了创新性扩展,添加了"记忆池化"和"全局广播"功能。

记忆池化就像是把所有机器人的个人经验汇集成一个巨大的经验库。每个机器人在每个时间步骤都会将自己的记忆向量(可以理解为经验的数字化表示)放入这个共享池中。全局广播则确保每个机器人都能访问这个完整的经验库,而不仅仅是自己的个人经验。

最巧妙的是,这个系统通过"交叉注意力机制"实现了智能的信息筛选。就像一个经验丰富的图书管理员,机器人能够识别哪些共享记忆对当前情况最有用,并重点关注那些信息。比如,当机器人面临选择通路的决策时,它会特别关注其他机器人在类似情况下的选择和结果。

三、瓶颈测试:让机器人学会"礼让"

为了验证共享记忆技术的效果,研究团队设计了一系列测试场景。最基础也最能说明问题的是"瓶颈导航任务"。这个任务的设置看似简单:两个房间通过一条狭窄的走廊连接,每个房间里有一个机器人,它们的目标都在对面的房间。走廊的宽度只有一个方格,这意味着两个机器人无法同时通过。

这个看似简单的场景实际上包含了多智能体协作中的所有核心挑战。首先是感知限制:每个机器人只能看到周围5x5范围内的环境,无法提前知道对方的存在和意图。其次是协调难题:两个机器人都想尽快到达目标,但如果它们同时冲向走廊,就会在入口处发生堵塞,谁都过不去。最后是学习挑战:机器人需要通过试错来学习最优策略,但传统的奖励机制很难指导它们找到需要短期牺牲的长期最优解。

研究团队用不同长度的走廊来测试系统的适应性。训练时使用的走廊长度在3到30个方格之间随机变化,但测试时走廊长度可以达到1000个方格。这就像先让学生练习走过不同长度的独木桥,然后考试时给他们一座超级长的桥。

测试结果令人印象深刻。在最具挑战性的"稀疏奖励"设置下(机器人只有到达目标时才能获得奖励,中间过程没有任何指导),SRMT展现出了显著优势。传统方法在这种设置下基本无法学到有效策略,因为缺乏中间步骤的奖励指导,机器人很难发现需要"礼让"才能双赢的策略。但SRMT通过共享记忆,让机器人能够学习到复杂的协调行为。

更有趣的是,SRMT学到的策略展现出了类似人类的"社交智慧"。通过分析机器人的记忆表示,研究团队发现,当两个机器人在环境中相互接近时,它们的记忆向量之间的相似度也会增加。这就像两个陌生人在狭窄空间中相遇时会产生的默契。当一个机器人到达目标后,另一个机器人的记忆表示会立即发生变化,反映出"搭档已经完成任务,现在我可以安全前进了"的理解。

四、复杂环境中的表现:从实验室到真实世界

瓶颈测试只是开始。研究团队还在更复杂的环境中测试了SRMT的性能,使用了POGEMA基准测试平台中的各种场景。这个平台就像是多智能体系统的"奥运会",包含了各种不同类型的挑战环境。

在迷宫环境中,SRMT需要协调多达64个机器人同时寻找各自的目标。这些迷宫有着复杂的结构,充满了死胡同和狭窄通道。机器人不仅要找到通往目标的路径,还要避免在狭窄区域发生拥堵。SRMT在这种环境下的表现特别出色,因为共享记忆让机器人能够了解整体的"交通流量",自动分散到不同的路径上。

随机环境测试则模拟了不可预测的障碍物分布。就像在一个不断变化的建筑工地中导航,机器人需要适应各种意外情况。SRMT的适应能力在这种环境中得到了充分体现,它能够快速调整策略以应对新的障碍物配置。

最具挑战性的是MovingAI环境,这些是基于真实地图数据的大型场景,包括城市街道、建筑物内部等复杂结构。在这些环境中,SRMT需要处理更大规模的协调问题,有时涉及数百个机器人的同时导航。

仓库环境测试则直接针对实际应用场景。现代物流仓库中,数十台机器人同时工作,搬运货物、拣选订单。这种环境的特点是通道狭窄、任务密集,需要精确的协调以避免拥堵。SRMT在这种高度拥挤的环境中表现优异,特别是当它与启发式路径规划算法结合时,能够达到接近专门设计的仓库管理系统的性能水平。

研究团队还测试了SRMT的"终身学习"能力。与传统的单次任务不同,终身多智能体寻路要求机器人在完成一个目标后立即接收新的目标,持续工作。这就像快递员一天内要送多个包裹,每送完一个就要马上去下一个地址。在这种设置下,系统的性能指标是"平均吞吐量"——每个时间步骤平均有多少个机器人成功到达目标。

在40个不同的迷宫环境中训练后,SRMT展现出了令人印象深刻的泛化能力。当把它部署到训练时从未见过的环境类型中时,它仍能保持良好的性能。这种泛化能力对于实际应用至关重要,因为现实世界的环境总是在变化,不可能为每种可能的情况都专门训练系统。

五、与传统方法的较量:共享记忆的优势

为了真正证明SRMT的价值,研究团队将它与多种现有的先进方法进行了详细比较。这场比较就像是一场技术擂台赛,各种不同的解决方案都展示了自己的招牌技能。

传统的通信型方法,如MAMBA和DCC,就像给每个机器人都装上了对讲机,让它们能够直接交流信息。MAMBA使用了复杂的基于变换器的通信协议,每个机器人都能向其他机器人发送结构化的消息。但这种方法有个根本问题:在真实环境中,通信可能会中断或延迟,而且随着机器人数量增加,通信负担会急剧增长。

另一类方法是基于价值分解的协作学习,如QMIX和QPLEX。这些方法试图学习一个"联合价值函数",能够评估所有机器人联合行动的价值。就像一个超级计算机同时计算所有棋子的最优走法。但这种方法的问题是,随着机器人数量增加,计算复杂度会呈指数级增长,很快就变得不可行。

还有一些方法采用了个体记忆机制,如ATM和RATE。这些方法给每个机器人配备了个人记忆系统,就像给每个人发一个笔记本。但个人记忆的问题是缺乏协调——每个机器人只能从自己的经验中学习,无法了解其他机器人的策略和意图。

在瓶颈导航任务中,SRMT在所有三种奖励设置下都显著优于这些基准方法。在"方向性奖励"设置下(机器人朝目标方向移动就获得小额奖励),大多数方法都能学到基本策略,但SRMT的成功率仍然最高。在"稀疏奖励"设置下(只有到达目标才有奖励),传统方法的性能急剧下降,而SRMT仍能保持近乎完美的表现。

更令人印象深刻的是SRMT的泛化能力测试。当研究团队将走廊长度扩展到训练时使用长度的数十倍时,大多数基准方法都失效了,但SRMT仍能保持良好性能。这说明共享记忆机制学到的不只是特定情况下的策略,而是更通用的协调原则。

在大规模POGEMA基准测试中,SRMT在六个关键性能指标上都表现出色。在"性能"指标上,它在随机和迷宫环境中都达到了接近最优的吞吐量。在"寻路"指标上,它能在大型地图上找到接近最短的路径。在"拥堵管理"指标上,特别是当与启发式规划结合时,它在高密度环境中的表现甚至超过了一些专门设计的仓库管理算法。

六、技术细节:共享记忆如何工作

理解SRMT的工作原理,最好的方法是将其比作一个高效的"集体决策系统"。每个机器人都像是这个系统中的一个"专家顾问",它们不仅基于自己的专业知识做决策,还会参考其他专家的意见。

整个系统的核心是一个三层的信息处理架构。第一层是"空间编码器",负责理解机器人当前观察到的环境信息。这个编码器使用了深度卷积神经网络(基于ResNet架构),能够识别周围的障碍物、其他机器人的位置以及目标的方向。就像人类的视觉皮层,它将原始的视觉输入转换成有意义的空间表示。

第二层是SRMT核心,这是整个系统最创新的部分。每个机器人在这一层维护着三种不同类型的信息:个人记忆向量、历史观察序列和当前观察。个人记忆向量就像是机器人的"经验档案",记录着它过去的决策经验和学到的策略模式。历史观察序列包含了过去8个时间步骤的观察,为机器人提供了动态变化的环境信息。

这三类信息首先通过"自注意力机制"进行整合。自注意力就像是机器人在做决策前的"内心对话"——它会回顾自己的经验,分析当前情况,预测可能的后果。但SRMT的独特之处在于增加了"交叉注意力层",这让机器人能够访问其他所有机器人的记忆向量。

交叉注意力的工作过程可以用一个"智囊团会议"来类比。当机器人需要做决策时,它会召开一个虚拟会议,所有其他机器人的记忆都会作为"顾问"参与讨论。机器人会根据当前情况的相似性给不同顾问的意见分配权重——如果另一个机器人曾经处理过类似的情况,它的意见就会得到更多关注。

第三层是"动作解码器",负责将整合后的信息转换为具体的行动决策。这个解码器不仅输出机器人下一步应该采取的行动,还会更新机器人的个人记忆向量,为未来的决策积累经验。

整个系统的训练过程使用了先进的强化学习算法。机器人通过与环境的互动来学习,每当它们成功协调避免冲突或高效到达目标时,就会获得正面反馈,相应的决策模式会被强化。关键是,由于共享记忆的存在,一个机器人的成功经验能够迅速传播给其他所有机器人,大大加速了整个系统的学习过程。

研究团队还发现了一个有趣的现象:SRMT会自动发展出"记忆层级"。一些记忆向量会专门编码环境的静态特征(如障碍物分布),另一些则专注于动态协调信息(如其他机器人的移动模式),还有一些会记录成功协调的具体策略。这种自发的功能分化使得系统能够更高效地处理不同类型的信息。

七、实际应用前景:从实验室到现实世界

SRMT技术的成功不仅在学术界引起关注,更重要的是它为解决现实世界中的复杂协调问题开辟了新的可能性。当前,多智能体系统的应用正在快速扩展,从工业自动化到城市管理,都能看到它们的身影。

在现代物流仓库中,SRMT技术可能带来革命性的改变。目前的仓库机器人系统通常依赖复杂的中央调度系统,这些系统需要持续跟踪每个机器人的位置、任务状态和路径规划。但这种中央化方法在规模扩大时面临瓶颈,而且一旦中央系统出现故障,整个仓库的运营就会停摆。SRMT提供了一种更加鲁棒的替代方案:每个机器人都能独立做出智能决策,同时通过共享记忆保持整体协调。

城市交通管理是另一个极具潜力的应用领域。虽然当前的研究主要关注机器人导航,但其核心思想完全可以扩展到自动驾驶汽车的协调中。传统的车联网技术依赖车辆间的直接通信,但这种方法在信号拥挤或通信中断的情况下会失效。基于共享记忆的方法可能让自动驾驶汽车即使在通信受限的环境中也能保持良好的协调性。

在搜救行动中,SRMT技术也显示出巨大价值。搜救机器人经常需要在通信条件恶劣的环境中协同工作,如地震废墟或地下空间。传统的通信型协调方法在这种环境中往往失效,但基于共享记忆的方法可能让机器人在信息传输受限的情况下仍能维持有效协作。

智能制造领域同样能从这项技术中受益。现代工厂中,多个机器人臂需要协调完成复杂的装配任务。当前的解决方案通常需要精确的预编程和严格的时序控制,难以适应产品变化或设备故障。SRMT技术可能让制造机器人具备更强的适应性,能够自主调整协作策略以应对各种意外情况。

当然,将实验室技术转化为实际应用还面临许多挑战。首先是计算资源的要求:SRMT系统需要大量的计算能力来处理共享记忆和注意力机制。虽然在实验环境中这不成问题,但在资源受限的实际设备上可能需要进行优化。

其次是安全性考虑。在实际应用中,机器人的决策失误可能导致严重后果,因此需要建立更完善的安全保障机制。研究团队提到,当前的系统像其他学习型方法一样,不能提供理论上的完成保证,这在某些关键应用中可能是个限制因素。

还有扩展性的挑战。虽然SRMT在实验中能够处理数十到上百个机器人的协调,但在某些实际应用中可能需要协调成千上万个智能体。如何在保持效果的同时将系统扩展到更大规模,仍然是一个开放的研究问题。

八、未来发展方向:技术演进与创新空间

SRMT技术的成功只是多智能体协作研究的一个新起点。研究团队在论文中提到了几个重要的未来发展方向,这些方向不仅具有学术价值,更可能带来实际应用的突破。

首先是记忆机制的进一步优化。当前的SRMT使用固定大小的记忆向量,但在复杂环境中,不同类型的信息可能需要不同容量的存储空间。未来的研究可能会开发自适应记忆分配机制,让系统能够根据任务需求动态调整记忆资源的分配。

另一个有前景的方向是层次化协调。目前的SRMT主要处理同级机器人之间的协调,但在实际应用中经常需要处理不同层级的协调问题。比如,在大型仓库中可能有负责整体规划的"管理机器人"和执行具体任务的"工作机器人"。如何将共享记忆机制扩展到支持这种层次化结构,是一个重要的研究课题。

个性化协调也是一个值得探索的方向。当前的SRMT假设所有机器人都是同质的,使用相同的策略网络。但在实际应用中,不同机器人可能有不同的能力和特长。比如,一些机器人可能更擅长在狭窄空间中导航,另一些可能在负重运输方面更有优势。如何让共享记忆系统支持这种异构协调,可能会带来性能的显著提升。

与人类的协作是另一个重要的研究方向。在许多实际场景中,机器人需要与人类工作者协同作业。人类的行为模式与机器人有很大差异,具有更强的随机性和创造性。如何让基于共享记忆的机器人系统理解和适应人类行为,是一个既有挑战性又有实际意义的问题。

技术融合也提供了广阔的创新空间。SRMT可以与其他先进技术结合,产生更强大的系统。比如,将其与大语言模型结合,可能让机器人系统具备更强的推理和解释能力。与计算机视觉技术的结合,可能让系统在更复杂的视觉环境中工作。与边缘计算技术的结合,可能解决计算资源的限制问题。

长期来看,共享记忆的概念可能会影响整个人工智能领域的发展。它提供了一种新的思路来处理多智能体之间的信息共享和协调问题,这种思路不仅适用于机器人导航,也可能应用到其他需要多个智能体协作的场景中,如分布式计算、游戏人工智能、金融交易等。

说到底,SRMT技术代表了人工智能发展的一个重要趋势:从单个智能体的智能化,向多智能体系统的集体智能化转变。就像人类社会从个体生存演进到复杂的社会协作一样,人工智能系统也正在学习如何进行更高效、更智能的集体决策。这项来自莫斯科科学家的研究,为这个演进过程贡献了一个重要的技术基石。

虽然当前的SRMT还主要局限于实验环境,但它展示的潜力已经足够令人兴奋。随着技术的进一步成熟和优化,我们有理由相信,基于共享记忆的多智能体系统将在不久的将来成为智能机器人协作的主流方案,从根本上改变机器人在各个领域的应用方式。对于那些想要深入了解这项技术细节的读者,完整的研究论文已经在arXiv平台公开发布,编号为2501.13200v1,提供了更详细的技术实现和实验结果分析。

Q&A

Q1:共享记忆变换器SRMT是什么技术?它如何让机器人学会协作?

A:SRMT是一种让多个机器人通过共享记忆来协调行动的人工智能技术。就像给每个机器人连上了"集体大脑",它们可以将自己的经验上传到共享记忆池中,同时也能访问其他机器人的经验。这样,即使机器人无法直接交流,也能通过共享记忆了解彼此的意图和策略,从而实现默契配合。

Q2:SRMT技术比传统的机器人协作方法有什么优势?

A:传统方法要么需要中央控制系统统一指挥,要么需要复杂的通信协议让机器人互相交流,但这些方法在实际环境中容易出现故障或瓶颈。SRMT的优势是每个机器人都能独立决策,不依赖中央控制,同时通过共享记忆保持协调。在测试中,特别是在"稀疏奖励"这种困难环境下,SRMT的成功率远超传统方法。

Q3:SRMT技术现在可以应用到哪些实际场景中?

A:目前SRMT主要在实验环境中验证,但已经显示出在多个领域的应用潜力。最直接的应用是现代物流仓库中的机器人协调,可以让仓库机器人更高效地避免拥堵。此外,还可能应用于自动驾驶汽车的协调、搜救机器人的协同作业、智能制造中的机器人臂协调等场景。不过要真正投入实用还需要解决计算资源需求和安全保障等工程化问题。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。