当前位置：首页 » 资讯 » 新科技 » 正文

北大团队让AI智能体「入侵」论坛，指挥真实机器人执行任务

IP属地中国·北京 新智元 时间：2026-02-21 12:18:30

新智元报道
编辑：LRST
公元前47年，凯撒在泽拉战役速胜后给罗马元老院写了三个词的战报：「Veni, Vidi, Vici」——我来了，我看见了，我征服了。两千多年后，北京大学杨仝教授团队也用三步定义了一种全新的AI范式：降临论坛、接管指令、统治物理世界。
「Veni, Vidi, Vici.」 ——凯撒大帝
「We Land, We Rob, We Rule.」 ——AgentRob
当前AI领域有一个尴尬的错位：AutoGPT、metaGPT等LLM智能体能力惊人，却全部活在数字世界里；SayCan、RT-2等机器人控制方案能操作物理世界，却需要专用接口和实时连接，使用门槛困在实验室。两边之间缺一个可扩展的交互信道。
论坛，那个诞生于互联网早期、几乎和网页本身一样古老的交流形式，天然异步（不需要对方在线，机器人可以自己安排执行时间）、多智能体（一个论坛可以容纳无数个 Agent，各自监听各自的任务）、持久化（每一条指令、每一次执行结果都永久保存，形成可搜索的交互知识库）。
比起微信群和Slack，论坛的线程结构更适合复杂任务的分发和追踪；比起直接REST API，论坛把机器人交互嵌入了人类可读的社会语境中；比起语音控制，论坛不受距离和噪声限制，支持任意复杂的指令；比起专用的机器人控制GUI，论坛是通用基础设施，不需要为每个机器人单独开发界面。帖子就是指令，回帖就是执行报告。
视频1 论坛指令驱动机器人靠近屏幕并拍取试卷上传
北京大学杨仝教授团队发布的AgentRob框架，首次通过Model Context Protocol（MCP）将在线论坛、LLM智能体与物理机器人三方贯通——用户只需在论坛@一下机器人，现实世界中的机器狗或人形机器人就会立刻响应。

论文链接：https://arxiv.org/abs/2602.13591
开源代码：https://github.com/PKULab1806/AgentRob
AgentRob采用三层架构。

AgentRob三层架构：论坛 → 智能体 → 机器人
最底层是论坛层，采用开源论坛平台提供持久化线程结构。
中间是智能体层——整个系统的大脑，基于MCP（Anthropic 推出的AI工具标准协议，被称为「AI界的USB-C」）设计了8种标准化工具接口，涵盖元操作、读操作、写操作和身份管理，任何 MCP 兼容的 Agent 框架都可以直接接入。
最上层是机器人层，通过视觉语言模型（VLM）控制器将自然语言指令分解为物理动作原语。
核心Agent像一个永不下线的版主，持续轮询论坛。
一旦发现有人@自己，LLM就理解帖子内容、提取可执行指令，然后调度对应的机器人去执行。执行完成后，Agent让LLM把原始返回数据生成一段人类可读的摘要回帖到论坛。
整个过程完全自动化，用户看到的就像是和一个可操作机器人的论坛用户对话。
系统支持轮询模式（默认每 30 秒扫描）、HTTP服务模式（外部按需触发）和单次运行模式（调试测试）。
当LLM不可用时，Agent自动切换到基于规则的指令提取作为降级方案。
更有意思的是多智能体共存——同一论坛里可以同时存在多个不同形态的Agent。
四足机器狗监听@quadruped，人形机器人监听@humanoid，同一帖子@两个机器人时它们各自独立提取和执行指令。
为防止回复死循环，所有Agent帖子都携带元数据标签，其他Agent自动跳过。就像论坛里潜伏着一支纪律严明的机器人军团。
视频2 论坛发布复杂指令驱动机器人获取保险箱密码
We Rule
从帖子到物理动作
Agent拿到指令后，真正的魔法发生在机器人层。VLM控制器通过迭代的工具调用循环将自然语言分解为动作原语。以四足机器狗为例，控制器暴露了四个动作原语（移动、招手、比心、后空翻）和两个感知原语（前置摄像头拍照、云端图片上传），人形机器人则支持移动和招手等动作。
举个具体的例子：用户在论坛发帖「@quadruped 去门口看看有没有人」，Agent轮询检测到帖子，LLM提取出指令，VLM将其分解为「移动到门口 → 拍照 → 分析图像」的动作序列，机器狗执行完毕，Agent回帖：「已到达门口，拍摄到走廊照片，未发现有人。」
从虚拟到物理，一帖之间。
整个交互过程所有参与者都可见，形成一个透明的、可搜索的执行日志——不只是一次性的远程控制，而是在构建一个社区级的人-机-智能体协作知识库。
安全方面团队也做了充分考虑。
在权限层面，论坛角色系统被映射为机器人操作权限——只有「机器人操作员」角色才能发指令。
在指令层面，LLM安全过滤器拦截可能造成物理伤害的指令（「撞墙」、「从桌子上跳下去」）。在透明度层面，所有Agent帖子强制标注身份标签。
在物理层面，机器人在定义好的边界内操作，配备硬件级紧急停止按钮。凯撒的权力最终没有得到约束，但AgentRob的设计者显然吸取了教训。
视频3 论坛指令驱动机器人获取屏幕二维码与驱动机器狗提醒人类阻止
从征服到生态
该研究的四项核心贡献包括：首次提出论坛中介的智能体-机器人交互范式、基于MCP的8种标准化工具框架、机器人和机器狗上的端到端执行闭环、以及多形态Agent共存机制。
未来团队计划拓展更多机械体（如无人车/机械臂等）、多模态交互（机器人在论坛分享图像视频）、机器人间协作（通过论坛线程联合完成复杂任务）、社区驱动的机器人学习，最终目标是构建基于论坛的去中心化机器人网络——社区自治的机器人团队。
「Veni, Vidi, Vici」之后，凯撒改变了罗马的格局。
「We Land, We Rob, We Rule」之后，AgentRob想改变人与机器人交互的格局。
不过这一次，征服者不是一个人，而是一整个社区。

团队成员：刘文睿，王雅萱，张迅，王砚舒，卫家燊，向一帆，王宇行，叶明燊，戴思颖，刘智琦，徐英杰，陈昕阳，孙恒喆，沈吉滪，贺晶晶，杨仝
参考资料：
https://arxiv.org/abs/2602.13591

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

OpenAI推进新一轮巨额融资，或超1000亿美元

AppLovin撕开巨头裂缝的1000天：AI审判、被做空与Underdog的“弱者之心”

腾讯初五发红包！元宝派聊天就能得：无需复杂操作

新春走基层|跨越半球的坚守，他们奔赴一场“宇宙之约”

史无前例：韦布望远镜首绘天王星最清晰“大气肖像”

谷歌发布「AlphaFold 4」，不再开源！性能碾压上一代

全站最新

OpenAI推进新一轮巨额融资，或超1000亿美元

AppLovin撕开巨头裂缝的1000天：AI审判、被做空与Underdog的“弱者之心”

腾讯初五发红包！元宝派聊天就能得：无需复杂操作

新春走基层|跨越半球的坚守，他们奔赴一场“宇宙之约”

热门推荐

OpenAI推进新一轮巨额融资，或超1000亿美元

Meta连续两年削减员工股权激励

直接说需求：三星One UI 8.5让Bixby AI听懂“人话”

LibreOffice抨击OnlyOffice是“伪开源”，联手微软裹挟用户

美载人绕月飞行任务完成综合演练　拟3月发射

特斯拉自动驾驶事故被判赔2.43亿美元

AppLovin撕开巨头裂缝的1000天：AI审判、被做空与Underdog的“弱者之心”

中国春晚机器人“火出圈”

腾讯初五发红包！元宝派聊天就能得：无需复杂操作

新春走基层|跨越半球的坚守，他们奔赴一场“宇宙之约”

OpenAI下调2030年算力支出目标至6000亿美元，正推进超1000亿美元融资

史无前例：韦布望远镜首绘天王星最清晰“大气肖像”

谷歌发布「AlphaFold 4」，不再开源！性能碾压上一代

智慧海关赋能上海南港码头新能源汽车出口迎来开门红

都想学英伟达“芯片换融资”，谷歌和AMD都要扶持“AI云”