![]()
新智元报道
编辑:LRST
公元前47年,凯撒在泽拉战役速胜后给罗马元老院写了三个词的战报:「Veni, Vidi, Vici」——我来了,我看见了,我征服了。 两千多年后,北京大学杨仝教授团队也用三步定义了一种全新的AI范式:降临论坛、接管指令、统治物理世界。
「Veni, Vidi, Vici.」 ——凯撒大帝
「We Land, We Rob, We Rule.」 ——AgentRob
当前AI领域有一个尴尬的错位:AutoGPT、metaGPT等LLM智能体能力惊人,却全部活在数字世界里;SayCan、RT-2等机器人控制方案能操作物理世界,却需要专用接口和实时连接,使用门槛困在实验室。两边之间缺一个可扩展的交互信道。
论坛,那个诞生于互联网早期、几乎和网页本身一样古老的交流形式,天然异步(不需要对方在线,机器人可以自己安排执行时间)、多智能体(一个论坛可以容纳无数个 Agent,各自监听各自的任务)、持久化(每一条指令、每一次执行结果都永久保存,形成可搜索的交互知识库)。
比起微信群和Slack,论坛的线程结构更适合复杂任务的分发和追踪;比起直接REST API,论坛把机器人交互嵌入了人类可读的社会语境中;比起语音控制,论坛不受距离和噪声限制,支持任意复杂的指令;比起专用的机器人控制GUI,论坛是通用基础设施,不需要为每个机器人单独开发界面。帖子就是指令,回帖就是执行报告。
视频1 论坛指令驱动机器人靠近屏幕并拍取试卷上传
北京大学杨仝教授团队发布的AgentRob框架,首次通过Model Context Protocol(MCP)将在线论坛、LLM智能体与物理机器人三方贯通——用户只需在论坛@一下机器人,现实世界中的机器狗或人形机器人就会立刻响应。
![]()
论文链接:https://arxiv.org/abs/2602.13591
开源代码:https://github.com/PKULab1806/AgentRob
AgentRob采用三层架构。
![]()
AgentRob三层架构:论坛 → 智能体 → 机器人
最底层是论坛层,采用开源论坛平台提供持久化线程结构。
中间是智能体层——整个系统的大脑,基于MCP(Anthropic 推出的AI工具标准协议,被称为「AI界的USB-C」)设计了8种标准化工具接口,涵盖元操作、读操作、写操作和身份管理,任何 MCP 兼容的 Agent 框架都可以直接接入。
最上层是机器人层,通过视觉语言模型(VLM)控制器将自然语言指令分解为物理动作原语。
核心Agent像一个永不下线的版主,持续轮询论坛。
一旦发现有人@自己,LLM就理解帖子内容、提取可执行指令,然后调度对应的机器人去执行。执行完成后,Agent让LLM把原始返回数据生成一段人类可读的摘要回帖到论坛。
整个过程完全自动化,用户看到的就像是和一个可操作机器人的论坛用户对话。
系统支持轮询模式(默认每 30 秒扫描)、HTTP服务模式(外部按需触发)和单次运行模式(调试测试)。
当LLM不可用时,Agent自动切换到基于规则的指令提取作为降级方案。
更有意思的是多智能体共存——同一论坛里可以同时存在多个不同形态的Agent。
四足机器狗监听@quadruped,人形机器人监听@humanoid,同一帖子@两个机器人时它们各自独立提取和执行指令。
为防止回复死循环,所有Agent帖子都携带元数据标签,其他Agent自动跳过。就像论坛里潜伏着一支纪律严明的机器人军团。
视频2 论坛发布复杂指令驱动机器人获取保险箱密码
We Rule
从帖子到物理动作
Agent拿到指令后,真正的魔法发生在机器人层。VLM控制器通过迭代的工具调用循环将自然语言分解为动作原语。以四足机器狗为例,控制器暴露了四个动作原语(移动、招手、比心、后空翻)和两个感知原语(前置摄像头拍照、云端图片上传),人形机器人则支持移动和招手等动作。
举个具体的例子:用户在论坛发帖「@quadruped 去门口看看有没有人」,Agent轮询检测到帖子,LLM提取出指令,VLM将其分解为「移动到门口 → 拍照 → 分析图像」的动作序列,机器狗执行完毕,Agent回帖:「已到达门口,拍摄到走廊照片,未发现有人。」
从虚拟到物理,一帖之间。
整个交互过程所有参与者都可见,形成一个透明的、可搜索的执行日志——不只是一次性的远程控制,而是在构建一个社区级的人-机-智能体协作知识库。
安全方面团队也做了充分考虑。
在权限层面,论坛角色系统被映射为机器人操作权限——只有「机器人操作员」角色才能发指令。
在指令层面,LLM安全过滤器拦截可能造成物理伤害的指令(「撞墙」、「从桌子上跳下去」)。在透明度层面,所有Agent帖子强制标注身份标签。
在物理层面,机器人在定义好的边界内操作,配备硬件级紧急停止按钮。凯撒的权力最终没有得到约束,但AgentRob的设计者显然吸取了教训。
视频3 论坛指令驱动机器人获取屏幕二维码与驱动机器狗提醒人类阻止
从征服到生态
该研究的四项核心贡献包括:首次提出论坛中介的智能体-机器人交互范式、基于MCP的8种标准化工具框架、机器人和机器狗上的端到端执行闭环、以及多形态Agent共存机制。
未来团队计划拓展更多机械体(如无人车/机械臂等)、多模态交互(机器人在论坛分享图像视频)、机器人间协作(通过论坛线程联合完成复杂任务)、社区驱动的机器人学习,最终目标是构建基于论坛的去中心化机器人网络——社区自治的机器人团队。
「Veni, Vidi, Vici」 之后,凯撒改变了罗马的格局。
「We Land, We Rob, We Rule」 之后,AgentRob想改变人与机器人交互的格局。
不过这一次,征服者不是一个人,而是一整个社区。
![]()
团队成员:刘文睿,王雅萱,张迅,王砚舒,卫家燊,向一帆,王宇行,叶明燊,戴思颖,刘智琦,徐英杰,陈昕阳,孙恒喆,沈吉滪,贺晶晶,杨仝
参考资料:
https://arxiv.org/abs/2602.13591
![]()





京公网安备 11011402013531号