当前位置: 首页 » 资讯 » 新科技 » 正文

从仿真数据到物理世界,这位博士生想为机器人构建感知-行动范式

IP属地 中国·北京 编辑:赵云飞 DeepTech深科技 时间:2025-07-21 20:18:46

Next Gen

欢迎来到“Next Gen”。人工智能的边界每日都在被拓展,一群富有远见卓识的青年学者正站在浪潮之巅。我们追踪并报道这些 AI 领域最具潜力的明日之星,展现他们在科研前沿的突破性工作,以及对未来智能时代的独到见解。他们是谁?他们如何思考?他们又将把 AI 带向何方?与我们一同发现那些正在定义未来的 AI 新生代。

“我从小就对机器人痴迷,《钢铁侠》里的智能管家至今让我热血沸腾。”陈天行的科研初心,藏着一份未改的少年热忱。作为刚刚本科毕业于深圳大学计算机科学与技术卓越班,即将在今年 9 月开启香港大学读博生涯的 00 后学者,他正以多重身份活跃在科研与科普领域——既是 Lumina Embodied AI 社区联合创始人,是拥有超一万粉丝的小红书科普博主,也是超过 6.4k Github Stars 项目 Embodied-AI-Guide 的发起人。


图丨陈天行(tianxingchen.github.io)

在具身智能研究领域,陈天行正用一系列硬核成果让曾经对于科幻的憧憬,转化为对技术的工程实现:从 RoboTwin 系列研究通过生成式技术解决了双臂机器人高质量训练数据短缺的核心难题,到 G3Flow 则攻克了 3D 操作语义表征的一致性问题,再到 Text2World 创新性地提供自然语言到可规范化世界描述的转化评测。这三项入选 CVPR 和 ACL 的研究工作,共同构建了机器人理解世界并实现精准操作的新范式。

在当下大模型与机器人融合的浪潮中,陈天行始终保持着“问题导向”的研究风格。他专注解决“数据高效生成”和“物理世界理解”这两个制约具身智能发展的核心瓶颈。陈天行认为,让机器人具备通用智能,既需要强大的基础模型,更离不开精准的操作落地与海量、高质量的数据方案。

他在仿真数据生成、跨场景和实例泛化等领域的突破,为实现“让机器人走进千家万户”的愿景提供了切实可行的技术路径。



RoboTwin:为机器人双臂操作策略提供大规模多样化合成数据与评测基准集

在机器人研究领域,双臂协同操作的数据长期以来处于匮乏的状态。与单臂系统相比,双臂系统的状态空间维度更高,即便单臂强化学习尚能勉强推进,双臂系统的复杂度却让这一路径变得举步维艰。

更严峻的是,该领域长期缺乏统一的基准测试平台(Benchmark),导致不同研究团队开发的双臂控制策略难以进行公平的横向比较。从数据合成的技术层面来看,领域内既缺乏成熟的双臂数据合成管线,在真实到仿真(Real-to-Sim)的数据迁移方面仍处于空白阶段,同时也没有高可扩展性的开源解决方案可供参考。


图丨 RoboTwin 1.0(CVPR 2025)

面对这一系列挑战,陈天行与上交 ScaleLab、港大 MMLab 等团队开启了 RoboTwin 系列工作的研究。其核心思想是:通过预定义物体的交互逻辑,使机器人无需经过传统训练流程,仅依靠预设代码即可执行操作任务。

具体而言,首先为每个目标物体编写完备的交互逻辑,再通过大模型自动生成代码以编排机器人动作序列,从而实现了“零训练”的任务执行范式,并在实验阶段系统性地验证了该数据生成方法对真实操作性能的提升效果。

近期,陈天行与团队共同推出了 RoboTwin 2.0 版本,通过引入多模态观测以及仿真在环的迭代优化进一步增强了自动化专家代码生成能力,同时提出了一套强鲁棒的“大规模随机化数据生成”方案:实验证明该方案不仅能显著提升策略操作性能,还具有更强大的跨本体数据生成通用性——任何实验室只需接入标准接口,即可基于自有机器人平台生成高质量训练数据。

陈天行对 DeepTech 解释道:“现实场景中采集的桌面数据往往过于干净单一。若要人工布置具有多样性的杂乱场景,即便只是简单的餐具摆放任务,若要求每条轨迹中的物体位置、遮挡关系、光照条件和表面纹理都各不相同,其工作量将呈指数级增长——每次采集后都需要彻底打乱场景重新布置,既耗时又难以保证可重复性。”


图丨 RoboTwin-OD 物体数据集(arXiv)

团队通过实验验证了一个关键发现:仅使用 RoboTwin 2.0 生成的“杂乱桌面”仿真数据进行预训练,再辅以少量真实场景的微调数据,所得模型就能泛化到完全未见的杂乱场景。这意味着未来可能只需采集少量干净桌面的真实轨迹,其余训练数据可均由仿真系统生成,这将大幅降低真实数据采集成本。

RoboTwin 2.0 的另一重要突破是其构建的大规模基准测试体系。研究团队创建了 RoboTwin-OD 物体数据集,涵盖从厨具到工业零件的各类对象,包含 147 个类别、731 个实例,每个实例均标注了语义信息和操作相关特征。基于此数据集,研究团队开发了专业的数据合成流程,生成了超过 10 万条经过领域随机化增强的专家轨迹,覆盖 50 种双臂任务和 5 种机器人本体。

实验数据显示,经过领域随机化训练的视觉-语言-动作(VLA,vision-language-action)模型在未知真实场景中的任务成功率提升了 367%(42.0% 对比 9.0%),而仅使用合成数据训练的零样本模型也实现了 228% 的相对性能提升,充分证明了“域随机化仿真预训练+少量真机微调”这一技术路线的有效性。


图丨 RoboTwin 2.0 流程框架(arXiv)

RoboTwin 1.0 的相关论文以《RoboTwin:基于生成式数字孪生的双臂机器人基准测试》(RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins)为题发表在国际计算机视觉与模式识别会议(CVPR 2025,Conference on Computer Vision and Pattern Recognition)[1],并获得欧洲计算机视觉会议(ECCV 2024,European Conferenceon Computer Vision) MAAS Workshop 最佳论文奖。


(RoboTwin 官网)

RoboTwin 2.0 的相关论文以《RoboTwin 2.0:用于鲁棒双臂机器人操作的可扩展数据生成器和具有强领域随机化的基准测试》(RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation)为题发表在arXiv[2]。


图丨相关论文(RoboTwin 官网)

RoboTwin 系列研究通过仿真数据弥补现实世界的数据缺口,用程序化方法替代人工劳动,最终为双臂机器人训练构建了一条具备可重复性、可扩展性和可评估性的完整技术链路。

据悉,RoboTwin 已被地瓜机器人、松灵机器人等企业用于测试操作策略,同时作为第十九节挑战杯“人工智能+”专项挑战赛、CVPR RoboTwin 双臂协作挑战赛、张江人形机器人创新创业大赛等竞赛的官方赛题,进一步推动该技术在领域的应用和发展。



G3Flow:从单视角观测到完整 3D 语义理解的技术突破

G3Flow 的核心目标是通过将物体级别不完整的单视角深度图转化为精确完整的 3D 语义流,使机器人获得强大的物体姿态感知能力和操作泛化能力。

这一技术突破的关键在于其创新的三步处理流程:首先利用 3D 生成模型来补全单视角观测中缺失几何信息,扩散式生成模型基于大量真实数据训练,能够仅凭部分 RGB 观测输入就能以重建完整物体几何,将部分图像观测转化为完整的数字资产。


图丨G3Flow 概述(CVPR 2025)

经过对齐处理的 3D 语义流随后被转换为 2D 特征图供下游任务使用,这些源自无噪声模板的特征使得抓取和插拔策略在新物体、新环境条件下仍能保持更高的成功率。

陈天行指出,整个系统的精妙之处在于生成模型和语义流技术的协同配合:前者负责补全视觉盲区,后者则确保补全结果与物理实际观测观测的精确匹配,共同解决了单视角感知的固有局限。

目前 G3Flow 已在国内知名企业的人形灵巧手项目中得到实际应用,其长远目标是构建类似 GPT 的通用机器人感知系统。通过大规模仿真预训练结合少量真实数据微调,系统正在向多任务操作规划方向发展。尽管现阶段对柔性物体和细小零件的处理能力仍有提升空间,但团队正在探索采用隐式表征技术来增强系统对复杂物体的适应性。

相关论文以《G3Flow:用于姿态感知和可泛化的物体操作的生成式三维语义流》(G3Flow:Generative 3D Semantic Flow for Pose-aware and Generalizable Object Manipulation)为题发表在 CVPR 2025 [3]。


图丨相关论文(CVPR 2025)



大模型真的能理解世界吗?Text2World 构建语言-世界建模评测基准集

如何让大模型不仅理解自然语言,还能将模糊的口语描述建模为精确、可执行的世界?陈天行与所在团队使用规划领域语言(PDDL,planning domain definition language)作为规范化的世界建模语言,构建了首个大规模、多领域的基准测试体系 Text2World,包含了数百个多样化的领域,涵盖了多种任务类型,如路径规划、任务分配等,为评估大模型的世界建模能力提供了全面的框架。

具体实现分为三个关键步骤:首先根据自然语言对场景的描述,建立场景的“规则”,包括固定不可移动的桌面坐标、可移动刚体属性以及物理约束等基础设定;然后将给定的自然语言动作(如“移动物体”),建模为严格的 PDDL 语言,要求模型必须精确建模动作的前提、影响等条件。“这种转换能力直接反映了模型对物理规则和逻辑关系的细粒度理解。”陈天行说。


图丨Text2World 概述(ACL 2025)

研究团队设计了双维度评测指标:在语法层面考察 PDDL 的正确性与模拟器验证成功率;在语义层面则通过动作前提、影响的完备性判断世界建模的效果。为全面评估模型性能,他们构建了包含 101 个任务的测试集,涵盖桌面操作、导航和流体交互等场景。

每个测试案例都提供抽象自然语言描述与标准 PDDL 语言,从而实现对模型”语言到世界”转换能力的精准量化评估。这一研究突破了大模型停留在文本理解的局限,为其在真实世界中的可靠应用奠定了基础。

相关论文以《Text2World:面向符号化世界模型生成的大语言模型基准测试》(Text2World: Benchmarking Large Language Models for Symbolic World Model Generation)为题发表在国际计算语言学年会(ACL 2025,Annual Meeting of the Association for Computational Linguistics)[4]。


图丨相关论文(ACL 2025)



创造连接:Lumina 具身智能社区与 Embodied-AI-Guide

陈天行说:“在我的具身智能研究起步时,也曾苦于没有开放的平台进行学术交流,因此我也想为大家创造连接。”他作为联合创始人,在今年 5 月创立了 Lumina 具身智能社区,目前参与人次已经突破了一万五千人次(社群、Github、自媒体平台)。


(https://github.com/tianxingchen)

为了帮助更多人走进具身智能领域,陈天行发起了 Embodied-AI-Guide 项目,带领超 40 名学者编写了超 3 万字的具身智能技术指南,目前项目获得了 6.4k Github Stars,成为了领域内最知名的技术指南之一。


图丨陈天行的小红书主页(小红书)

同时,陈天行还在小红书平台上拥有超过一万粉丝。他说:“我希望能够将自己的经验和想法,更多地分享出去。”



实验室就是他的“卧室”


图丨陈天行在上海交大 ScaleLab 做真机实验(陈天行)

陈天行的博士导师、香港大学罗平教授曾教导他要做有影响力的工作,不要太在乎一些表面的东西。这份教诲,让陈天行在科研道路上展现出超出常人的投入和毅力。“我基本上每天都睡在实验室,本科四年有三年是这样过来的。”陈天行说。从最初在宿舍打编程竞赛,到后来在本科实验室的床铺睡了 2 年,再到上海人工智能实验室通宵达旦地写代码、做实验,这种“硬核”的科研作风,是他取得一系列成果的基石。


图丨Lumina 社区 logo(https://lumina-embodied.ai/)

这种投入也带来了丰厚的回报:在 CVPR、ACL 等顶级学术会议上以一作或主要贡献者身份发表多篇论文、获得 ECCV 具身智能研讨会最佳论文奖、CCF 优秀大学生(全国 99 人)、荔园卓越之星(深圳大学本科生最高荣誉)、ACM-ICPC 区域赛银牌、睿抗机器人开发者大赛全国亚军……这些荣誉的背后,是他对科研目标的清晰认知和从中获得的持续正反馈。“当你的工作能产生影响,能看到实实在在的进展,就不会觉得累。”他说道。


图丨陈天行目前已有的学术成果(谷歌学术)

尽管在学术上已经取得了不俗的成绩,但陈天行并未止步于此。他明确表示,目前已有创业的计划,并预计在未来几年内启动,方向依然是机器人操作,一个算法与硬件紧密结合的领域。并且,会严格地让自己的学术方向往产业上、往最终会落地的方案上靠。他认为,技术积累和个人影响力的形成至关重要,这也是他现阶段努力的方向。

陈天行从导师罗平教授那里学到,若作为 CEO,自身的“上限”将决定公司的“上限”,因此必须不断提升自己的技术力和领导力。他也深知团队的重要性,“一个人的力量是有限的。”他希望未来能吸引更多志同道合的人,共同推动机器人技术的发展。

“我们这一代人,不再仅仅追求物质的满足,更多的是精神上的富足。”陈天行认为,当代年轻人应该更清楚地思考个人理想、个人发展如何与国家发展的大潮相结合。“改变世界听上去可能有些‘中二’,但现在我觉得,人是要有信念的,要有一个东西支撑着你不知疲倦地去工作,因为你真的觉得做这个事情是有意义的。”他说。

陈天行希望通过自己的经历和自媒体平台,给更多同龄人带来力量,鼓励大家勇敢闯入科研的“无人区”,做有特色、有深度的研究,最终“让机器人走进千家万户”,并为国家的发展贡献一份力量。这位对未来充满憧憬的年轻人,正以其坚定的步伐,在具身智能的星辰大海中,书写着属于自己的“钢铁侠”传奇。

参考资料:

1.https://arxiv.org/pdf/2504.13059

2.https://arxiv.org/pdf/2506.18088

3.https://arxiv.org/abs/2411.18369

4.https://arxiv.org/pdf/2502.13092

运营/排版:何晨龙

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。