当前位置: 首页 » 资讯 » 新科技 » 正文

星动纪元创始人陈建宇:具身智能技术路线正加速收敛,模型架构决定智能上限

IP属地 中国·北京 编辑:吴婷 蓝鲸新闻 时间:2025-08-21 20:52:12
“未来几年会出现相对简单形态的家用机器人,而部分高净值家庭也可能尝试功能更通用的人形机器人。”

8月21日讯(记者 武静静)近期,具身智能与人形机器人领域迎来多路资本涌入。2025年上半年,中国人形机器人行业融资额和数量均刷新纪录。根据IT桔子数据,截至目前,该领域共发生87起融资事件,已披露融资金额达109亿元,相比去年同期几乎翻倍增长。

风口之上,资本热度不减。人形机器人正在成为一级市场的新宠,被视为继AI之后的又一科技投资热点。在技术与商业的双重推动下,一批科研背景浓厚的企业正加速从实验室走向市场。

成立于2023年8月的星动纪元,是清华大学唯一持股的具身智能企业,由清华大学交叉信息研究院助理教授陈建宇创立,并得到上海期智研究院支持。团队科研背景深厚,80%以上成员来自清华大学、北京大学、加州大学伯克利分校、新加坡国立大学及知名企业。

今年7月,公司宣布完成近5亿元A轮融资,由鼎晖VGC和海尔资本联合领投,厚雪资本、华映资本、襄禾资本、丰利智能等跟投,老股东清流资本、清控基金继续追加投资。此前,公司已完成三轮融资。

近日,蓝鲸科技采访了星动纪元创始人陈建宇,他就公司技术路线、产品落地以及行业趋势进行了深入探讨。

具身智能技术路线正经历一次重要的收敛

当下,具身智能的技术讨论中,VLA(视觉、语言、行为)和端到端成为高频词。作为一家坚持软硬件全栈自研的人形机器人公司,陈建宇在接受蓝鲸科技等媒体采访时表示,具身智能技术路线正经历一场重要的收敛,VLA正在成为行业的主流方向。

陈建宇回忆,早期关于机器人控制方式存在过激烈争论是坚持传统的控制方法,还是走向基于学习(learning-based)的路径,他认为,分层式模型与端到端VLA模型的争论,也正像早期对学习方法的怀疑一样,最终会因实践而收敛。不论是国内还是国外,包括一些同行在内,都展现出了不错的VLA能力。这让大家开始逐渐相信,端到端确实是有效的。

星动纪元从创立的第一天起就押注端到端的VLA范式。我们认为这是一个第一性原理的选择,是最终的方式。陈建宇说。他认为,具身智能的技术收敛并未结束。我们现在仍在推进下一阶段的演进,比如模型架构的进一步改进。虽然这些方向还未完全落地,但我们已经开始下注。只要我们能够证明其有效性,就会带来新一轮的技术收敛。

他进一步解释,VLA涵盖机器人智能的核心三环节:视觉(Vision)负责感知世界,语言(Language)用于理解与对话,行为(Action)完成输出与操作。他甚至打趣称,人类本身就是一个高效的VLA系统,这一理念为人工智能设计提供参考。

陈建宇进一步指出,世界模型则是在现有VLA模型基础上进行能力升级的一种方式,它能够提升机器人的精细化操作能力、泛化能力和认知能力。换言之,世界模型与VLA不是互斥关系,而是逐步完善VLA能力的下一个范式。

关于为什么当前阶段还无法实现完全的端到端通用智能,陈建宇总结了两条关键路径:

其一,是将世界模型与生成式模型融合。他表示,星动纪元已率先完成全球首个将世界模型与生成式模型结合的研究,使模型不仅能对未来状态进行预测和认知,还能直接生成行为决策。去年我们就陆续发表了相关论文VPP(Video Prediction Policy),引发业内讨论。随着更多同行的关注和合作,这一方向有望快速形成共识。

其二,是VLA层面的强化学习。他提到,目前很多运动控制仅依赖强化学习完成走路或基本运动,但在VLA框架下,强化学习的目标是提升机器人的通用能力,让同一套模型能够处理各种任务。星动纪元自去年开始在这一方向进行探索,并已形成一系列学术成果,为通用VLA模型的实现奠定基础。

模型决定数据:架构优化引导数据利用效率

陈建宇指出,人形机器人关键核心在三个层面:模型架构、数据策略和本体设计。

模型架构最重要,它直接决定了模型的上限。陈建宇说。其次是数据,不仅在于数量,更关键的是多样性、来源丰富度和质量。第三是本体能力,例如是否有腿决定上下楼能力,是否有手决定复杂工具的操作能力,本体的性能和复杂度会直接限制机器人可完成任务的类型和难度。

关于当下具身智能和人形机器人普遍面临的数据难题,陈建宇坦言,这确实是具身智能研发中的难题。不同机器人的自由度、输出维度、传感类型可能各不相同,使得数据和模型的直接复用面临限制。为此,星动纪元采取了数据金字塔和两阶段训练策略。

在预训练阶段,公司尽量使用与具体本体无关的数据,例如人的行为视频,因为人类本身是一个通用的本体,可以为机器人提供可迁移的学习样本。随后在真机微调阶段,如果机器人的形态与已有模型相对接近,迁移效果会更好。陈建宇指出,即便机器人迭代了新一代产品,胳膊构型、颜色或自由度有所变化,模型在不收集任何新数据、不做微调的情况下,也能完成原有任务,只是成功率略有下降。

他解释,形态相似的人形机器人之间迁移表现良好,但跨形态迁移则存在局限。例如,从人形迁移到四足机器人,或从单臂机器人迁移到双臂机器人,效果都不理想。这也显示出本体设计与数据复用的紧密关联,为未来构建更通用的VLA模型提供了重要参考。

未来机器人模型的发展,是依赖更少的数据,还是数据量越大越好?

陈建宇回应称:绝对数量本身还是会越来越大,越大越好。他强调的是在完成同样任务的情况下,我们只需要更少的真机数据即可完成任务,也就是数据利用效率更高。但即便如此,数据总量仍然需要增加,因为目前的数据量仍然不够。

模型决定数据。模型决定数据如何被高效利用,包括能使用多少类型、来源、数量和质量的数据。模型是核心。

当被问及在当前阶段,行业应重点关注模型还是数据时,陈建宇表示:现阶段应该关注模型。当然,数据也非常重要。有时我们需要从数据量和质量反推模型的性能要求。最终系统一定是data-driven,模型需要能够消化足够量的数据,这也就要求不断优化模型架构以适应数据增长。

未来五年展望:爆发式增长与关键技术突破

关于人形机器人的落地与商业化,陈建宇持乐观态度。他表示:在一些真实的工业场景中,我们已经达到了人的70%以上的效率,明年有望提升到90%。他分析,这与端到端模型的优势密切相关:端到端能够实现实时反馈和控制,不像传统方法需要分阶段识别、规划和执行。人类操作是即时反馈的,看到就能动,端到端让机器人也能做到类似的实时调整。在硬件层面,只要性能和速度足够,结合软件持续优化,机器人未来有望接近甚至超越人类水平。

星动L7物流场景智能扫码、分拣多机协作

谈及杀手级应用的路径,陈建宇认为短期与长期存在差异:短期一定是在B端工业场景落地,一方面为企业提供解决方案,另一方面也是技术和数据积累的阶段,帮助建立飞轮效应。但从长期来看,他坚信最终的杀手级应用仍将在家庭场景,机器人将逐步成为日常生活的一部分。

在技术突破方面,陈建宇透露,公司去年自研的灵巧手已完成样机验证,今年可稳定量产,成本下降,稳定性大幅提升。如今已有众多客户在使用,这也是我们量产化的重要突破。他提到,灵巧手已与VLA模型深度融合,实现端到端直接控制每个手指关节的高频动作。这意味着机器人能够在操作中实时生成行为,完成更复杂、更精细的任务,技术成熟度显著提升。

针对家庭场景的落地时间表,陈建宇指出,机器人进入家庭的趋势已经显现,实际上,扫地机器人就是最早的例子。他判断,未来几年会出现相对简单形态的家用机器人,而部分高净值家庭也可能尝试功能更通用的人形机器人。尽管此阶段功能尚不十分强大,但足以吸引早期用户尝鲜体验。

他进一步预测,以未来五年为时间节点,家用机器人有望迎来爆发式增长。在此过程中,机器人将逐步解决复杂操作、通用智能和高效交互等关键技术问题,为更广泛的家庭场景落地奠定基础。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。