杨剑飞的履历精准地踩中了过去十年科技浪潮的每一个节点:2012 年,他进入中山大学那个为了响应互联网潮而特设的“移动信息工程学院”;2014 年加入大疆实习做视觉算法,见证了无人机作为会飞的机器人的元年 ;与此同时,他频繁出没于上海、武汉、台北的黑客松赛场,在 48 小时的极限编程中,反复训练自己从 0 到 0.1 的产品化能力。
随后,他在新加坡南洋理工大学、加州大学伯克利、东京大学和哈佛大学之间穿梭,最终将目光锁定在“Physical AI”(物理人工智能)——一个试图用多模态感知去重新解码物理世界的宏大命题。
一年前,他回到新加坡南洋理工大学创立了 MARS 实验室(Multimodal embodied AI & Robotic Systems Lab),正式开启了他的教职生涯。
尽管如此,他仍称自己是个“躺平”的人——求学阶段享受在南洋理工的椰林泳池边喝着啤酒看论文,晚上则化身英雄联盟征战东南亚的玩家。他坚信高效学习远胜于耗时间。
在与我们的对话中,杨剑飞少有学究式的晦涩,更多的是一种兼具极客与产品经理视角的直率。他毫不避讳地指出具身智能赛道全链路创业模式下的同质化问题,也坦承自己比起卷模型,更在意如何让机器人安全地与人共处并服务于人类的生活。
从看见到感知,让机器人更懂世界
DeepTech:你在 NTU 创立实验室时,选择了“Physical AI(物理人工智能)”这个关键词,为什么强调“物理”?
杨剑飞:这与我的研究背景密切相关。过去我一直在做 AI 与物理系统的结合(比如 IoT 和机器人),本质上就是利用人工智能去观测并理解物理世界。
我的研究始于计算机视觉和多模态感知,最初我以为 RGB 相机加上雷达,已经足以构建一个较完整的三维世界表征。但在哈佛访学期间,与做光学和实验物理的研究者深入交流后,我意识到我们对物理世界的认知其实非常有限。真实世界远比视觉呈现复杂得多:多光谱信息、各种电磁信号、空气中的通信波段,都是真实存在却难以直接感知的维度。
因此,Physical AI 的核心并不只是让机器人行动,而是回答一个更基础的问题:我们如何更准确、更全面地观测物理世界,并用 AI 去解释这些观测?
这条路径在其他学科也同样成立。生命科学中,从显微镜到基因测序,各种技术的出现本质上都是创造新的观测方式,随后再由 AI 进行分析。正因如此,我认为 Physical AI 是一个未来几十年都值得投入的方向。它关乎 AI 的边界,也关乎我们如何理解真实世界本身。
DeepTech:既然 Physical AI 的核心是重新定义我们如何观测物理世界,那在人机交互的设备层面,你最近关注到哪些值得探索的新载体?比如,你今年初参与了 meta Project Aria(AR 眼镜项目)。
杨剑飞:对,这个项目主要利用 meta 的 Aria 智能眼镜进行场景识别,希望借此提升人与机器的交互能力。我们关注的是更长期的趋势:未来什么设备可能取代手机,或成为新的核心交互入口?
我认为会是 XR 眼镜。
过去十多年,XR 眼镜受限于显示、芯片和电池,但现在这些技术正在突破,使它具备成为下一代终端的条件。短期来说,XR 眼镜可以成为和用户自然交互的入口;长期来说,随着边缘算力的发展,眼镜能够实时捕捉用户看到的世界,并将这些信息反馈给家中的机器人,使其理解用户关注的内容,从而提供更加自然的辅助。
因此,XR 眼镜给了 AI 一双人类的眼睛,我们申请了 meta Aria Project,就是与学生一起探索 XR 眼镜与具身智能结合的可能性。目前项目仍在早期阶段,但这是我们认为非常值得投入的新方向。
DeepTech:这是否意味着,你认为未来的具身智能是一种更高级、更即时的具身形态?
杨剑飞:我认为,如果讨论具身智能或 Physical AI,XR 眼镜本身就应当被视为其中的一部分。当前市面上的 XR 眼镜之所以受限,主要在于端侧算力不足,而为了控制重量,它们也无法搭载更强的处理能力,因此设备侧的 AI 能力仍然非常有限。
但 meta 的 Project Aria 与传统消费级产品不同,它是专门为科研设计的设备,重量更大,但也配置了更强的端侧算力。这使我们能够在其上实现更加实时的感知处理,并探索更高级的 Physical AI 交互模式。
从这个角度看,AR 眼镜并不仅是信息呈现设备,它实际上是具身智能生态中的一个重要节点,能够在用户与环境之间提供连续、实时的感知与反馈。
DeepTech:2026 年,你的团队会重点投入在哪些研究方向?在具身智能即将迎来应用化阶段的背景下,你认为哪些问题最值得提前布局?
杨剑飞:2026 年,我们的重点仍将放在以人为本(human-centric)的具身智能研究方向上,比如更加安全和自然的人机交互(Human-Robot Interaction)。我判断具身智能可能在未来 3-5 年里逐步落地,而一旦进入实际应用阶段,如何让机器人以更自然、更友好、更加符合人类习惯的方式进行交互,将成为不可回避的问题。尽管这些课题在传统意义上未必属于核心性能指标,但我个人非常重视其中的人性化价值,因此也会持续深耕这一方向。
与此同时,我们团队中负责多模态与大模型的学生也已经开始在 VLA 方向发力。一个关键问题是:VLA 是否可以接入更多模态,从而实现更精确的动作表达?在什么场景下,多模态输入是必要的?哪些任务又不能仅依赖纯视觉(pure vision)就能完成?
这些问题的背后,其实都是关于不同模态的数据如何共同影响具身智能能力的更深层探索。因此,从整体上看,我们 2026 年的研究仍将围绕我们 MARS Lab 的两个主线展开:多模态感知与以人为中心的具身智能。
通用机器人真正要落地在哪?
DeepTech:目前市面上出现不同的声音,有些人认为最大的场景是进工厂,拧螺丝、分拣电池、搬东西;也有人认为,机械臂已经够用了,趋势应该是个人和家庭。你比较看好机器人在哪些场景的应用?
杨剑飞:我认为核心仍在 to C 端。工业场景固然重要,但在高度结构化、可预设的工厂环境里,传统工业机器人本身就能做得更好。具身机器人只有在处理工业机器人难以覆盖的问题才具备价值,例如拆解不规则物体、处理杂乱环境。但这类需求往往更适合由专门的工业自动化公司来解决,也不是通用具身智能最具潜力的方向。
具身智能真正值得期待的,是走进家庭,解决开放世界中可广泛泛化的真实任务。但家庭场景的复杂性极高,远非两三年能够完全攻克,因此广泛落地必然是一个长期过程。
在我看来,一个关键节点是:在 to C 端出现第一个真正意义上的“杀手级应用(killer app)”。它能让普通消费者第一次明确感受到“家里有一个具身机器人是有实际价值的”。在这个节点出现之前,具身智能的大规模普及都只能算是过渡阶段。
DeepTech:如果说 to C 的话,人形是最好的形态吗?
杨剑飞:在不同的 to C 场景中,不同结构的机器人设计有着不同的优势,但如果讨论的是通用型家用机器人,人形形态的适配性更强,大致体现在两个方面。
其一是环境友好性与任务灵活性。家庭空间从本质上就是按照“人”的尺度、动作和可达性设计的。人形机器人能够在相同的结构中完成多样任务,包括上、下台阶等轮式机器人难以处理的动作;在海外大量家庭为多层 house 的情况下,这种能力尤为重要。因此,在开放家庭环境里,人形形态天然更具普适性。
其二是情感层面的可接受度。人们对小鹏机器人等产品产生关注,不仅因为其步态逼真,更因为其外观、材质与比例在视觉与情感上带来了拟人化的温度。这种温度并不必然来自技术本身,而是来自人形结构、织物包裹等设计细节所营造的心理连接。正如科幻作品长期呈现的图景,当机器真正融入日常生活,人们往往希望它像一个人。
人形并非唯一解,但在通用家用机器人领域,它确实具备更强的环境适配性与情感亲和力,这两点共同构成了它在 to C 市场的重要潜力。当然人形不一定是双足,这是更加细节的讨论了。
中国“全都要” vs 美国“单点破”
DeepTech:从你的观察来看,中美在自身智能的发展路径上有什么差异?
杨剑飞:在中国,产业发展往往沿着供应链自下而上展开。完整而高效的制造体系,使国内迅速涌现出一批具身智能创业团队。许多公司由具备北美或国内顶尖科研背景的研究者创立,将硬件基础与博士阶段积累的软件与模型能力结合,形成较完整的技术链路。
但在与二十多家创业者交流后,我注意到一个普遍特征:我国的公司倾向于全链路式创新。从本体、感知、控制到大模型,甚至数据采集,几乎所有环节都在一家公司内自研。这种方式虽能构建统一的平台与独立的生态系统,但也容易导致资源分散,难以在某个关键层面实现突破;加之供应链成熟、造一台机器人门槛降低,同质化问题随之加剧。
相比之下,美国生态的分层更为清晰。许多团队只专注某一技术层,如Physical Intelligence 主攻大模型、genesis 做仿真平台、generalist 聚焦工业智能大模型等;硬件端则大量采购成熟的中国产品来验证模型能力。这样的模式使创新资源得以集中,也更容易形成差异化。当然,也有 Figure AI、Tesla Optimus 等选择全栈路线的例外,但他们拥有少数团队才具备的资源规模。
在模型层面也呈现类似差异。目前最具影响力的开源模型仍来自美国体系,如 π 系列。国内虽然不断有模型宣布开源,我们实验室测试了部分模型也有不错的性能,但整体上声量大于可用性,尚未出现一个能够真正被社区采纳、持续演进的基础模型。国内缺乏长期维护开源项目、沉淀开源社区文化的土壤,也是原因之一。
从科研与产业双重视角看,在开源模型能力上美国仍占优势;但中国在机器人硬件、供应链和工程化效率上的领先同样显著,也正因如此,美国许多团队愿意直接采购中国本体。我也非常希望我国具身智能能有 DeepSeek 一样的模型出现。
DeepTech:中国具身智能行业在高速发展的同时,也伴随一定的过热预期。你怎么看当前行业的真实进度与外界叙事之间的落差?
杨剑飞:当然,中国的优势同样十分突出,尤其体现在制造体系和工程化能力上。依托松山湖等地高度成熟的机器人供应链,我们在硬件本体和人形机器人生产上的速度与成本控制具备全球竞争力:产品可以做得快、做得多、做得好,迭代周期也明显短于海外。
这种差距在行业内部也被越来越多的海外团队直接承认。过去大家习惯说“做中国的特斯拉”、“做中国的谷歌”,而如今,美国创业者开始出现希望“做美国的宇树”的说法,这本身就折射出中国硬件能力在具身智能时代的领先地位。
DeepTech:从产业结构来看,从 2023 到 2025,机器人行业的热度几乎是指数级上升。在你看来,是哪些变量让行业突然进入加速度阶段?
杨剑飞:过去这一波具身智能的热度,并非偶然,我认为真正的拐点出现在 2022 到 2023 年,其背后至少有三股力量共同推动。
首先是大模型的出现。最初大家主要关注基于大模型的智能体与线上应用,但机器人研究者很快意识到,大模型具备解决高层任务规划的潜力。它不仅能生成动作序列,还能为机器人提供通往开放世界的思考能力。这使得原本局限在封闭环境中的机器人,有了迈向通用智能的可能。
第二个关键变量是算力。大模型本身依赖算力堆叠,而机器人也在经历同样的算力跃迁。例如英伟达近年来推出的 Star、Jetson Nano 等边缘计算平台,显著提升了端侧的 AI 运行能力,推动了自动驾驶、AGV 和服务机器人等应用的实际落地。
第三,是硬件与供应链的成熟。以松山湖为代表的制造集群逐步形成,大疆等企业带动了上游零部件体系的完善,催生出割草机、泳池清洁机器人等上一代产品的商业成功。这些积累为今天的人形机器人奠定了基础。
此外,国家层面的推动同样重要。春晚上连续两年出现机器人,从侧面体现了政策与社会层面对行业的关注,也帮助不少企业在关键阶段获得资源和认知红利。综合制造优势与人才供给,我相信中国在具身智能领域具备真正实现突破、甚至领跑的可能性。
打造机器人的“ChatGPT 时刻”
DeepTech:另一个所有人都在关心的问题是数据。机器人数据的采集成本极高,也很不连续。你认为合成数据会成为真正的解决方案吗?还是说,数据要在未来以一种完全不同的方式被生成?
杨剑飞:在我看来,仿真数据和真实数据必然是两条并行路线,各有优势也各有局限。仿真最大的好处是规模化容易,但始终存在模拟与现实的差距;真实数据尤其是操作类数据采集成本高,但价值更直接、可迁移性更强。
近年来也出现了一些提升真实数据效率的方法,例如 UMI 通过统一夹爪,让 generalist 和 Sunday AI 等团队可以快速扩展真实数据规模。这说明真实数据并非不能扩展,只是幅度无法像仿真一样成倍增长。再比如最近 PI 发现大量的第一视角人类视频训练可以促进具身智能模型的“智能涌现”,而第一视角视频相比于遥操作数据是更容易 scale up 的。
因此,大多数团队最终都会采用混合策略:预训练依赖大量仿真数据和视频数据,具体任务和场景落地则必须回到真实数据进行校准。同时,世界模型的路线正在兴起,让模型在类似仿真的环境中继续强化学习,成为第三条可补充的路径。
行业的共识逐渐清晰:有效数据不会来自单一来源,而是多种数据形式的组合。未来的关键不在于简单扩大数据工厂规模,而在于探索新的数据范式,从而提高数据采集效率与利用效率。只有这样,才能真正构建出具有强泛化能力的具身智能模型。
DeepTech:如果机器人数据来自不同国家,它们是否会出现地域特性,甚至价值观差异?
杨剑飞:这种情况在未来的确非常有可能出现,也正是当下数据体系的核心短板之一。现阶段的机器人数据收集往往是高度中心化的:数据通常来自同一地区、同一团队、同一种环境与交互方式,因此不可避免地带有特定地域与文化的行为偏差。这使得模型难以获得真正普适的行为模式。
如果具身智能要走向全球化,它的数据体系必须像互联网一样实现分布式采集,来自不同国家、不同文化、不同家庭与不同工作场景的真实数据共同汇聚,形成新的 Internet——机器人数据互联网。只有在这种高度差异性的数据结构下,才有可能诞生真正意义上的“机器人领域的 ChatGPT 时刻”。
否则,今天许多机器人系统所依赖的依然只是局域网级别的智能,它们在特定环境下表现良好,但难以跨文化、跨场景迁移。要突破这一限制,构建全球化、分布式的数据流将是关键步骤。
DeepTech:基础模型开源与否,会决定行业走向。你认为开源基础模型,会加速具身智能的发展,还是反而带来新的不确定性?对于做机器人系统的人来说,开源意味着机会还是隐患?
杨剑飞:开源无疑会加速行业发展,也会带来大量不确定性。但在技术探索的早期阶段,这种不确定性本身就是创新的源头。以数据采集为例,UMI 提供了一个开源夹爪,随后社区迅速基于这一接口展开改进:有人直接使用比如 Generalist,有人将其改造成三指灵巧手例如 Sunday AI,开源硬件的启发性在这里得到充分体现。
软件层面更是如此。围绕 PaLM-E、PaLI-X 或 π 系列模型的微调与改造已经遍布学术界。尽管许多工作只是小规模实验或分数优化,但确实也有研究在模型接入新模态、更高效的数据利用、以及强化学习训练等方向取得实质性进展。因此,在机器人领域,开源基础模型的价值甚至比在纯软件领域更大,因为它能够同时撬动硬件、算法、数据和应用多个层面的创新。
我们也可以从行业的成功案例看到这一逻辑。宇树的人形机器人之所以迅速普及,是因为几乎所有国家的实验室都会至少采购一台;PaLM-E、π 系列模型之所以成为研究基础,是因为大量工作都建立在它们之上;在大模型领域,Llama 和 DeepSeek 系列发布后一年内便积累了庞大的社区贡献。
一家公司的资源再多,它能专注的范围依然有限。但当它以开源方式激发了研究社区的创造力,社区基于其架构所衍生的成果反过来又会强化其技术生态。这正是开源在机器人时代尤其关键的原因,也是推动企业最终取得成功的重要路径。
DeepTech:近期,多所高校开始讨论是否应该设立“具身智能”本科专业。作为长期从事该领域科研和教学的研究者,你怎么看待本科阶段培养具身智能人才的可行性?
杨剑飞:长期以来,一个常被讨论的问题是:机器人行业发展多年,为什么高校中真正设立机器人本科专业的并不多?
核心原因在于,机器人是高度系统化的工程领域,涵盖机械、电子、控制、自动化、计算机等多学科。本科阶段如果课程设计不够聚焦,学生很容易学得很杂,却没有哪一项真正学深。因此,无论国内还是海外,关于是否要在本科阶段开设机器人专业一直存在争议。
过去十多年,我认为更加推动机器人教育进步并培养学生实践能力的,其实不是课程,而是竞赛。系统化的比赛机制让学生必须在团队中完成整机设计、调试与迭代,这种做出来的训练方式远比课堂更能塑造一个准机器人工程师。我在大疆参与 RoboMaster 比赛系统测试时就明显感受到,全栈型人才往往来自高校顶尖战队。
因此,本科专业更多是一种组织框架,而真正决定学生能力的,是他们是否有机会参与系统级工程,把一个机器人从零做成可运行的产品。在这个意义上,机器人教育的核心不在课程,而在工程实践本身。





京公网安备 11011402013531号