
![]()
“我们想要 answer back 黄仁勋那句「只有三种机器人可以大规模量产,人形机器人、无人机和汽车」。”
作者丨齐铖湧
编辑丨马晓宁
过去两年,具身智能的火热源于一个共同期待:大语言模型的出色能力有目共睹,若将其接入机器人,有望赋予机器人更聪明的大脑,从而为行业打开新空间。 然而热闹两年后,具身智能仍没有标准答案,却出现了很多细分领域,智能飞行机器人就是其中一个重要分支。
浙江大学控制学院长聘副教授、博士生导师高飞,就是这个领域的一位非常优秀的年轻学者。
高飞的主研方向包括空中机器人、自主导航、集群协同、具身智能,提出了国际首个非结构化场景下的自主飞行集群系统,发表多篇Science Robotics、TRO等顶级期刊、学术会议论文,并创立了微分智飞。
高飞是国家优青基金获得者,获IEEE TRO、IROS等多项最佳论文提名,入选2023-2024全球前2%顶尖科学家、2025《麻省理工科技评论》“35岁以下科技创新35人”(MIT TR35)亚太区榜单等。
在刚刚结束的 GAIR 2025,高飞教授在雷峰网举办的GAIR大会现场,做了主题为《智能飞行机器人研究进展及产业应用》的分享,他的演讲风格极具画面感:他用《普罗米修斯》的无人机编队镜头引出“分布式集群”终极形态,又用《流浪地球》的混乱场景对比强调“去中心化”的重要性。
以下是具体内容,雷峰网做了不改变原意的编辑和整理。
01
飞行机器人的愿景和无人机技术演进
我是高飞,来自浙江大学,也是微分智飞的创始人。今天想和大家分享我们对智能飞行机器人这个赛道的理解,以及我们团队正在做的事情。
为什么要做“智能飞行机器人”?因为我们认为,通用飞行智能已经到了爆发的前夜。我小时候第一个梦想是开飞机,后来虽然没当成飞行员,但一直没放弃用别的方式飞上天。现在,我们想用 AI 打造聪明、安全、能自主决策的飞行平台,让它们在各种复杂环境中完成任务。
![]()
大家最熟悉的飞行平台是旋翼无人机。2015 年以前,无人机更像是高级遥控玩具,主要依赖人工操控。2015 年之后,机器人学开始给无人机赋能,逐渐出现了跟踪避障、自主导航、集群导航等技术。下一个里程碑,我们认为就是“具身智能”。
具身智能强调的是一个有实体的智能体,通过 AI 持续学习和信息迭代,实现对环境的理解、任务的执行,以及跨场景的泛化和通用能力。对应到地面的人形机器人,我们也希望有一个通用的飞行载体,能在天上完成各种任务。
我博士入学时,老师给我播放了电影《普罗米修斯》的片段:一个小型智能飞行器在复杂环境中自主穿梭。老师说,有一天我们要做出这样的无人机,这是我们团队的愿景。
在群体层面,我们希望打造分布式、去中心化的无人机集群——核心是让集群能够灵活、自适应地完成大规模任务。这一架构设计的必要性,也在电影《流浪地球》里印证:片中拔掉中心控制器后,几千架无人机集体坠落——这就是中心化架构的缺陷。我们要做的是无需中心节点也能协同作业的分布式系统。它是很小的一个智能飞行载体,可以在复杂的环境下知道自己该往哪里去,该怎么飞,该怎么感知环境。同样的,在群体上我们想要它具备规模化、分布式化和高灵活的特性,可以做大规模的任务,可以干很多很多的事情。
02
天空端具身智能的四大挑战
具体来说,飞行天空端的具身智能和地面端的相比有哪些独特的挑战?
首先是数据很少,前面的嘉宾也一直在讨论数据,大家有没有想过无人机该怎么采集数据?
答案是没法采集数据,因为你不可能去雇这么多穿越机的飞手做高精度的飞行控制,帮你去采集数据。在实践中不具备可行性:第一个是飞手专业技能的习得需要一定的门槛,第二个飞行数据采集过程易发生设备损毁或人员安全事故,导致采集成本与风险不可控。
![]()
第二是场景复杂:无人机被造出来一定是在天上飞,在室内、室外各种各样的地方飞,所以它的场景跨度大、环境差异显著。所以从我们设计它的算法的时候,无论是端到端架构还是模块化的感知方案,均需具备跨场景泛化能力,其核心是实现环境语义的抽象建模:即从差异化显著的场景中,提炼通用化的环境表征规律,这个事情会很难。
第三是易受干扰和零容错,我们知道无人机的飞行需要和空气高频的交互,因此它很容易受到气流的扰动,系统需具备极强的动态抗扰能力;更关键的是,无人机在飞行过程中零容错,一旦发生了任何的剐蹭,会直接 坠毁;它没有像地面机器人一样可停驻待机,想清楚了再动作的机会。
最后是算力很弱、传感器很弱,它很容易受到各种扰动,也不能支持非常大的模型在端上的实时运行。
以上这些挑战,也是我们正在攻克的难关,我想当我们攻克了以后,它也会成为独特的技术护城河。
03
我们团队在做什么?整个业界进展什么样?
我会把我们的工作分为环境感知、小脑本体归控、大脑端侧决策、群体协同智能和飞行操作一体化这几个方面。
![]()
在归控方面,我们要跨过传统飞控的高 latency(高延迟)瓶颈,打破其对推力输出与底层姿态控制的平均化、低上限约束,最终实现端到端直通电机的高动态极限飞控。
在感知层面,我们要兼具高动态感知和复杂语义信息的融合,从而为“端侧大脑”提供支持,使其具备对复杂长程任务的自主生成能力,以及在未知场景中实现泛化理解与决策的端侧智能。
在集群方面,我们追求分布式的群体协同,大家还记不记得我上一页 PPT 里面电影《流浪地球》的片段,下一时刻发生了什么呢?他们把中心控制器给拔了,所以天上的几千架无人机全部掉下来了,那就是不够去中心化,不够分布式导致的。
最后是飞行操作,我们希望不仅可以做飞来飞去的眼睛,也可以是飞来飞去的手。
所有做的这些目的都是为了 answer back(回应) 黄仁勋的这句话:“只有三种机器人可以大规模的量产,人形机器人、无人机和汽车。”
04
展开聊聊五维技术体系:从“小脑”到“群脑”
接下来就是具体的技术分享。
第一个是小脑技能,我们正在着力打造敏捷、轻量、多任务的本体运控小脑。
这里重点介绍的就是我们最近在做的 sim to real (仿真到现实)端到端强化学习技术。我们的无人机可以通过搭载单颗机载摄像头,在没有额外的传感器,没有深度信号输入的条件下,直接将视觉图像映射成为控制指令,这个模型可以在端侧跑到超过100Hz的运行频率,确保无人机通过实时微调自身的姿态去动态适应环境,这些都是真实的场景,不是仿真。
![]()
当然,我们的训练会大量使用仿真合成数据,即便环境在变化,它也可以很好的从里面穿越,因为它的模型是在端侧高频运行的,所以它不断的微调,而不是在飞之前提前看清楚环境,规划好一条航迹,然后一次性的飞过去。我们的无人机也可以 穿越连续多个的狭窄环境,这些完全都是自主的。
像这样的飞行能力,我们的系统甚至可以超越人类高水平飞手水平。面对狭窄的不规则缝隙,只要经过少量的 fine tune (微调)也可以很好地适配,这里是一个在白光环境下一镜到底的拍摄,可以看到全程无人机稳定穿越、应对自如。这一系列优化的核心目标,是确保技术完全满足实际飞行场景的落地需求,实现全场景可靠适配。
当然,我们后面会展示一些一脑多形的应用,可以用在地面上或者其他场景,但其中我们最看重的还是飞行,所以我们从day 1开始就要解决数据少以及算力低的问题。这里,我们做了一个长链路动作的人机对抗项目,我们还设计了特技飞行,让这个无人机自主连续穿越 6 个框,在每一次穿框的最高点都要头朝下地倒转穿过去,所以它并不是平飞的画圈,而是倒过来穿过去。这样的飞行动作是很难的。
![]()
我们请了一个高水平的飞手做对比,左边是算法自动,右边是飞手飞的。可以看到两边轨迹的质量有非常大的差异。而且,飞手在飞行之前其实已经训练了三个小时,并不是把他拉到一个从来没见过的环境就来做对抗,我们也充分地保证这次对抗的公平性。
我们现在最小的端到端网络可以跑在一个非常小的飞机上,它的总重量只有 50 克,可以用极低成本的传感器和算力芯片支撑自己端到端的导航避障,。
为了支撑小脑(控制层)和大脑(决策层)的数据采集和模式训练,我们打造了一个高效可靠的自动化数据采集系统和数据合成管线。这里就是一个像素级的数字孪生仿真系统,左边是仿真系统里渲染的图像,右边是真实的实拍画面,可以看到几乎可以达到以假乱真的效果。我们的端侧感知也可以捕捉快速运动的物体,在极端的情况下可达到 1000 FPS。借助这些优异的规控和感知能力,就可以实现动态环境下的自主作业闭环,比如说动态的车载起降等。
大脑层面,是我们团队最近重点关注和投入的方向。
我们认为具身智能的本质是通用和泛化。所以跨本体和跨场景一定是我们的 ultimate solution(终极解决方案),或者说是本质的追求。
在整个具身行业内,短期内我们可能会为了落地做一些特定场景的 overfitting(过拟合),但长期核心目标还是要实现跨越本体和场景的通用能力,比如说这里看到,我们自主研发的路径规划的大脑,不仅可以支撑各种各样的旋翼无人机,用在固定翼上也完全没有问题,当然还需要做少量的适配工作。这项工作甚至可以拓展到地面的轮足机器人等不同载体上。可以看到,我们给该机器人提供走迷宫的路径规划技术支持。单次规划的时间在 10 毫秒以内,而且完全通过神经网络来直出,输入的是地图,输出的是最优路径。
这是我们团队最近的视觉语言三维重建基础模型,我们的飞行机器人可以通过语言文字去下达指令,端侧和边缘侧都部署着多模态大模型和基础模型,它可以对环境有很好的认知,并且边重建边脑补获得上帝视角来辅助全局规划。
我们会告诉它“你去做外立面的测绘,飞到建筑物内部做探索,去看一下房顶,看一下房门......”它可以把语言里承载的模糊的逻辑信息和它视觉采集到的图像进行高效对齐,理解你在说什么,完成从 理解、推理到决策的闭环。
![]()
比如说在一些工业场景的应用里面,我们下达“请你飞到四层楼去探索一下这栋建筑”的任务,飞行机器人就会自己飞到第四层楼,沿着楼梯找上去,然后两边探索完,最后因为它没有别的路可以下来,所以会沿着路径再返回,把环境内的关键信息带回来。在任务的全过程中都是没有 GPS、没有人为操作的。在更复杂的环境下,我们甚至可以在矿山内部使用,这是一个非常恶劣、复杂而且事先未知的环境。那为什么要做这个呢?
因为我们的梦想就是做出普罗米修斯那种突破智能飞行机器人:一方面把无人机越做越小,另一方面也在不断的挑战极端场景下的技术极限——在复杂的、没有信号(包括卫星信号和人的通讯遥控信号)的情况下,实现极致的自主决策和自主导航。这里的核心是“智能”: 你只需要给它一个任务,它便能独立规划路径、避障穿行,稳稳抵达目的地。
![]()
此外,自主决策是说,它并没有不知道要去哪,它要自己根据自己的任务自主生成 next best target (下一最优目标点)——这是一个复杂的决策任务,对模型的泛化能力要求非常高。否则很难实现遇到一个陌生环境就可以完成这个任务,这里的所有场景对于这个无人机来说都是第一次见。完成了任务后它会自动返航,把里面的信息带回来。
第四部分是集群,我们其实在单体以外一直强调分布式集群。集群不仅要追求规模化部署能力,更重要的是具备极致的灵活性与动态自适应性。从 设计之初,我们便将 “分布式协同” 作为集群技术的底层架构核心,确保系统从根源上适配多场景动态需求。
![]()
我定下的目标就是要做一个完全分布式的架构,因为这样是最灵活的,分布式的架构才能保证任何个体在加入或者退出时,不会影响其他个体的任务执行。就像人一样,每个人都是在独立感知环境,独立地用自己的大脑做决策。但是当我们构成一个群体的时候,我们有共同的上层目标,只要没有人使坏心往一处使,就能很好的把这个事情完成。
这也是一个一镜到底的 demo,10架无人机组成的集群从一侧进入这个树林,再从另一侧飞出来——全过程也是没有人干预的,且是陌生的环境,我们使用的传感器也只有机上的 Stereo camera( 双目视觉)、 MEMS 惯导以无源式 UWB 收发装置(没有部署基站,通过无人机间点对点测距实现协同定位),无任何额外辅助设备。只用了这三种传感器,所有的计算都是在端侧完成。我们现在最大规模去支撑的分布式的集群可以做到 1, 000 架以上,这里是今年年初发表的一篇 TRO,在论文里面我们呈现了1, 000 个无人机的分布式集群避障。
当然这是一个仿真实验,我们现在还没有实力去做千机的真实实验,可能未来会实现。可以看到在飞行中,每个个体都需要感知障碍物和周围其他个体的运动,通过分布式协同决策实现自主导航与实时避障。在地图的中心区域,大家会聚集在一起,这是一个冲突高发区域,他们会恰好躲开彼此碰撞。这项工作目前是学界考虑了无人机高阶动力学的、实时的、分布式的最大规模无人机运动规划算法框架。
我们非常强调群体的协同性和个体主观能动性的结合,比如这个实验中我们让 16 个无人机保持某种队形。如果你牢牢保持这个队形,前面有障碍物,是不是会撞上去?所以每个个体都需要实时的灵活决策“我现在是不是应该绕行,什么时候再回归我的队伍去 reform(调整)成我预先指定的队形?”同样的,这些环境都是未知且没有 GPS的。
接着说我们做的应用,比如说多机协同三维重建,这里三架无人机在大范围环境下做协同测绘,它们可以更好地做任务调度,比如说你去测绘这里,我去测绘这里,最后在一个约定的地方做地图的快速拼接。我们也可以做多机调运,目前我们已经开始了这方面的商业化。这里是我们的实验演示 demo,上面的三个发光的是无人机,下面那个红色的是一个载荷。
这里的实验对于实时规划是很难的,因为我们要实时地做力的分配;要保证这几根绳子不会缠在一起;以及没有任何一个无人机在偷懒。这项工作刚刚被 TRO conditional 接收,应该很快就会上线。同样我们要保证这个队形的协同避障,可以看到在一个狭窄区域下,他们会主动地改变自己的队形,从里面穿过去,所有的规划都是可以实时运行的,所以你可以在飞行过程中给它下达新的指令,它们就会规划出新的航线到达目标点。
这里面的一个核心贡献点是我们构建了精细化的动力学模型——考量绳子朝向、拉力大小、力矩大小等关键变量,不仅可以保证飞行的稳定安全,甚至会考虑下方载荷的姿态,这样的话如果里面是液体它也不会倾覆掉。这里是个更大规模的一个 5 机的协同搬运,我们确信没有一个个体在其中是偷懒的。传统协同搬运中容易出现无人机在飞,但它的绳子是完全不受力的。
![]()
最后是飞行操作,我的理想是不仅要做一个灵活的飞行的眼睛,还要做飞行手,这个是我们这项技术的 demo。
我们把大模型部署在边缘侧,这样就可以和人做各种各样的交互,它可以理解你的意图,通过语言、文字甚至动作,来理解你要干什么,帮你拿饮料、拿可乐等等。我们可以看到它是怎么工作的:它其实就是一个手型的无人机,一个欠驱动机械手的构型,它可以通过单电机的神驱装置让自己本体发生形变,具备人手的指尖捏取或者掌心抓握的两种不同的动作模态,因为人的手有很强的包裹性,所以可以抓各种不同的东西。当然这个东西做不了地面操作类机器人的精细操作,因为它自由度很低,只有中间、前后和旋转的形变这几个自由度,但是它可以很好地做到“抓了就跑”这个动作。
比如在户外我们就可以用它做一些物品的快速投递,我们正在研发这个样机,希望在有朝一日我可以坐在办公室里用它去帮我下楼取咖啡。
![]()
这里其实很多地方都很难,但是可能大家感知不到,比如说可以看到它在抓一个东西之前和抓东西之后飞得都很稳,其实这个非常困难,做过无人机的同学可能知道,别说抓东西了,只要产生了形变,无人机的转动惯量、质量、各种物理参数都会变化,保持平稳飞行就会很难,更何况它的载荷还在发生很大的波动。此外,我们也可以把它当做人手的空间延伸,借助 第一人称视角眼镜和单手遥控,给它下达简易的指令。我们会做端侧的辅助驾驶去修正控制指令,最后帮助完成任务,把东西抓下来。
以上就是我们的技术进展,我们正在把飞行具身的三脑:大脑、小脑和群脑,做多个方向的技术落地,包括泛测绘-巡检,去代替人工进入复杂恶劣的场景采集信息;去做特种安防,提供自主作业支撑;去做车用级的飞行 agent,满足移动平台协同需求;此外也可以做通用开放的二次开发平台。
以上就是我今天报告的内容,谢谢大家。






京公网安备 11011402013531号