当前位置: 首页 » 资讯 » 新科技 » 正文

90后复旦博导,在玩具堆里搞科研

IP属地 中国·北京 上观新闻 时间:2025-12-13 12:13:27

从复旦出发,走向世界,又重归复旦

复旦大学可信具身智能研究院

研究员吴祖煊

活跃在人工智能与具身智能研究前沿

他专注于将智慧赋予机器人“形体”

教机器“看懂”世界、学会“动手”

因材施教,悉心培育学科交叉人才

用行动诠释卓越有趣师者的模样

“具身智能现在还处于比较早期的阶段”

这位90后海归青年正以热情和创新

探索未来机器人的无尽可能


在“玩玩具”中,

为机器人打造超级“大脑”

湾谷科技园,吴祖煊的实验室,像是一个充满生机的微型儿童乐园。

实验台上铺满五颜六色的水果模型、拼装玩具,团队最近的一个日常工作,就是像“带小孩”一样,教机器人如何“玩转”这些玩具。



湾谷科技园内吴祖煊团队实验室

作为计算机视觉与多模态人工智能领域的青年科研人员,吴祖煊的科研目标宏大且务实:一方面推动计算机理解和生成视频的技术革新;另一方面,通过这些生成的视频训练机器人,为其赋予“读懂世界”的智慧,从而真正打通虚拟世界与物理世界的桥梁。

“现在能跑步、跳舞的机器人固然炫酷,但它们大多只具备控制身体的‘小脑’,还远未拥有能实现复杂任务的‘大脑’。”吴祖煊指出当前具身智能的瓶颈,“如果你让机器人下楼去买一杯咖啡,它需要懂得路径规划、学会按电梯、甚至与人交流。对它们而言,完成这一系列步骤仍挑战巨大。”


如何锻造机器人的超级“大脑”,正是当前具身智能机器人领域面临的核心挑战。要解决这个难题,往往需要海量的数据作为支撑。

数据收集并不是一件容易的事。“现在具身智能领域最大的难题其实就是数据收集。一百条数据,大概只能支持机器人完成一个任务。”吴祖煊解释,传统的做法,需要工程师手把手教学,比如演示拿水杯、擦盘子,这不仅动作数据收集成本高昂,且面对不同场景、不同动作,人工收集更是耗时耗力。

面对这一困境,吴祖煊团队另辟蹊径:如果视频生成模型足够强大,就能够生成海量的操作视频,直接作为训练数据,从而替代掉繁琐的人工收集。基于此,他们自主研发了高效可控的视频生成与编辑模型,为机器人进化提供源源不断的数据食粮。


基于人类演示视频(左)和生成模型合成机械臂视频(右),最终部署在真机上(中)

吴祖煊团队近期构建了一个旨在提升视频生成效率的模型。这个模型有一个充满神秘色彩的名字——“reducio”,取自《哈利波特》小说中的魔法咒语“缩小咒”,精准诠释了模型对极致压缩的追求。与sora等追求宏大效果的模型不同,reducio的特点就一个字——快。通过创新编码方法,reducio能将原始视频压缩4000多倍,实现超高压缩效果。团队论文发表时,reducio能在单张a100 gpu上,用16秒生成1k分辨率的视频,这是当时全球最快的纪录。

有了海量的仿真数据,如何让这些仿真数据真实地作用于物理世界?实践的灵感,来自吴祖煊两岁的孩子。陪伴孩子玩拼装玩具时,他发现,孩子能轻松拼好的柠檬积木,对机器人而言却极具挑战。即便是最简单的“对准、拼合”动作,也涉及精细的触觉、力度和空间判断,这正是当前机器智能的盲区。

看似“玩耍”的训练,实则是在锻炼机器人的“大脑”,这关乎它们能否在工厂进行精密装配,能否真正融入人类生活。吴祖煊憧憬着:“大脑”发达的机器人,有望颠覆未来的工业场景。

“中国产业链和应用场景极其丰富,这意味着我们在数据资源方面拥有独特优势。”吴祖煊介绍,目前团队已与行业头部企业等展开合作,采集真实产线数据。他预言,未来3-5年,机器人有望在精密装配领域大显身手,真正成为人类的得力助手。

从产业界跨向学术界,

只因热爱自由研究

chatgpt、豆包、sora……近几年,人工智能(ai)无疑是科技领域最火热的关键词。社交媒体上,ai生成的视频已然铺天盖地。

“今天人工智能行业的发展,应该是所有从业者都没有想到的。”从学生到科研工作者,吴祖煊十余年一直扎根于计算机领域,专注于计算机视觉和深度学习研究。他的团队在ai领域中取得了很多突破性工作,产出的开源数据集、模型等,已经悄然运行在了华为、字节跳动等企业产品中。

选择计算机专业,深耕人工智能领域,似乎是一名理工科“学霸”的标准进阶之路。但驱动吴祖煊的,并非追寻热点,而是那份自幼萌发的纯粹兴趣。

“我大概在小学三年级就开始接触编程了,”他回忆。小学时有电脑课,跟随指令在屏幕上画图的“小乌龟”,启蒙他进入代码世界。到了初中,他已开始自学制作网页,捣鼓flash动画,电脑对他而言,是一个能创造无限可能的奇妙工具。

2009年,他考入华东师范大学。2013年进入复旦大学读研,恰逢深度学习浪潮兴起,他成为最早将深度学习应用于视频分析的研究者之一。


2018年参加国际计算机视觉与模式识别大会(cvpr)并讲解论文

此后,他远赴美国马里兰大学攻读计算机科学博士学位。期间,他专注于动态神经网络加速研究,通俗来说,就是让计算机“几分钟看完一部电影”——通过理解几帧画面便能快速掌握长视频内容。

他曾先后在ibm、salesforce和facebook等顶尖科技企业实习和工作。然而,产业界的环境和节奏让他感到了研究受限——经济向好时,公司愿意在研究领域投资,鼓励大家自由探索;一旦形势变化,研究领域的投资就会收缩。他渴望的,是能始终追随兴趣,在计算机前沿研究的无人区自由行走。

于是,吴祖煊做出了一个在旁人看来有些“任性”的决定:回国找教职,并且只向复旦大学投出了一份简历。“没想过去其他院校吗?”“没有,只考虑了复旦。”问及原因,他笑着回应:“可能纯粹就是一种感性。”

这份“感性”,或许正来自于母校给予的归属感。2021年,他如愿回到复旦。他在复旦找到了科研的快乐,既能自由探索前沿,又能将创新的种子通过教导学生播撒出去。


今年3月,复旦成立可信具身智能研究院,专注具身智能的前沿研究与应用落地,吴祖煊是核心成员之一。“复旦为青年老师提供了很多支持,包括各类基金项目、卓越人才支持计划等。在这里,我们能够专心做科研。”他说。

精益求精做科研,

开拓具身智能的未来

吴祖煊的个人主页上清晰写着:“我目前正在寻找具备强大编程能力、热衷于设计视觉理解算法的学生”,邀请能力卓越的学生加入他的课题组。而为了培养好“后浪”们,他也不遗余力给大家提供更好的平台。

“精益求精”,始终是吴祖煊践行的科研理念。他对论文的要求很高,绝不浅尝辄止。面对学生交上来的课题,如果有值得深入的地方,他就会鼓励学生继续“挖一挖”,把论文整体质量再往上提高一个层次。


2024年带领学生参加国际计算机视觉与模式识别大会(cvpr)

正是在这种理念的浸润中,吴祖煊团队的研究工作硕果累累。今年10月,计算机视觉领域顶尖会议iccv在美国夏威夷举办,吴祖煊团队多篇文章经专家严格评审后被录用。

如今,吴祖煊带了多名博士生在具身智能前沿领域开展研究。几年来,每周至少一次、每次半小时以上的一对一式组会,已成为他们课题组的传统。吴祖煊喜欢与学生深入讨论,而非频繁开大型组会。在他看来,只有坐下来面对面,才能真正听懂每个人在琢磨什么、卡在哪里。这种方式让他能摸准每个学生的脾气和思路,为他们量身定制培养方案。

对待基础扎实的学生,他会鼓励他们自由研究探索;对待进度较慢的学生,他会主动推一把,协助他们规划研究路径。他的办公室随时对学生敞开,只要学生有问题,随时都能与他交流。


“吴老师对我的帮助很大,”即将毕业的博士生陈昊然分享,刚读博时,他在去企业就业和做学术之间摇摆不定,“我找吴老师聊了很多次,他一直引导着我、鼓励我尝试走适合自己的科研道路,告诉我怎么样去成为一个好的科学家。在他的影响下,我慢慢确定下来要去做科研。”

“实际上,具身智能现在还在一个比较早期的阶段。”吴祖煊期待,团队未来能够生成并提供更优质的数据,更精准地控制机器人并预测动作,更能让一个模型在不同场景下支撑不同机器人本体完成各种精细化的动作。

随着机器人的智能化水平越来越高,吴祖煊有着更宏大的想象:“下一代人工智能,或许能够像孩子一样,跟环境进行交互学习,实现自主学习。”而他,正像一位陪伴孩子“长大成人”的家长,在为机器人“注入智慧”的漫漫长路上,以一颗赤子之心,坚定不移地求索着。

组 稿

校融媒体中心

文 字

殷梦昊 邓晗

图 片

李婉菲

郑艺

责 编

殷梦昊

上观号作者:复旦大学

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。