当前位置: 首页 » 资讯 » 新科技 » 正文

32岁带领千问冲上全球前3,北大校友、阿里最年轻P10林俊旸亲手组建“机器人军团”,AI下一战是物理世界

IP属地 中国·北京 编辑:王婷 Z Finance 时间:2025-11-25 14:07:29

他是阿里巴巴最年轻的P10级技术负责人,也是全球最强开源模型之一——通义千问(Qwen)的核心推动者。他就是年仅 32 岁的AI界领军人物——林俊旸。从北大课堂到达摩院实验室,从算法代码到开源生态,他用十年时间完成了从“让机器懂语言”到“让智能走进世界”的跃迁。

2025 年春,当全行业仍在争论“开源还是闭源”“Agent 还是模型”“具身智能(Embodied Intelligence)是否为下一战场”时,林俊旸已带领团队悄然开启新一轮进化——让智能从虚拟世界走向真实世界,从理解语言到学会行动。

与许多“算法天才”不同,他的成长路径是一条更不寻常但极具逻辑的路线:北大本科学计算机,研究生却选择语言学与应用语言学——不是逃离理工,而是试图回答一个更难的问题:“要让机器懂人类语言、理解人类意图,它首先要学会什么?”正是这段语言学训练,为他后来在大模型语义理解、多模态对齐,以及人机协同智能方向的突破,打下了别人少见的底层逻辑。

2019年毕业后,他没有选择学术,而是进入阿里达摩院智能计算实验室,加入仍处于初期的多模态预训练项目M6。一年后,通义千问立项,他成为核心架构成员;2022年正式升任技术负责人;2024年带队开源Qwen系列,在全球模型排行榜上与GPT、Claude正面交锋;2025年,他又亲自宣布组建机器人与具身智能团队,试图让模型走出屏幕,去“看世界、动手、行动”。

DataFun 2023

从语言学到大模型:一次词汇测试中的AI启蒙

公开资料显示,他在本科阶段主修计算机科学,打下了扎实的算法与编程基础。但在硕士阶段,他选择进入北大外国语学院攻读语言学及应用语言学相关方向。虽然他本人从未在公开采访中解释过为何跨入语言学领域,但不少业内人士认为,这并不是“离开技术”,而是将语言视为理解智能的入口——机器如果要懂人,它首先要懂语言背后的结构、语义和意图。

从那时起,他的研究兴趣逐渐从“语言是什么”转向“语言如何被机器理解”。在硕士期间,他参与多维度文本分类、注意力机制建模等项目,并申请了国家发明专利(CN109582789B),这是他首次将语言理论转化为可计算框架的尝试。外界据此推测,他后来在大模型时代迅速成为核心研发力量,正是源于这种“语言逻辑 + 工程实现”并存的底层思维方式。这段兼具理论与工程的积累,使他在2019年硕士毕业时,果断放弃语言学学术道路,转而投身人工智能研发的前沿领域。

林俊旸领英

入局多模态:达摩院的技术筑基与赛马突围

毕业后的林俊旸径直加入阿里巴巴达摩院,正式开启职业生涯,担任高级算法工程师。当时的人工智能领域正处于技术爆发的前夜。2020年,OpenAI发布GPT-3引发全球热议后,阿里巴巴迅速启动内部大模型研发的“赛马机制”,同步推进两条技术路线:主攻文本的AliceMind,以及侧重多模态融合的M6。凭借“语言学+技术”的复合背景,林俊旸被分配至周靖人领导的智能计算实验室,成为M6模型团队的核心开发者。

这支团队在成立初期规模极小,仅由几位资深工程师和实习生组成,却承担着国内少有的技术挑战——如何让模型同时理解文本、图像等多模态信息,并实现高效训练与落地。林俊旸主导的模型效率优化模块成为关键突破点。他带领小组攻克了大参数模型训练中的资源调度与收敛难题,为M6的快速迭代奠定了基础。

2021年,M6模型迎来三次重要跃迁:1月首发时达到百亿参数规模,5月跃升至万亿级,10月再度突破至十万亿参数,成为当时国内参数规模最大的多模态预训练模型。而支撑这一系列跃迁的核心架构优化,正出自林俊旸团队之手。

2022年,阿里启动AI资源整合,AliceMind团队在内部赛马中出局,M6技术路线被正式确立为集团通用大模型的核心方向。凭借在模型架构设计与工程落地中的突出表现,林俊旸在阿里实现了快速晋升,从核心开发者升任项目主管,主导研发了通用统一多模态预训练模型OFA(One-For-All,一体化多模态预训练框架)与中文预训练模型Chinese CLIP(中文视觉-文本匹配模型),进一步强化了阿里在多模态领域的技术壁垒。而这段早期经历让他切身领悟到“技术需与场景共生”的重要性,也为他后来主导通义千问系列的研发打下了坚实基础。

林俊旸领英

掌舵通义:从旗舰模型到开源生态的战略跃迁

2022年底,阿里巴巴将达摩院的语言、视觉等AI团队整体并入阿里云,成立通义实验室。林俊旸被正式任命为通义千问系列大模型的技术负责人,全面负责核心模型研发与战略规划。他接手时面对的挑战颇具代表性:如何把实验室阶段的技术成果转化为真正可规模落地的商业产品,打破“技术先进却难以应用”的困局。

2023年4月,阿里云正式发布“通义千问”。其底层架构融合了林俊旸主导优化的多模态技术,这也是他在阿里多年来研究积累的成果。但他并未满足于此。两年后,在他的推动下,阿里推出Qwen3系列开源模型。旗舰版本Qwen3-Max拥有超万亿参数和36T预训练数据,在GPQA、LiveCodeBench等权威评测中超越GPT-5、Claude Opus 4,跻身全球前三。

林俊旸在社交平台上写道,团队为此花费近一年时间,攻克了三项核心难题:“让强化学习框架能稳定支撑长时序推理,平衡跨领域数据分布以避免模型偏科,并强化多语言能力以服务全球开发者。”如果说“开源”是通义千问在大模型竞争中撕开的关键突破口,那么截至2025年10月的一组数据,正印证了这步棋的深远影响——阿里已累计开源300余个通义系列模型,从小参数到超大模型全覆盖,囊括文本、图像、视频等多模态能力;下载量突破6亿次,衍生模型超过17万个,中国企业大模型选用率达17.7%,稳居市场首位。

新浪科技

这些成果的背后,是林俊旸主导的“全尺寸覆盖策略”。他深知,大模型的意义不仅在于“做大”,更在于“用好”。针对机器人、手机等算力受限的终端场景,他带领团队在2025年10月推出Qwen3-VL系列,专门设计了4B和8B两个轻量化版本。令人意外的是,这些“小模型”的空间理解能力并不逊色于大模型,一经推出便成为具身智能公司争相采用的核心基座,解决了“终端场景用不起大模型”的长期痛点。

在林俊旸看来,开源并非单纯的代码共享,而是一种面向未来的生态策略。当同行仍在权衡“是否该闭源保密”时,通义千问已通过全尺寸模型布局,把技术的“种子”撒向机器人、移动端等不同场景。随着越来越多企业基于通义进行二次开发,“用通义、改通义”正在成为行业习惯。一条独特的生态护城河也在悄然形成——它不是靠技术垄断维系,而是通过让更多人受益,实现技术生态的自我循环与生长。

真正让外界认识林俊旸的,是2024年的通义千问(Qwen)。那一年,随着多版本模型相继开源、阿里内部AI团队的重组,以及GitHub风波引发的舆论关注,这位原本低调的技术负责人突然站到了聚光灯下。当Qwen项目代码因误标被GitHub“下架”引发外界质疑时,林俊旸亲自出面回应:“团队没有跑路,我们还在,只是组织账号被误标记。”这句话,比任何公关声明更能说明问题——冷静、克制、真实。

X

如今,随着AI行业从“大模型竞速”进入“生态与Agent能力”竞争的新阶段,林俊旸依然站在变革的中心。他牵头整合行业生态资源,聚焦Agent的人机协同能力打磨,将多年沉淀的人文思维与技术经验融入其中,让Agent更贴合真实场景下人的需求。他的经历不仅是个人的成长史,也映照出新一代中国技术人的选择:在喧嚣的浪潮中,以长期专注和清晰目标,走出一条稳健、独立的道路。

跨界物理世界:具身智能的闭环布局与生态构建

2025年10月8日,阿里Qwen团队核心负责人林俊旸在社交媒体上发布了一条简短动态:“已在Qwen内部亲手组建机器人与具身智能小组。”没有隆重的发布会,也没有冗长的技术白皮书,这一句话,足以在科技圈引发震动。它意味着阿里AI战略正式转向——从深耕多年的虚拟智能,迈向以“行动智能”为核心的物理世界。

华尔街见闻

这一步并非仓促决定。自2019年加入阿里巴巴达摩院以来,林俊旸一直站在公司AI研发的最前沿,主导了从语言模型训练框架到多模态系统优化的多个关键项目,是通义千问(Qwen)体系的重要推动者之一。他长期专注于模型架构、跨模态理解与推理能力等前沿方向,其多篇论文发表于自然语言处理顶级会议(ACL、EMNLP、COLING等),并在学术界获得广泛引用。其中,《Scaling Laws for Multimodal Models》在Google Scholar上的引用量已超过千次,成为多模态模型效率研究的重要参考文献。

正是这种从算法到底层应用的长期积累,让林俊旸在通义千问取得阶段性成果后,将目光从“让机器理解文字”转向“让机器理解世界”。在他看来,具身智能是语言模型走出屏幕、进入现实的必然方向。正如他在一次内部会议中所说:“当语言模型真正具备感知与行动能力时,智能的边界才算被重新定义。”

外界普遍认为,林俊旸此举标志着阿里在大模型竞争格局趋稳后的一次主动求变;但对他本人而言,这更像是科研路径的自然延伸——从语言理解到具身智能,从虚拟语义空间到真实世界的动作学习,他始终在追问同一个问题:AI的“智能”,究竟能走多远?

林俊旸清楚地看到,行业正处在从“工具”迈向“Agent”的关键节点。“多模态基础模型不再只是被动的回答系统,而正在成长为能调用工具、依托记忆、通过强化学习完成复杂推理的基础Agent。”他曾在内部总结道,“这样的智能,不该困在屏幕里,它必须走向物理世界——去动手,去行动。”也正是这种对技术趋势的敏锐判断,成为阿里叩开“行动智能”时代大门的底层逻辑。

林俊旸的布局,从一开始就带着“软硬协同、生态闭环”的清晰蓝图,每一步都踩在技术与产业的衔接点上。要让AI在物理世界“行动”,首先得解决“怎么想”的问题。林俊旸主导下的Qwen3系列,正在经历一场“具身化改造”,目标是成为机器人的“核心决策中枢”:

•Qwen3-Max:化身“任务指挥官”。重点强化“复杂任务分解能力”,面对“拆快递—分类物品—摆放收纳”这类需要多步骤衔接的现实场景,它能像人类一样拆解目标、规划流程,确保机器人每一步操作都有明确指令,避免“卡壳”;

•Qwen3-VL:升级“立体视觉中枢”。专攻3D空间感知与动态物体追踪技术——当机器人面对杂乱的桌面、移动的物体时,它能精准定位每一件物品的坐标,预判物体运动轨迹,就像给机器人装上了一双“能看懂空间的眼睛”,完美匹配“视觉大脑”的核心需求。

林俊旸的这套布局之所以能让阿里在短时间内跻身具身智能赛道的核心玩家,关键在于他抓住了行业最真实的痛点。在正式组建团队前,林俊旸带队走访了三十多家具身智能企业,一个意外的发现让他迅速确定了方向:几乎所有公司都在使用Qwen-VL模型做后训练。这意味着,阿里凭借Qwen系列积累的技术优势,已经在行业生态中占据了“入口”位置——当这些企业需要进一步提升具身化能力时,阿里自然成为首选合作伙伴。

更重要的是,林俊旸并没有停留在算法层面的突破,而是亲自推动阿里构建出独特的“具身智能生态闭环”。他主导将Qwen模型的能力延伸至阿里内部的真实业务场景——从淘宝的物流分拣、菜鸟的仓储配送,到制造业生产线上的自动协作机器人——这些场景每天都在持续生成来自物理世界的高价值数据。

按照林俊旸的规划,这些数据会被汇入阿里云,为Qwen3模型的训练与优化提供“养料”;经过更新的通义大脑再反向指挥机器人执行任务;而机器人完成任务后的反馈,又会重新进入模型训练体系,形成一个自我进化的“智能飞轮”。这套机制让阿里从具身智能的“探索者”迅速成长为“核心玩家”,也让林俊旸在公司内部的技术布局中确立了关键地位。从主导Qwen系列研发,到开辟“行动智能”的新方向,他始终坚持“技术先行、生态驱动”的理念,推动阿里完成了从虚拟智能到现实行动的跨越。对他来说,这不只是一次技术升级,更是一次认知转变——让模型真正“走进现实”,去理解、感知并改变物理世界。

Agent时代的“创新-约束”平衡挑战

当AI从“工具”进化为能自主决策的“Agent”,林俊旸深知,技术跑得越快,越需要伦理的“刹车系统”。这既是行业共性挑战,也是他带领通义千问迈向未来必须解答的命题——如何让具身智能在“行动自由”与“安全可控”之间找到平衡点。

他认为,“让机器变聪明”并不难,难的是“让它做正确的事”。为此,他主导团队建立了一套贯穿模型研发全流程的安全机制:在模型训练阶段引入人类偏好数据,确保行为决策不过界;在高风险领域(如医疗、工业)接入专家知识库,为机器人划定“禁区”;所有物理世界的操作都能被追溯,做到可解释、可问责。

而隐私同样是他关注的重点。“技术没有边界,但应用必须有底线”是他常挂在嘴边的一句话。林俊旸推动阿里在菜鸟、盒马等内部场景中采用“联邦学习+数据脱敏”方案,让模型在学习数据的同时不触碰个人或企业的隐私信息。所有新模型必须通过团队内部“AI伦理委员会”的一系列安全测试才能上线。林俊旸始终认为伦理并不是创新的障碍,而是智能走向成熟的前提。

对林俊旸而言,AI的未来不是做出更大的模型,而是让它更“可用”。做大的不是参数,而是可用性;赢下的不是竞速,而是生态。当智能真正能“看见、伸手、行动”时,现实世界将成为它最好的测试场。让机器能动手,去行动——这正是智能拥抱真实世界的第一步。

标签: 模型 技术 智能 核心 机器人 模态 团队 生态 语言 场景 世界 通义 开源 物理 领域 实验室 算法 语言学 关键 文本 来源 图片 行业 负责人 全球 能力 方向 视觉 达摩院 项目 空间 逻辑

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。