“云天励飞加码AI推理芯片,抢占第四次工业革命首张入场券。”
作者丨刘伊伦
编辑丨包永刚
7月30日,云天励飞发布公告,公司已向香港联交所递交了发行境外上市股份(H股)并在主板挂牌上市的申请。这意味着,继2023年登陆科创板之后,云天励飞正迈向“A+H” 双重上市的新阶段。
招股书显示,云天励飞是中国首家实现国产高算力AI推理芯片商业化的公司;同时,也是全球范围内第一批推出NPU驱动的AI推理芯片,并实现市场化落地的企业。
根据灼识咨询报告,按2024年中国市场相关收入统计,云天励飞是中国排名前三的行业领先全场景AI推理芯片产品及服务提供商;在NPU驱动的AI推理芯片产品及服务提供商中,公司排名中国第二。
雷峰网在2014年云天励飞成立之初就开始关注这家企业,自主创新和与时俱进一直是它的代名词。
“全自研、国产化”,在2025 WAIC云天励飞的展台上,摆放着采用国产工艺及首创“算力积木”架构打造的深界DeepEdge10系列芯片。
作为最早将并行计算处理器带回国内的一批人,云天励飞始终深耕NPU研发,从架构设计到场景适配持续突破技术限制。
2020年,在被美国限制之后,云天励飞率先将芯片生产切换至国产工艺,至此,“全自研、国产化”的体系正式形成。
深界DeepEdge10系列产品的打造,代表陈宁此前的选择都对了。大模型进入大规模应用落地的浪潮之下,云天励飞进一步聚焦业务,押注AI推理芯片。
“云天励飞将进一步加大在AI推理芯片领域的研发和投入,推动中国抢占第四次工业革命的第一张入场券。”陈宁在2025 WAIC期间演讲时说道。
陈宁的表态绝非空言,云天励飞已通过战略调整将公司业务聚焦于AI推理芯片,构建“1+N”业务架构,“1”即整体定位为AI芯片公司,“N”则是公司11年来积累的N个独立业务板块(内部称BU),包括AI硬件品牌噜咔博士、智能穿戴、智算BU、政企BU等,这些BU共同为AI推理芯片平台提供上下游支撑。
自研AI芯片,刻在云天励飞的基因里。这家11岁的企业,为何选择这条“最有挑战性”的道路?在巨头林立、创业公司扎堆的AI芯片赛道中,云天励飞优势何在?
01
最早把并行计算处理器带回国的一批人
三获吴文俊人工智能科学技术奖 成为百亿市值的“科创板AI芯片第一股” 推动设立超千亿规模的产业基金 ...
11岁的云天励飞创造了无数的高光时刻,而故事的开始,还要从陈宁在美国的经历开始说起。
2001年,陈宁进入顶尖研究型大学佐治亚理工学院攻读电子工程博士学位,当时著名移动通信专家斯图伯尔教授(Gordon L.Stüber)是学院的关键技术领头人,在他的带领下,OFDM(正交频分复用)技术实现了突破。
OFDM的核心是把高速串行数据拆成多路并行低速数据,其并行处理逻辑与芯片设计中通过多核实现并行算力的逻辑存在相通性,无论是4G通信的海量数据,还是AI推理的千亿参数,本质上都需要高效的并行处理能力。这让陈宁能够更深刻地理解芯片设计。
4年后,还未毕业的陈宁就被当时的通信巨头“预订”担任高级系统架构工程师。
进入公司,陈宁领到的第一个任务是设计并研发第四代移动通信(4G-LTE)多模态终端基带芯片,原先从事算法工作的陈宁被委派去参与处理器芯片的工作,这让他有点摸不着头脑。
在当时的技术演进趋势下,公司的安排不无道理——让懂通信算法的人来做通信芯片。
2G和3G之后,4G标准开始制定。与此同时,蓝牙、WiFi及UWB等多种短距离无线通信技术也在并行发展,这些不同场景的无线技术标准共同构成了多元化的无线通信体系。
4G实现了并行数据量的激增,而OFDM作为4G的核心技术,最大特点正是通过多子载波并行传输提升数据吞吐量。
彼时,OFDM推动了通信芯片在并行信号处理上的技术演进,而与之形成技术呼应的是,英伟达较早布局的GPU多核并行计算,二者分别在无线通信与通用计算领域探索了并行处理的技术路径。
这段经历让陈宁深刻理解,芯片不是简单的硬件设计,而是要让算法和硬件结合设计。
4G终端原型系统的搭建,让陈宁作为首席代表参与4G-LTE国际标准制定,在这期间,陈宁见证了华为、中兴及中国移动等中国企业代表从最初只能在外围旁听,到位置不断靠前,最后是参与国际标准的制定。
中国企业发展迅速,赴美的第九年,陈宁恰遇国内通讯巨头在美国组建研发中心。
2011年,陈宁承接了一个重大专项,这个专项,或是国内第一个关于并行计算处理器定义的重大专项。
可以说,陈宁是最早把并行计算处理器带回国内的那一拨人。
5年间,陈宁提交了近百篇专利申请,完成了核心IP及应用芯片的全流程专利布局。此外,陈宁团队推出了全球第一款基于软件定义无线电的4G-LTE终端芯片、设计出一系列拥有全自主知识产权的矢量处理器,实现国有处理器0的突破。
求学过程中主攻算法,进入职场后,陈宁的重心转向硬件处理器,这样的成长经历让他很早就积累了算法与硬件结合的经验,为后来云天励飞推动算法芯片化埋下了伏笔。
02
自研NPU让 「深目1.0」顺利上线
过往的经历让陈宁对国际巨头的动作一直保有敏锐的注意,谷歌跟百度抢Hinton的团队、4亿美金收购DeepMind、AlphaGo战胜人类最强棋手,深度学习领域一个个颠覆性的变化挑动着陈宁的神经。
深度学习是能把矢量处理器这个技术路径完全发挥出来的领域。那我们何不针对深度学习去完全定义一套指令集?
跟多位业内人士聊完之后,陈宁觉得创业不能再等了。
2014年,云天励飞创立,正式投身NPU研发;而这一时间节点,恰好也是中国NPU产业的兴起之时——寒武纪、深鉴科技等企业纷纷成立,共同开启了NPU研发与商用的探索之路。
陈宁开发的第一个项目便是“深目”,打造“深目”系统所涉及的底层芯片研发让这个创业公司倍感压力。芯片是一个重资产、慢回报的生意。在2014年,AI还处于发展初期,一家初创公司说自己要做AI芯片,在投资人看来,无疑是“不切实际”。
但陈宁仍然坚定地选择走这条路。
深目1.0上线后,软硬件运行顺畅,最担心的系统卡顿也没有发生,全球第一套人脸动态识别+大数据检索的智能技术正式运行。
后来,陈宁向我们讲述到:“神经网络处理芯片一直是我们内部的一个核心团队,2016年,我们第一代神经网络处理器在FPGA上实现,今天可能还跑在龙岗公安分局的机房里,我们两台Nova100指令集的服务器替代了几十台CPU服务器。”
NNP100支持下的深目系统获得成功,让云天励飞在三四年间,从几个人和一间办公室成长为拥有近千员工的人工智能标杆企业。
03
切换国产工艺成功流片
Nova100只是开始,芯片研发让云天励飞的团队饱受“折磨”。
当时美国还没有开始大规模地打压制裁中国科技企业,要用芯片,直接进口是许多企业的选择,但陈宁还是想自己做出专为深目系统打造的嵌入式视觉AI芯片。
2018年,美国封锁芯片出口,同时,云天励飞推出DeepEye1000视觉分析SoC芯片,与通用GPU相比,DeepEye1000单位性能提升20倍。
2020年5月,云天励飞被美国商务部纳入实体清单。这意味着云天励飞在采购含美国技术的产品及使用相关技术工具时将受到严格限制。
这是云天励飞面临的又一次大考,公司需要回答一个关键问题:继续在境外流片还是切换成国产工艺?
“2020年国产工艺其实不太成熟,绝大部分公司在选择工艺的时候,首先选择的一定不是国产工艺。但也是在那一年,公司决定切回国产工艺。”云天励飞CTO李爱军说道。
国产工艺因为良率的问题,每次流片的芯片面积不能太大,且还面临算力密度的限制。
国产工艺的限制倒逼出云天励飞的架构创新,其首创了“算力积木”架构以解决国产工艺带来的挑战。计算单元像乐高块一样组合,可实现算力的灵活扩展、在国产工艺限制下拼出大算力的AI推理芯片。
2022年,云天励飞在国产工艺突破上迎来关键里程碑,自主设计的新一代边缘计算芯片DeepEdge10系列SoC采用国内先进制程工艺成功流片。
2023年,云天励飞登陆科创板。
04
聚焦AI推理芯片,做难而正确的事
上市,让云天励飞走向新的篇章,更大的舞台让陈宁有底气和决心去冲击AI芯片研发事业新的高峰。
战略聚焦AI芯片,不是一句口号,而需要大量的资金和时间投入,更需要对这件事能成的笃定。
《英伟达之道》所记录的案例,恰是历史给出的佐证。
英特尔曾为迎合华尔街的预期,拒绝采用Arm架构和GPU。
2006年,英特尔启动的Larrabee GPU项目因固守x86架构,造成功耗与成本高企,最终在2010年因 “无法实现预期利润”黯然终止。
同期,英伟达于2006年推出CUDA,尽管连续多年亏损,黄仁勋仍执意深耕。
Alexnet的问世,进一步激发了黄仁勋对人工智能的热情,几位关键副手都反对进一步投资深度学习的情况之下,黄仁勋仍然力排众议,坚持“All in AI”。
最终在AI浪潮之下,英伟达成为全球首家市值突破四万亿美元的企业。
推动云天励飞全面聚焦AI芯片,或许也需要巨大的决心和坚持。
一个芯片研发团队需要10多个子团队,各个团队每天磨合十几个步骤,投入大、风险大。
“有时候一个BUG就毁掉你一年的付出,上亿的资金打水漂。”陈宁说到。
但AI芯片,是“不得不”做的事。
推理市场处在爆发前夜,今年6月,AMD CEO苏姿丰在新品发布会上指出,AI推理计算需求未来几年将以每年80%以上的速度增长,成为AI计算的最大驱动力,且数据中心之外,AI也将部署在每个边缘系统中。
对此,巨头们动作频频。
英伟达的Blackwell Ultra GPU和下一代架构Vera Rubin都强化了推理能力。AMD则发布Instinct MI350紧随其后。
云天励飞也在加速奔跑。
推理市场和应用深度绑定,未来AI会在云、边、端无处不在,在陈宁的规划下,云天励飞推出对应这三个领域的产品系列:深穹、深界及深擎。
云端推理加速领域,云天励飞推出了基于国产工艺打造的深穹X6000推理加速卡,拥有超大显存、超高显存带宽算力比以及卓越的编解码能力,能够为大模型推理、图像语义理解等任务提供高推理性能、高性价比的加速卡硬件产品。基于深穹X6000 Mesh加速卡,云天励飞推出了各类推理一体机,可满足各类场景、不同推理任务的需求。
据悉,云天励飞已经在与潜在大客户沟通,此外,下一代大算力推理芯片也即将于明年流片。
边缘计算领域,十余年的产品实践,让陈宁与团队积累了大量技术Know-how,这是云天跑得最快的领域,在高密度视频智能分析、轻量级大模型(蒸馏模型)推理等典型场景中,云天励飞已落地多个示范项目。
端侧最具想象力的是具身智能,得益于与十余家头部机器人厂商合作的建立,云天励飞的边缘芯片产品应用于服务型机器人已进入实际部署阶段。
2023年,DeepEdge10进入量产,至今一年多的时间里,DeepEdge10已经按照陈宁的设想,在一体机、边缘盒子、无人车及无人机等场景中,有序地实现了规模化落地。
技术还要往前跑的,李爱军告诉我们,第二代算力积木架构正在研发,将在新型计算、近存计算、NB-Mesh新型互联、新型封装、NB-link通用扩展性等方面实现迭代,满足模型对于极致推理效率、能效比及性价比的需求。
定义指令集、打造处理器生态以及十余年的NPU赛道技术沉淀,都是云天励飞做好全自研国产工艺芯片的底气。另一份厚重的家底,是公司战略投资闪极科技、神州云海、智慧互通、臻识科技等下游公司,以及11年来攒下的客户群。
“AI推理芯片成本降低,AI大规模应用就会形成良性的产业循环,所有的技术发展路径都是这样,今天,全世界产业里面最重要的便是打造高性价比、面向各类场景的AI推理芯片。”陈宁说到。
大变革时代,陈宁带着云天励飞奔向属于他们的下一个故事。