当前位置: 首页 » 资讯 » 新科技 » 正文

九章云极COO尚明栋:算力利用率不足30%,根源在于「堆硬件」而非「重运营」丨智算想象力十人谈

IP属地 中国·北京 编辑:柳晴雪 雷峰网 时间:2025-09-02 20:24:51


AWS曾主动降价12次,云大厂在智算产业竞争中并非绝对安全者。

作者丨刘伊伦

编辑丨包永刚

“行业内平均算力使用率不足30%,大量算力闲置浪费。”

“消纳难”已经成为整个算力行业的通病,除了为头部互联网公司定制化供应算力的大型AIDC厂商,绝大多数智算中心都在面对同样的困境。

造成大规模算力闲置,除了供大于求之外,裸金属租赁的商业模式本身也存在无法规避的弊端。九章云极COO尚明栋认为,裸金属租赁意味着锁定两样东西:时间与资源边界。为了覆盖前期建设和硬件采购成本,算力租赁企业往往倾向于“整租长租”,这就使得资源消纳完全由单个主体决定,无法开放给其他企业使用。

从经济角度来看,这种模式只适合少数拥有大规模模型训练需求的厂商,而这类厂商数量有限,市场需求容易饱和。一位行业人士曾直言:“大厂都有自己的圈子,外部企业很难进入供应链,拿不到订单。”在技术能力和客情关系都不足的情况下,盲目建设的算力集群往往无人问津。即便推理算力需求迎来爆发,这些厂商也难以应对零散而弹性的算力需求。

算力作为基础设施本质上是一种运营型的生意,而不是一次交付就结束的产品。算力项目的核心价值在于持续被使用和消纳。”尚明栋说道。如何做好算力运营?更多方式与手段,欢迎添加微信YONGGANLL6662互通有无。

这并非空谈。

尚明栋曾在微软担任服务器高可用集群和文件系统的核心开发工程师,参与Windows 7、Windows 8研发,同时也是SMB 3.0(网络文件共享协议)的主要拟草人之一。

在微软,他亲眼见证了操作系统如何统筹硬件资源、管理软件生态,并通过标准化接口让开发者能够高效利用底层能力。这段经历让他意识到,算力运营同样需要这种思路:它不是单纯交付算力的项目,而是要像操作系统一样,统筹硬件、定义软件、孵化生态,才能真正优化成本和效率。

2013年,方磊和尚明栋联合创立九章云极DataCanvas。尚明栋现担任COO,负责人工智能基础设施的软件架构、团队管理以及智算产品创新,打造了Alaya NeW智算中心操作系统,并定义了“一度算力”(一种标准化的算力量度单位)的标准。

这套系统不仅体现了他对算力运营的理解,也成为了公司在市场中探索新商业模式、应对行业挑战的重要工具。

算力行业的狂热期已过,留下的,是市场的收束与沉淀。曾经风头无两的大规模算力建设和裸金属租赁,会否成为历史?当推理算力需求迎来爆发,智算云平台能否在混沌中开辟新的发展路径?在大厂环伺的云计算市场中,创业公司又能否找到突围之道?

以下是雷峰网和尚明栋的对话,为便于理解,访谈内容经编辑:

01

智算中心操作系统:统筹硬件、孵化生态,实现算力成本的极致优化

雷峰网:在算力行业的发展过程中,出现了包销承诺、项目套利、股价炒作以及补贴套取等现象,您如何看待这些问题?

尚明栋:算力行业作为新兴产业,在探索与发展过程中不可避免地会经历试错。但不同背景的团队在试错方向上存在差异:传统IDC团队与AI Infra团队的着力点并不相同。当前出现的虚假承诺、项目套利等问题,本质上源于产业在政策、监管和商业模式上的不成熟,许多企业也因此更倾向于追逐短期利益,而非推动行业的长期健康发展。

对于传统IDC厂商而言,其主要诉求是尽快找到新的盈利模式,但往往延续了“堆硬件”的思路。在智算时代,这种方式带来巨大的资金压力。

对于AI Infra厂商而言,国内算力需求主要集中在大模型的训练、推理、微调和开发,因此算力的价值并不仅仅体现在计算能力,而是“算力+存力(存储)+运力(网络)”的综合体现。如果不能意识到这一点,就会导致智算云或智算中心在组网方案与算力消纳上的不合理,进而在运营过程中产生瓶颈和问题。

雷峰网:不少智算云都提出“算力普惠”的目标,实现算力普惠的关键是什么?

尚明栋:实现算力普惠主要有两个方面,一是算力的使用成本低,二是调用算力的技术门槛低。

算力是继交通、能源和通信之后的第四大基础设施,这些基建在不同的历史阶段都支撑了某个行业甚至全球产业的发展,大规模的使用意味着算力必须降低成本。另一方面,不依赖于专业的技术人员,普通人也可以调用算力,像使用电力一样,其实你只需要一个非常标准化的插头,就可以使用。

此外,算力作为基础设施本质上是一种运营型的服务,并不是拿下一个项目然后交付完就结束了,算力项目所提供的算力服务应该被持续的使用和消纳。

雷峰网:您说算力本质是运营型的生意,这个运营模式是由什么来支撑和实现的?

尚明栋:是由智算中心操作系统支撑实现的。提到操作系统,最先想到的是Windows和Linux,智算中心也需要一套操作系统,所以我们推出了智算中心操作系统“Alaya NeW”。

操作系统有两个最核心的能力:一是向下管理硬件资源的协同,包括GPU、网络、大容量存储、闪存以及缓存调度,这样才能真正实现“算力+运力+存力”综合体现的算力服务方案。 在Windows系统里,屏幕、键盘、内存及所有的外设都是硬件,对其进行管理协同调度,是操作系统最基本的能力。

另一方面,向上提供大模型工具链,包括训练框架、开发套件、推理平台及强化学习平台等,这些工具链用于降低开发者的门槛,并且以此提高用户的粘性,支撑人工智能应用生态的落地。社区愿意在这个平台上去开发出针对行业的应用,这对操作系统而言才是价值最大化的。

对硬件的纳管以及弹性算力的调度,最终会体现为算力成本的极致优化,向上对生态的支持则最终体现为降低开发的门槛和壁垒,以此形成稳定的上下游合作伙伴的关系。

02

从“以租代建”到“即用即付”,算力会迎来零售时代吗?

雷峰网:为什么行业会出现两种看似矛盾的声音,一种认为算力大规模的闲置,另一种则觉得可负担的算力供给不足?

尚明栋:认为算力过剩的,多是指望“堆硬件”然后能立刻租给大模型厂商的运营方,但现实是,具备强大消纳能力的大模型厂商数量极少,这部分市场很容易饱和。而这些单纯“堆硬件”的运营方,又没有能力去承接市场上分散、碎片化的需求,于是乎就出现了两种看似矛盾的声音。

大量行业对算力的需求是灵活弹性的,需要九章云极这样可以将算力进行灵活调度的智算云服务商。

雷峰网:您提到对算力成本的极致优化,那比如一台8卡H100服务器目前的月租价格是5.5万元,九章云极的智算云按照Token用量或者算力使用时长去计费,对客户而言会有明显的价格优势吗?

尚明栋:九章云极的算力按算量计费,单纯按价格看,零售的价格很难低于批发的价格。但考虑到行业内平均的算力使用率不足30%,大量算力存在闲置浪费,通过再利用这部分资源,九章云极整体带来的效益就优于市面平均水平。

按Token计费也类似,但前提是按Token计费必须运行大模型,很多用户会使用不同的大模型或垂类模型,导致按照Token计算很难标准化,除非用户只使用单一模型,所以DeepSeek或豆包这样的平台才可以做到,因为它们提供统一的大模型服务。此外,实际使用中,用户可能将算力用于生成图像、模拟或数字人等不同场景,使用的方式也存在差异,因此需要以更底层的浮点运算量来衡量。

雷峰网:九章云极如何设计浮点运算量的计费模式?

尚明栋:九章云极定义了“一度算力”作为对外销售算力的最小计量单位,它衡量的是特定时间内完成的浮点计算量。这种按用户实际消耗的计算量计费的方式,核心价值在于确保客户只为真正使用的算力付费,有效避免了传统裸金属模式中因资源闲置造成的浪费。

裸金属模式意味着会锁定两样东西:一个是锁定时间,另一个是锁定资源的边界。

客户选择按时间去付费租用裸金属服务器,运营商其实并不关心客户把机器用到冒烟还是放在机房里面落灰,因为客户已经支付了费用。对于客户而言,成本已经支出,那么使用率越高越划算。但是,实际上行业内算力的平均使用率低于30%,这就意味着70%的裸金属算力资源是浪费的。而这些浪费的算力其他企业也没有路径去使用,这就造成了算力的闲置问题。

按算量计费的模式打破了对算力时间和资源边界的锁定,但对于我们而言会有非常大的考验:我们的智算云通过serverless架构对客户提供按算量计费模式,这意味着客户的算力浪费被极大的削减

所以相比于裸金属租赁,按算量计费的单位算力单价会更高。九章云极的价值在于,通过软件技术实现灵活、弹性的算力调度,整合碎片化的需求,从而最大限度提高算力的使用效率,最终降低客户的总成本,而九章云极又能在高效利用资源的过程中与客户分利,获得合理的受益。

雷峰网:按照运算量计费能实现算力的高效使用,是不是意味着这种模式就是比裸金属租赁更有优势?

尚明栋:不能一概而论。我们也服务一些拥有强大技术团队、能够长期保持高GPU利用率进行大规模训练的客户。对于这类持续、稳定且高负载的需求,传统的裸金属租赁模式在成本上可能更具优势。九章云极尊重不同客户的算力消纳模式和成本考量,因此我们可根据客户需求,提供不同算力模式服务。

雷峰网:市面上的算力设备有很多型号,您们会根据不同的型号去设置不同的算力价格吗?

尚明栋:不会的,九章云极的定价非常标准化,我们采用按实际消耗的计算量计费的模式(按算量计费),这种模式的单价设计会综合考虑资源利用率提升带来的成本优化,目标是让客户在整体使用成本上更具优势。这类似于电力计量中的“一度电”,旨在为用户提供清晰、标准化的算力消耗衡量标准,实现算力使用的“即用即付”和成本透明化。

雷峰网:那是否可以说,九章云极也具备提供大规模算力集群服务的能力,可以去做头部大客户的生意?

尚明栋:理论上是可以的,但九章云极的核心竞争力和差异化优势在于高效服务对“灵活弹性算力有强烈需求”的客户群体,这通常体现在百卡级、十卡级乃至更小颗粒度的算力服务需求上。当然,对于大规模、长期稳定的算力需求,我们同样具备提供裸金属租赁服务的能力,但我们相信,通过云化、精细化的运营释放碎片化算力价值的模式,是提升行业整体效率、实现算力普惠的关键路径。

雷峰网:服务大量的弹性算力客户,就要求有庞大的算力资源池,九章云极的算力资源池是如何规划的,自建还是于其他智算中心进行合作?

尚明栋:九章云极采用多元化的算力资源池构建策略,包括与战略投资伙伴合作。由合作伙伴提供资金支持,九章云极则专注于利用自身的技术优势和Alaya NeW操作系统,进行高效的算力集群建设和运营管理,确保资源池的高效利用。

九章云极的建设主要是把硬件算力设备变成能线上云化算力服务,覆盖组网方案、存储方案,安全方案以及算力操作系统部署等环节。运营其实就是平台运维保障和算力消纳,建设要服务于运营,不是简单的第三方组网和堆硬件然后再交由九章云极运营,大多数第三方的组网方案很难达到“对外进行云化服务”这一要求。

雷峰网:为什么说很多组网方案达不到这一要求,有遇见实际的失败案例吗?

尚明栋:根据智算中心的规划要求,从硬件配置、计算、组网、存储,到安全设计协同,是一个非常专业的架构设计到实施的过程。组网方案需要满足九章云极的Alaya NeW OS的部署,能去跑一些Benchmark,获得比较高的跑分,这堆算力的利用率可以达到一个很高的比值,绝大部分仅凭裸金属进行简单的链接组网是做不到的。

比如有的集群用了IB组网,但为了降低成本只配了两个网口,而如果需要进行充分交换,至少需要4-8个网口以及三级缓存,才能在推理或者训练的时候通过增加存储的吞吐来提高效率,避免由于存储的瓶颈耽误了对计算性能的发挥,这很不划算,因为存储的成本低,计算的成本高。

所以如果九章云极去接手第三方建设的集群,就需要改造和投入,这还不是一个标准化的方案就能服务的,需要千人千面去改造,这会极大的消耗我们的专业团队,因而九章当前只运营我们自己建设的智算中心。

雷峰网:所以九章云极不会对外去输出这套建设和组网的方案。

尚明栋: 九章云极当前是建设和运营一体化为主,但也可以由九章云极单独做建设或运营。如果九章云极只做运营,需要按照九章云极的组网方案去建设。第三方公司可以按照九章的方案,在其自己的供应链采购硬件,但要形成标准化的交付。

还有一种是九章云极只做建设,不做运营。很多大型集团下面一二级的子公司有上百家,建设算力资源主要是用于集团内部使用,运营不用我们来负责。

03

AI Infra竞争格局:大厂云环伺,性价比与生态化成突围关键

雷峰网:有业内人士认为,智算云服务的技术路线收敛之后,营收规模才是核心竞争力(因为能获得客户反馈,从而进行技术迭代),那面对大厂九章云极怎么去竞争?

尚明栋AWS在2011-2013年间每年降价12次,因为微软、谷歌等强劲对手入局挑战。AWS有技术领先性,因为他们做电商出身有工程化的积累,也有客户资源的积累,像AT&T都搬到了AWS的云上,但它还是需要去主动降价。所以这些所谓的优势体现到云最终的竞争力来说是成本,性价比要足够高,大厂同样需要朝着极致的性价比去发力。

在智算云里,能够和大厂进行竞争,就需要形成规模化的生态,生态化才是护城河,这背后可能是技术能力、行业拓展能力、生态融合的布局等因素,但体现到最终是“生态的规模”。朝极致的性价比发力,就有机会形成“成本-需求”双向驱动效应,在这样的算力基座上,客户的需求更容易积聚并衍生出完整的人工智能生态。

另一方面,AI的发展离不开数据,数据的本身具有粘性,这种粘性来自于两个方面:一是数据迁移的成本,二是数据与上层工具链的绑定。如果工具链足够好用,用户就能在数据导入后快速完成模型微调并上线应用,运维成本也随之降低。在这种情况下,用户就没有动力迁移,由此形成长期的依赖与粘性,进而带来可持续的收入。

真正有价值的是围绕核心业务形成的营收规模。更重要的是在这个领域里,依托规模效应形成生态化的领先。

雷峰网:您觉得智算云平台存在的价值是什么,好像只是一个对接算力供需双方的角色?

尚明栋:智算云平台的价值在于,可以解决传统云计算在处理AI任务时面临的算力调度低效、弹性不足等问题。智算云通过异构算力资源池化和智能调度技术,实现算力资源的动态分配与高效利用。与通用云厂商相比,九章云极的核心差异在于为AI计算负载量身定制的高性能操作系统(Alaya NeW)带来的极致效率。Severless的架构,本质是将浪费的算力使用起来,从而降低成本。九章云极不是简单的将资源池虚拟化,而是通过技术创新消除虚拟化损耗,实现任务级细粒度调度,并且深度集成AI工具链,最终目标是在按算量计费的模式下,让客户在单位有效算力(真正用于AI计算的FLOP)上获得更优的成本效益,并享受更匹配AI作业需求的资源调度灵活性。

这是对“云化”在AI场景下的深度演进,即按算时或按算量收费。无论是大模型训练还是科学计算模拟,底层本质都是计算,即每秒能完成多少万亿次浮点运算。

云化是人工智能生态中专业分工的一个手段,专业分工是新质生产力的一种体现,一个主体不能把整个产业链所有的业务环节都做了,既要做算力运营,又要做基础模型和微调服务,还要负责最后一公里的应用开发。这其实是20年前信息化落地的时候,系统集成商的做法,其结果就是产业链上的参与者在重复造轮子,整体的质量和效率也比较低下,缺少标准化和高质量,云化是更尊重生态分工和生态合作的选择。

雷峰网:整个算力行业都非常关注推理需求爆发的时间节点,您对此有预判吗?

尚明栋:从不同视角出发,可能会得出不同的判断。就我们观察,今年上半年算力使用中,训练算力占比超50%,但推理算力占比正快速上升,这一趋势处于预期之中。因为模型的价值并不止于一次性训练,而在于长期通过微调和推理被反复调用、不断产生应用,这才是真正的价值体现。

随着人工智能加速进入各行各业,其应用基础在持续扩张,并且目前很多垂直行业,对大模型的依赖也日益加深。这意味着推理算力的深度消纳将持续增加。随着AI在行业内的深度渗透和应用场景的爆发式增长,推理算力需求将在未来几年迎来极其强劲的增长,其增速和规模潜力远超训练算力。尤其在中国市场,由于产业链完整、行业门类齐全、应用场景丰富,中国在全球范围内具备最强的推理应用落地基础。

雷峰网:那应对即将爆发的推理需求,产业链呈现出怎样的趋势,参与者们又需要如何适应变化?

尚明栋:未来几年内推理算力将迎来数量级的跃迁,产业和技术层面不可避免地会面临挑战,有几个趋势值得关注:

第一,算力利用效率要做到持续提升,当前平均算力利用率不足30%,如何尽快提升至40%、50%甚至更高,这是九章云极重点投入的方向。

第二,当前,许多国产芯片厂商选择优先发力推理芯片市场。这确实带来了异构计算的挑战,但同时也为算力生态的多元化发展提供了重要机遇。我们会在Alaya NeW操作系统中持续投入对国产芯片等异构算力资源的优化调度和管理能力,以更好地支持多样化的推理需求。

我们关注的异构计算和云边端协同,具体表现为:训练更多依赖云端,部分重度推理或弹性需求大的场景也会采用云化。而在远端或野外等场景,则以端边推理为主,训练或微调仅作补充。原因在于训练需要高度密集的算力和显存,成本昂贵,而端边更适合承担推理及小规模微调。关键在于如何打通“最后一公里”的端边云协同效率,这涉及到算力网络的设计和优化、异构框架适配以及多模态融合等问题。

从应用价值来看,目前大模型带来最大提升的是代码生成。在内容生成领域,文本、图片、视频等能力已在设计等行业落地,但这仅仅是起点。可以明显看到,人工智能技术的发展正从单一模态走向多模态,未来还将扩展至机器人态势感知、环境模拟以及与强化学习的结合。

多模态是必然趋势,人类本身就是多模态的存在,通过语言、视觉、嗅觉、触觉等感知世界,并在多维信息对齐后形成一致认知和统一决策。人工智能同样会沿着这一路径演进,它有“人类智能”这个老师,因此未来必然走向多模态的融合与感知。

专题介绍

2023年来,智算产业迎来爆发式增长。但两年过去,国内智算企业的生存状态如何?在技术突破与场景落地中做了哪些新探索、又面临什么新挑战?智算行业的未来还有什么想象空间?本专题与一众智算领域的先锋从业者对话,回顾近年智算行业在技术与商业上的拓展实践历程,并展望未来发展方向。即便身处行业气候更迭之际,从业者们凭借智慧与韧性、怀揣对智算未来的坚信,开辟多样化发展路径。对此专题感兴趣的从业者,欢迎添加微信 YONGGANLL6662 共同参与讨论。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。