当前位置: 首页 » 资讯 » 新科技 » 正文

阿里云,用全栈 AI 刷新第十七个双十一

IP属地 中国·北京 极客公园 时间:2025-11-15 00:08:42


第一个六亿人参与的全栈 AI 超级项目。


作者|Cynthia

编辑|郑玄

电商江湖的风云变幻中,2025 年的双十一故事有些不同寻常。

最直观的变化就是随着大促周期继续拉长,规则却删繁就简,用户参与门槛被极大降低。

同步发生变革的是场景的重构:随着淘宝闪购加入,外卖等即时消费场景与电商的深度融合,大促参与人数进一步提升,据易观分析统计,10 月 15 日天猫双 11 开启当天,APP 日活跃用户(DAU)便攀升至 6 亿,创下历史峰值。

相应的,过往集中于晚间 8 点至 10 点的购物高峰,也正式演变为午间 12 点外卖即时消费、晚间 8 点传统购物的双峰格局,对系统的流量调度能力提出了全新要求。

而在体验侧,今年也是阿里从芯片到云到 PaaS 到大模型,再到顶层 agent 等全栈 AI 能力接入的首个双 11——世界范围内,从未有过如此大规模生产场景 AI 落地。

场景变化,用户量增加,叠加全栈 AI 接入——当双 11 技术备战进入第 17 个年头,其意义早已超越一次促销的技术保障。这既是阿里云一年练兵成功的交卷日,也是在回答一个关于产业 AI 落地、云服务基础设施当下天花板究竟在哪里的终极设问。

01

千万核 CPU 的资源保卫战

今年 8 月左右,淘宝闪购、飞猪、饿了么并入电商事业群,业务联动产生的化学反应远超想象。

原本大家都以为,这次外卖大战,是 9 亿活跃用户的淘宝,作为超级入口降维打击外卖,最终现实却变成了是日订单峰值突破 1.2 亿单的外卖需求,直接在 8 月便拉动手淘日活用户增长 20%。

如果只是业务合并,带来了流量峰值与用户活跃时间变化还只是小问题,但此时,距离双 11 这个电商行业的春晚,只剩短短 2 个月。

是的,今年的双 11,十月下旬就开始了。

两大因素叠加,导致节点激增、互访增多,云基础设施 VPC 内的转发网关(XGW)承载量急剧上升,网元消耗量也呈指数级增长,原本看似充裕的 180 万容量 VPC,可能瞬间就会被推到崩溃边缘,撞墙风险一触即发。

一场无声的基础设施保卫战,在悄然间拉响警报,阿里云技术团队迅速进入战时状态。

摆在他们面前的是两条路:传统的 VPC 拆分方案,就像把一座城市按行政区强行割裂,虽能缓解局部压力,但跨域调用要怎么安排的合理,需要对集团业务需求做一次深度梳理,两个月时间显然不够用。

剩下唯一一条路,就是打造一套没人做过的 200 万 VPC 级联方案。两者对比,前者是重新做市政规划,后者则是把马路升级为飞机跑道,难度同样不低。

阿里云团队骨子里就有一股不服输的劲儿,方案定下第一时间就迅速成立内部组建攻坚小组,一头扎进技术深海。


经过无数次模拟测试与压力验证,团队从软件角度,提出了「云网关级联方案」:在不影响现有业务的前提下,基于软硬协同技术,通过在网关层扩展多级流表、打通超大 VPC 的逻辑互联,使网络容量实现弹性扩张,成功将单 VPC 容量拉升至 200 万,提前化解了双 11 的网络瓶颈。

VPC 瓶颈的突破,如同打开了算力世界的潘多拉魔盒。基于第八代和第九代 ECS 实例的业内首个千万核 CPU 集群得以组网。而通过这个统一资源池 + 智能调度层,算力的精准分配与高效利用得以实现,面对突如其来的流量洪峰,阿里云也成功支撑天猫双 11 和闪购两大业务双峰的丝般顺滑。

同时,随着 CIPU(云基础设施处理器)的不断演进和规模化部署,今年双 11 上线了千万核 CPU 算力,规模的数量级的扩展标志着阿里云基于 CIPU 架构的算力进入了全新的发展阶段。

技术的突破,又进一步换来了双 11 的丝滑购物和下单体验。

前些年,用户参与双 11,尤其是超级热门主播的抢购,偶有不顺畅,例如加购物车却半天无法付款,或者卡在产品页面,没办法选择心仪的尺寸。

但是今年双 11,不仅打开 APP 打开、操作更顺畅,推荐、营销等核心场景性能提升 30%-50%,RT 延时降低更是超 30%,每一次添加、删除操作都能即时反馈。

阿里云,又一次稳住了双11的顺利落地。

02

第一个全面 AI 落地的双11


如果说 2023 年是大模型元年,那么今年双 11 就是这场 AI 革命的超级练兵场。

它既考验云在海量数据高并发情况下对多元异构算力的高效调度,也考验 AI 在大规模生产场景的可靠程度与实际效用。

今年双 11,AI 全面渗透各个环节,被认为是首个 AI 全面落地的双 11。从消费者端的「AI 万能搜」「AI 帮我挑」,到商家端的智能客服、经营分析,再到平台端的搜索、推荐引擎体系,大模型在整个电商体系中占据了举足轻重的地位。


在商家侧,AI 正在成为重要的生产工具,淘宝基于 Qwen3 家族多款模型打造和升级了生意管家、店小蜜等应用。以生意管家为例,其 AI 数据分析师为商家提供经营数据分析,可覆盖 90% 的中小商家核心分析场景,大幅提升分析和决策效率;此外,全新升级的店小蜜能精准连贯理解用户意图、调用平台以及商家工单系统、自动化处理售后问题。

面向商品出海场景,包括通义 Qwen-MT 在内的多个翻译模型,支持了淘宝出海的商品翻译需求。据介绍,通过采用混合专家架构与服务调度优化,Qwen-MT 单次调用延迟降低 40%,为全球用户提供快速、精准、稳定的翻译服务。今年双 11,该模型系统支持了亿级商品的图片、评价、商品详情等翻译任务,单日调用量超 14 亿次。

这些改造不仅提升了用户体验,更让商家经营效率实现了前所未有的提升。

从结果来看,大模型在这届天猫双 11 中确实打了一场漂亮仗,但这背后的云基础设施能力则是这场仗的另一个胜负手。

要在淘宝这个数亿用户的超级 APP 上,支撑如此大规模的 AI 应用,并非易事,在这场看不见硝烟的战争中,智算调度成为决胜关键。多级亲和性与拓扑感知调度设计依次上线。

为了实现了卡间互联路径更短、带宽更优,为双 11 提供个性化、高效的 AI 算力服务。多级亲和性调度算法,就像一位精细的交通规划师,按照 NC / 交换机 / 机柜 / 楼宇 / AZ 的多层分级,为 AI 任务规划出最短的算力通勤路线,让 GPU 卡间的数据传输效率大大提升,带宽不再是瓶颈。

拓扑感知技术则时刻扫描网络状态,一旦发现拥塞链路,瞬间为数据重新导航,确保卡时在线率,杜绝任何一丝算力浪费。

灵骏智算也深度融合阿里云十余年来在计算、存储与网络虚拟化领域的技术积累,通过系统级的集成与优化,提供稳定、高性能的存储能力与云网络访问能力。让智算算力更高效地发掘数据的价值,为各类 AI 与业务场景带来更强的支撑能力与业务价值。

最终,灵骏万卡集群在双 11 期间交出了一份堪称完美的答卷:实现了业界领先的卡时在线率表现,为首个 AI 大规模落地的双 11 打好了最稳的地基。

03

从全栈 AI 到能力溢出

双 11 的全栈 AI 检验,对阿里而言只是小试牛刀,事实上阿里描绘的 AI 蓝图更为宏大。

今年,阿里巴巴集团 CEO、阿里云智能集团董事长兼 CEO 吴泳铭在多个场合中表态,阿里巴巴正在积极推进三年 3800 亿的 AI 基础设施建设计划,并将会持续追加更大的投入。

而在这个长期规划中,阿里云的定位也很清晰——全栈人工智能服务商。

在模型层面,通义千问坚定开源开放路线,核心目的是打造『AI 时代的 Android』,并成为 AI 生态的基础平台。而从成果来看,通义千问在全球开源生态的实力也已无需论证,截至目前,通义千问共开源 300 多个模型,全球下载量突破 6 亿次,衍生模型超 17 万个,超越美国 Llama 大模型系列,位居全球第一。

在基础设施层面,阿里云意在全力打造一台全新的 AI 超级计算机,灵骏智算集群则是这台超级计算机的关键一环。

当前,以灵骏为代表的智算产品早已渗透千行百业 AI 场景,例如自动驾驶是阿里云 AI 落地进度最快的核心场景之一,市场份额占据绝对优势,绝大部分主流车企、金融企业、物流企业均为其客户,

根据 IDC 的最新报告,2024 年中国 AI 基础设施(AI IaaS)市场份额,阿里云占比 23%,位列中国市场第一,超过第二名和第三名总和;在生成式 AI 基础设施领域,阿里云取得模型训练和模型推理市场的双项冠军。

这些投入短期来看不仅换来了绝对领先的市场地位,也换来了包括 200 万 VPC 以及超千万核 CPU 调度能力在内,这样超出当前市场需求这样的超级能力建设。尽管短期内不会再有如此大体量的单一用户,以及如此盛大的全民参与活动,但这也正是我们需要云服务这样的基础设施的意义之所在。

站在 AI「生物大爆发」的节点当下,我们无法想象未来,就像半导体发明初期无法预见如今人类的手机、电脑中需要纳米级电路在指甲盖大小塞下上亿电路。

而作为基础设施,云平台需要前瞻性建设为业务创新预留技术缓冲带今天的超级能力建设,是为后续的超级场景埋下的伏笔。


历年的双十一如此,科技产业的历史如此,今年也不会例外。

*头图AI 生成

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你如何看待阿里云的全栈 AI ?


警惕 AI 生物风险,OpenAI 豪投 1.07 亿扶持初创公司

点赞关注极客公园视频号,

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新