当前位置：首页 » 资讯 » 新科技 » 正文

从1920TPS到2400TPS，华为云Tokens服务全面接入384超节点

IP属地中国·北京 编辑：任飞扬封面新闻 时间：2025-08-28 00:20:32

封面新闻记者易弋力
8月27日，在第四届828 B2B企业节开幕式上，华为云宣布其Tokens服务全面接入CloudMatrix384超节点，通过xDeepServe架构创新，单芯片最高可实现2400TPS、50msTPOT的超高吞吐、低时延的性能，超过业界水平。
过去18个月，中国AI算力需求呈现指数级增长。数据显示，2024年初中国日均Token的消耗量为1000亿，截至今年6月底，日均Token消耗量已突破30万亿，1年半的时间增长了300多倍，反映了我国人工智能应用规模快速增长，也对算力基础设施的需求提出了更大的挑战。
在以往按卡时计费的基础上，今年3月，华为云正式推出了基于MaaS的Tokens服务。针对不同应用、不同场景的性能和时延要求，还提供了在线版、进线版、离线版乃至尊享版等多种服务规格，为大模型、Agent智能体等AI工具提供了更为灵活、便捷、低成本的先进算力。
而这一次，华为云的Tokens服务正式接入CloudMatrix384，并通过384原生的xDeepServe框架再次实现了吞吐量的突破，从年初的1920TPS提升至2400TPS，TPOT仅为50ms。
作为CloudMatrix384 超节点的原生服务，xDeepServe以Transformerless 的极致分离架构，把MoE大模型拆成可独立伸缩的 Attention、FFN、Expert三个微模块，相当于在一台CloudMatrix384上把“大模型”拆成“积木”，并分派到不同的NPU上同步处理任务。之后，再用基于内存语义的微秒级XCCL通信库与FlowServe 自研推理引擎把它们重新拼成一个超高吞吐的LLM服务平台，即Tokens的“超高速流水线”。通过xDeepServe不断调优，最终实现了从非超节点单卡吞吐600tokens/s至超节点单卡吞吐2400tokens/s的提升。
目前，华为云MaaS服务已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型及versatile、Dify、扣子等主流Agent平台。
而在应用层，华为云已与超过100家伙伴携手深入行业场景，共建丰富的Agent，在调研分析、内容创作、智慧办公、智能运维等领域解决产业难题，让企业更便捷地拥抱AI创新，加速智能化。
如基于MaaS平台推出的今日人才数智员工解决方案，集成了先进的自然语言处理、机器学习和深度学习技术，能实现与用户的智能交互和任务处理，显著提升服务效率与客户满意度；而北京方寸无忧科技开发的无忧智慧公文解决方案可以提升公文处理效能，实现政企办公智能化转型。
业内人士表示，以Token为动力的智能社会已经到来，而华为云将以系统级创新能力和全新的Tokens服务构筑先进算力，助力各行各业加速落地AI。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

阿里发布全球首个企业级Agent平台“悟空”

“龙虾”狂潮，“Token”爆炸，吹得动中概“BAT”吗？

Token成AI时代新“货币”，阿里以它为名成立新事业群，CEO亲自挂帅

吴泳铭亲自下场！阿里AI彻底整编，“悟空”打响B端攻坚战

世界互联网大会亚太峰会4月将在香港举办探讨全球数智融合发展新路径

阿里巴巴重磅，阿里云AI算力和存储产品最高涨价34%！港股科技、云计算再度上涨！

全站最新

阿里发布全球首个企业级Agent平台“悟空”

“龙虾”狂潮，“Token”爆炸，吹得动中概“BAT”吗？

Token成AI时代新“货币”，阿里以它为名成立新事业群，CEO亲自挂帅

吴泳铭亲自下场！阿里AI彻底整编，“悟空”打响B端攻坚战

热门推荐

阿里发布全球首个企业级Agent平台“悟空”

“龙虾”狂潮，“Token”爆炸，吹得动中概“BAT”吗？

Token成AI时代新“货币”，阿里以它为名成立新事业群，CEO亲自挂帅

吴泳铭亲自下场！阿里AI彻底整编，“悟空”打响B端攻坚战

世界互联网大会亚太峰会4月将在香港举办探讨全球数智融合发展新路径

阿里巴巴重磅，阿里云AI算力和存储产品最高涨价34%！港股科技、云计算再度上涨！

悟空问世，阿里重估：中国最“能打”的AI巨头仍被低估

微软调整Copilot管理架构：合并个人和企业用户开发团队，苏莱曼专注大模型

英伟达黄仁勋：OpenClaw“绝对是下一个ChatGPT”

“星际之门”计划连遭变故：扩建谈崩、数据中心宕机、OpenAI 转向“租而不建”

宇树王兴兴：字节Seedance 2.0是全球目前最好的

Token调用量暴增，阿里云宣布AI算力和存储产品最高涨价34%

大模型 Scaling 怎么玩？杨植麟 GTC 首秀：押注 Token 效率与 Agent 集群

Unsloth Studio 发布：首个本地可视化大模型微调平台，显存占用降低 70%

百度搜索要“大变天”？大模型悍将轮岗 MEG，搜推一体化提速