当前位置: 首页 » 资讯 » 新科技 » 正文

趋境科技发布高效能AI Token生产服务平台,日均万亿Token产能

IP属地 中国·北京 文汇报 时间:2026-04-01 01:57:20


英伟达CEO黄仁勋日前提出一个观点:现在的AI计算机变成了“工厂”,并直接与企业的收入创造挂钩。他认为,AI代工厂正在制造一种名为“Token”的商品,且这种商品已经被细分和定价。

在日前由趋境科技与九源智能计算系统生态联合体共同主办的“全栈智能全域推理:Token爆发元年的全场景大规模推理服务”专题研讨会上,中国工程院院士、九源智能计算系统生态联合体理事长、清华大学教授、趋境科技首席科学顾问郑纬民提出,随着智能体、AI Coding等应用的爆发式增长,Token消耗量呈百倍、千倍级跃升,2026年已成为名副其实的“Token爆发元年”。AI产业的核心关注焦点,正从“模型参数规模、模型可用性”全面转向“稳定、低成本、高质量交付的Token产能”。

Token即服务

“未来的智能基础设施应围绕‘Token即服务(TaaS,Token as a Service)’进行重构”。郑纬民院士表示,传统模型服务的核心是保障模型可得性与接口完整性,而Token服务的核心是保障Token产能的可用性,更关注成本、吞吐、延迟与可靠性等生产性指标,是一个极端复杂的多维系统最优化问题,必须完成全链路的系统级创新。


郑纬民院士明确了TaaS发展的三大核心技术底座:一是全系统异构协同,通过将不同计算任务合理分配至GPU、CPU、内存和SSD,打破算力瓶颈;二是存算协同实现“以存换算”,通过前置KV Cache等技术,大幅降低重复计算量,提升推理效率;三是面向SLO的智能调度,精准地将用户业务需求“翻译”为底层资源决策。郑院士表示:“只有让智能生成像水电一样被稳定地调度与供给,才能真正迎来算力制造Token为王的普惠智能时代。”

四大核心技术

趋境科技在论坛上发布趋境ATaaS高效能AI Token生产服务平台,可支撑万级别AI推理需求,并达到日均万亿级别Token整体产能。

趋境ATaaS具备四大自研核心技术:全球首创大模型计算逻辑重构技术,深度融合CPU+GPU、国产与非国产算力,实现任务的智能分流,可将万卡级智算集群运营成本压降20%以上;全球首创超体量KV Cache缓存技术,将KV Cache存储空间扩展百倍至千倍,缓存命中率最高可达90%,直接削减90%的GPU算力开销;全球首创算子级SLO仿真技术,实现算力资源的智能预规划与动态调优,可精准切分异构算力,将万卡级智算集群硬件综合资源利用率最高提升数倍;支持万亿参数大模型7秒快速拉起与动态配置变更、数百节点超大规模EP弹性调度,为万卡级高性能横向扩展提供关键能力。

趋境ATaaS平台使每单位算力和能耗投入都能够数倍转化为更稳定、更可衡量的Token价值产出,推动算力基础设施从“数据中心”向“Token工厂”全面演进。

打造产业服务生态

该论坛是2026中关村论坛核心组成部分,论坛汇聚院士、顶尖学者及产业领军人物,聚焦大模型时代推理服务的核心技术、产业实践和生态协同,共探高效、稳定、安全、普惠的大模型推理服务体系建设。

并行科技作为国内领先的算力服务商,在第三方算力服务领域位列第一,并行科技董事长陈健表示,其MaaS服务得到趋境科技的大力支持,双方合作将高质量Token的生产成本大幅优化,并将特定场景下的集群性能提升50%,共同为智谱、Kimi、MiniMax、DeepSeek等头部大模型客户提供优质服务。


九源智能计算系统生态联合体副秘书长王豪杰表示,T九源联合体打造国产智能计算生态,全国产化方案适配多款GPU、串行代码高效并行的九源领域编程语言“九齿”、支撑Mooncake推理加速系统、基于国产芯片的高效智能体,并与KTransformers等框架深度联动,推动国产算力从“可用”迈向“好用”。

京东云AI Infra产品负责人郝鹏表示,京东云已与趋境科技达成深度合作,联合打造下一代推理引擎,共同赋能Mooncake开源生态。华为昇腾计算业务副总裁、首席产品规划师叶耀荣表示,趋境与昇腾展开了全方位的技术和商业化合作,部分项目在昇腾AI集群上实现了2倍以上性能提升。此外,阿里云政企事业部教育科研解决方案总监杨坤、商汤科技大装置首席架构师项铁尧等也分享了与趋境科技在Mooncake等开源项目上深度合作,以及为趋境Token服务提供高可靠算力支持的实践。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。