当前,人工智能正迈向场景落地的关键阶段。随着大模型数量逐渐收敛、推理应用爆发式增长,以Token数为量纲的AI推理成本与效率问题日益凸显。在这一背景下,先进存力作为数据要素的核心载体,成为提升AI推理效能、控制成本的关键。
11月4日,在中国信息通信研究院组织的“存力中国行”北京站活动上,来自信通院、中国移动云、华为、硅基流动等机构与企业的嘉宾,深入探讨了AI时代下先进存力对AI大模型发展的支撑作用和未来发展趋势。
AI推理面临成本与效率之困
“大模型落地元年”中,各行各业不再满足于拥有庞大的模型,而是迫切希望将模型能力无缝融入实际业务场景。从投研分析、卷宗分析到智能客服、医疗影像辅助诊断等,AI推理正深入千行百业发挥作用。然而,随着Token调用量爆发式增长,推理成本持续攀升,“推不动、推得慢、推得贵”成为行业共性难题。
与会专家指出,当前,AI推理已不再是简单的单次问答,而是处理海量、多模态、动态增长数据的持续过程。数据类型的多样性要求存储系统能同时高效处理文、图、音、视频乃至传感器数据。同时,构建高质量数据集也成为关键。
“AI时代,IT基础设施能力面临‘管不好’的数据、‘喂不饱’的算力、‘降不下’的成本三大挑战。”在华为数据存储产品线战略与业务发展部总裁王旭东看来,推理数据来源多样难以形成高质量、可持续供应的数据集,存储系统的带宽和IOPS(每秒读写次数)不足,导致GPU等昂贵算力资源长时间空闲。传统存储架构难以兼顾高吞吐、低时延及异构数据融合的需求,造成业务发展瓶颈,阻碍AI应用落地。
要打破推理困境,还需突破“内存墙”与“容量墙”两道技术关卡。与会专家介绍,昂贵的HBM(高带宽内存)虽然性能强悍,但价格极高,无法无节制扩展,这限制了模型的理解长度,也推高了硬件成本,可以通过高性能的AI SSD,对HBM进行更好的扩展,同时,用大容量AI SSD替代HDD。
除此之外,绿色、可靠、安全的数据存储解决方案,也成为企业的刚性需求。
先进存力成破局关键
新京报贝壳财经记者从会上了解到,在AI场景中,我国存储技术取得技术突破,并具备全球领先的实力。通过技术创新和生态协同的模式,加速在千行百业的落地应用。
中国移动云能力中心项目总师周宇表示,移动云针对性采用分层缓存调度、高速数据互联技术提升带宽、多模数据专属存储与标准化、架构池化重组等技术破局,还通过高密全闪存储、数据缩减、自研SPU高密服务器提高存储效能和降低成本。未来趋势上,移动云推动存储从被动存储转向智算协同,分阶段落地高密全闪存储、数据高速互联、存算一体等技术,长远构建池化多体存储体系,同时强调技术整合与生态协同。
王旭东介绍,华为发布了针对AI推理的UCM推理记忆数据管理技术,通过“集中高质数据、提速AI训练、优化推理效能”三个角度,打造AI推理加速解决方案。据悉,UCM可将首Token时延最高降低90%,系统吞吐率最高可提升22倍,上下文推理的窗口扩展10倍以上。
北京硅基流动科技有限公司解决方案总监唐安波表示,硅基流动构建的AI infra工具链,核心推理框架适配多模态模型与国内外算力,适配昇腾并优化DeepSeek模型实现性价比提升。从推理框架延伸至MaaS服务平台,部署主流开源模型,通过推理加速和API向开发者提供服务,聚焦提升算力利用率。解决方案上,结合UCM技术卸载KVCache释放显存、提升性能,还通过智能网关优化调度、弹性扩缩容应对长上下文等痛点,基于存储的KVCache方案可大幅提升系统吞吐。
中国信息通信研究院首席专家石友康表示,信通院在政策研究、标准制定、测试服务等方面开展多项工作,并联合产业链企业成立“算力产业发展方阵先进存力AI推理工作组”。同时,他提出了三点建议:鼓励前沿存储技术研发创新,推动存算运深度融合,加强存算协同产业生态建设。其呼吁业界同仁凝聚共识,共同推动我国存算协同发展。
新京报贝壳财经记者 韦博雅
编辑 杨娟娟
校对 穆祥桐





京公网安备 11011402013531号