当前位置：首页 » 资讯 » 新零售 » 正文

大模型“造梦”，推理引擎“还债”，CTO们正在还AI的“应用账单”

IP属地中国·北京 编辑：陈阳 Alter 时间：2025-06-30 12:03:04

大模型能力再强，没有高效的推理引擎，就像一辆发动机不行的跑车，只能原地轰油门。怎么用推理引擎提升推理效率、榨干每一块算力的价值、尽可能降低推理成本，已经成为CTO们必须解决的问题。
站在2025年中，回顾半年来大模型的发展，以年初DeepSeek爆火为标志，大模型快速蜕变角色，走出实验室，真正融入企业核心业务系统，在政务、金融、医疗、能源等领域加速落地。
随着大模型走向深度应用，CTO从关注基础模型转向推理引擎，推理过程中的资源消耗，每一度电、每一块钱、每一分钟所能产出的Token数量，正在成为衡量一家公司在AI时代先进性的关键指标。
怎么用推理引擎提升推理效率、榨干每一块算力的价值、尽可能降低推理成本，已经成为CTO们必须解决的问题。
01 大模型跑不动，是因为推理引擎不给力
什么是推理引擎？
简单来说就是一套专门负责让大模型跑起来的系统，既负责怎么算，又负责在哪算和算得多快，尽可能提高大模型推理的响应速度、并发能力和算力资源利用率。
如果说大模型是发动机，推理引擎就是动力总成，决定了发动机在不同道路、不同油品、不同气候下是否能高效运转。调校得当，就能低延迟、高吞吐、低成本；调校不佳，再强的模型也可能烧油多、输出低。
大约从2023年开始，推理引擎开始作为一个独立赛道兴起，陆续出现了TGI、vLLM、TensorRT、SGLang等面向推理效率优化的开源项目。彼时业界的注意力还停留在大炼模型上，对推理引擎的需要求不高能用就行。
2025年初是一个分水岭。
DeepSeek为代表的一批大模型开源后，企业对AI的态度由观望转向行动，纷纷采购算力、治理数据、微调模型，落地部署时却发现：推理响应慢、吞吐跟不上、成本高昂。
90%的算力花在了推理上，结果又贵又慢，连谢谢都不敢多说一句，几乎谈不上性价比。
大模型推理到底难在哪里呢？答案是效果、性能、成本的不可能三角。
想要效果好，就得用更大的模型、更高的精度、更长的上下文，但算力开销就上去了；想要跑得快、响应快，就要用缓存、做批处理、图优化，可能影响模型输出的质量；想要成本低，就要压缩模型、降低显存、用更便宜的算力，又可能会牺牲推理的性能或准确率。
企业的CTO们在为大模型推理焦虑时，推理引擎赛道也热闹了起来，不少在AI应用上抢跑的大厂，同样意识到了推理引擎的短板，试图将自己摸索出的经验，做成标准化产品和服务，帮企业压下这笔越来越沉重的应用账。
AWS、京东云、英伟达、谷歌云等，都在死磕工程创新。
比如优化思考地图，如果思考地图又大又乱，占了GPU大量空间还查得慢，就会成为性能瓶颈。
AWS SageMaker和谷歌云Vertex AI的做法是给思考地图建了一个缓存共享中心，动态调度显存资源：谁先用、谁能共用、谁暂时搁置，都安排得明明白白，尽可能让GPU的价值压榨到极致。
京东云JoyBuilder推理引擎和英伟达的Dynamo，则进一步给出一种以存代算的解法：直接把思考地图从GPU挪出去。其中京东云通过自研的云海AI存储，支持PB级缓存扩展，并配合高效检索算法与负载感知调度，直接将多轮对话和长文本处理的响应时延压缩了60%。
再比如将听和说分离，相当于开会时让准备和发言同步进行，避免出现干等闲耗的场景。
其中AWS不只实现了听和说分离，还改变了大模型说话的方式，不再是想到哪说到哪，而是提前整理好了大纲，省下了大量来回思考的时间。
京东云JoyBuilder推理引擎的方案稍有不同：第一招和AWS相似，整体吞吐提升了30%以上；第二招是将听和说交给不同的GPU处理，两边像流水线一样并行工作，中间用传送带快速传递信息，大幅提升了推理吞吐量。
对CTO们而言，技术大厂的深度参与，不失为一个好消息，相当于是把推理引擎打磨成了能直接用的高性能电子电气架构。
03 异构算力是挑战，也是低成本取胜的机会
我们在和几位CTO沟通时，除了普遍焦虑的推理性能，还涉及到另一个问题异构算力。
随着大模型应用的深入，以CPU为中心的架构在支持AI原生应用上面临挑战，需要以GPU为中心重塑基础设施；此外，面对激增的推理需求，计算资源持续增加，企业需要思考资源投入产出的问题，都指向需要一套AI Native的基础设施。
而异构算力，通俗来说就是将不同品牌的芯片拼着用。就像是一支临时组成的军队，语言、指令、作战逻辑全都不统一。以至于一位CTO打趣说：我们要想打仗，得先发明统一的语言和作战地图。
vLLM、SGLang等比较热门的开源引擎，目前都还停留在同类型GPU之间高效调度，对异构集群依然捉襟见肘。但国内的研究机构和科技大厂都已经试图解决：怎样让不同芯片听得懂一个指挥，各司其职、取长补短。
一种主流思路是把大锅饭变自助餐。
过去用GPU跑模型，就像是大锅饭，一整张显卡只能给一个任务用，哪怕只吃了一口，剩下的资源也不能被别人接着用。就像京东云JoyBuilder推理引擎的策略是把异构算力资源统一管理，把一张GPU切成很多小份（1%），显存也能按MB级别来分，按需分给多个模型、多个任务使用，谁需要多少就用多少，GPU利用率最高可提升70%。
还有一种思路是把拼芯片和拆流程结合起来。
比如在MoE模型的部署上，京东云JoyBuilder推理引擎可以将不同专家部署在不同GPU上，让每个GPU干最擅长的活。甚至可以将输入部署在擅长高吞吐的昇腾集群，将输出部署在N卡上确保低延迟，充分利用不同算力的优势。
对于CTO们来说，在推理成本决定最终胜利的大模型竞赛中，异构算力是挑战，同样也是机会。
04 高性能低成本，大模型推理正在重塑AI生产力
经历了一段时间的高歌猛进后，越来越多企业对大模型的诉求，正在从不能没有转向要落地、要价值、要增长。我们看到，大模型已经在营销推广、协同办公、客户服务等场景深度应用，成为新的增长引擎。
例如在零售场景，包括面向用户的AI生成商品图、AI营销内容生成、AI数字人，面向管理的AI客服与售后管理、AI经营托管、AI仓配优化，以及配送环节的自动分拣机器人、自动驾驶等需求。
JoyBuilder推理引擎源于京东自身复杂业务场景打磨，基于企业级的AI Native架构，正在广泛服务于内外部众多业务场景。
京东透露了一组数据：目前推理框架已经在内部多个场景应用，在可交互式导购、商品对比、商品总结、购物建议等环节，大幅提升了响应速度，节省了计算成本，同时还有效助力了用户的活跃度；在核心的商品理解环节，也有效提升了大模型的理解能力和信息处理能力，模型推理成本最高可节省70%。
除了服务于京东内部，京东云推理引擎也广泛服务于外部产业客户，提供高性能、低成本的大模型服务。
在行业实践中，京东云成功支持某新能源汽车头部厂商、某全球新能源科技领导企业，打造覆盖全集团的智能计算底座，实现千卡级AI算力集群的精细化管理。技术上一方面创新多元算力调度，显著提升GPU利用率，另一方面创建全生命周期AI开发环境，实现开箱即用，大幅提升研发效率。
目前，该平台已支撑起企业智能驾驶研发、人形机器人等20余个核心场景，成为集团的数智发动机。预计一年内，两家企业大模型训练周期将缩短40%，每年节省的算力成本相当于新建两座数据中心。
05 写在最后
尽管推理引擎已经在性能压榨、资源调度和成本控制等方面取得了初步成果，但真正的竞争才刚刚开始。
尤其是在异构能力方面，无论是多种芯片的适配整合，还是对不同模型结构、大小、任务类型的统一支持，当前的技术体系还远未成熟。同时也意味着，谁能率先构建起灵活、高效、可持续的推理能力，谁就有可能在AI大规模落地的浪潮中占据先机。
这是一场跨硬件、跨模型、跨场景的系统性挑战，也将是未来十年AI竞赛的核心主战场。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

放弃吧！“高速全面取消收费”根本没戏，免费只会更痛苦

八部门：进一步加大力度促进汽车消费促进汽车梯次消费、更新消费

新车难用满十年：技术短板、消费文化与行业策略如何共同“缩短”寿命

山东青岛：“微醺巴士”开拓文旅消费新场景

牛市就到这了？

拉布布暑期降温，中国潮玩出海弯道超车，谁是下一个顶流IP

全站最新

小红书释放年底抢人信号，首次公布「四有青年」人才标准

视频丨美国警方重启追捕布朗大学枪击案嫌疑人

比特币两周来首次跌破8.6万美元较历史高点累计回落约30%

成都科创“扎起”！

热门推荐

放弃吧！“高速全面取消收费”根本没戏，免费只会更痛苦

八部门：进一步加大力度促进汽车消费促进汽车梯次消费、更新消费

新车难用满十年：技术短板、消费文化与行业策略如何共同“缩短”寿命

山东青岛：“微醺巴士”开拓文旅消费新场景

牛市就到这了？

拉布布暑期降温，中国潮玩出海弯道超车，谁是下一个顶流IP

南城香创始人汪国玉：平台消费券激发消费热情，门店收入利润均提升

通信企业：“推销热售后冷”消磨用户信任

盛银消金 25% 股权再被冻结！新董事长年初刚上任

伊利出席第八届中澳工商界首席执行官圆桌会助力中澳经贸合作提速升级

商查平台企业信息查询新范式：水滴信用企业查询MCP

从“闪购”到“观望”：Prime Day被拉长的背后，是消费者与平台的“双重博弈”

澎湃漫评｜通信企业为何“推销热售后冷”

“电商西进”助力豫企破浪：一枚鱼油的3000公里“暖心”之旅

京东外卖取消超时免单，改为“准时宝”服务