在大模型产业从“能不能跑”走向“算不算得过账”的阶段,GPU 的竞争逻辑正在被重新定义。
1 月 27 日,国产 GPU 厂商曦望(Sunrise)在杭州举办首届 Sunrise GPU Summit,发布新一代推理 GPU 芯片启望 S3,并同步推出面向大模型推理的超节点方案及推理云计划。这是曦望在近一年累计完成约 30 亿元战略融资后的首次系统性技术亮相。
与当前行业普遍沿用的“训推一体 GPU”路线不同,曦望在 S3 上继续选择了一条相对“反常识”的路线——不追求峰值训练性能,而是 All-in 推理效率与单位成本。
![]()
从“拼峰值”到“算单位成本”,推理正在重塑 GPU 设计目标
过去数年,GPU 的核心竞争指标始终围绕峰值算力、通用性和训练效率展开。但随着大模型进入规模化应用阶段,算力消耗的重心正在从训练转向推理。
曦望联席 CEO 王勇在发布会上指出,训练更像一次性、高资本消耗的技术登高,而推理则是长期、持续的算力交付过程。“当推理成为主要算力消耗场景后,GPU 的商业价值不再取决于参数指标,而是单位 Token 的真实成本。”这一判断,直接决定了启望 S3 的设计方向。
据介绍,启望 S3 是一款面向大模型推理深度定制的 GPGPU 芯片,其设计围绕真实推理负载,对算力结构、存储体系和互联方式进行了系统级重构。
在算力层面,S3 支持从 FP16 到 FP4 的多精度灵活切换,使模型在保证效果的前提下,最大化释放低精度推理效率。这种设计更贴合当前 MoE 和长上下文模型在推理阶段的实际需求。
在存储层面,S3 采用 LPDDR6 显存方案,成为国内首款采用该方案的芯片。相比 HBM 路线,LPDDR6 更强调容量与能效比。官方数据显示,S3 的显存容量较上一代产品提升 4 倍,有效缓解了大模型推理中普遍存在的显存驻留与访存瓶颈。
在 DeepSeek V3 / R1 满血版等主流大模型推理场景中,S3 单位 Token 推理成本较上一代产品下降约 90%。曦望方面称,这一指标已具备工程可复现性,而非单点实验室数据。
围绕 S3,曦望同步发布了面向大模型推理的寰望 SC3 超节点解决方案。
寰望 SC3 从一开始即面向千亿、万亿级参数多模态 MoE 推理的真实部署需求进行设计。该方案支持单域 256 卡一级互联,可高效支撑 PD 分离架构 与 大 EP(Expert Parallelism)规模化部署,显著提升推理阶段的系统利用率与稳定性,适配长上下文、多并发、多专家并行等复杂推理场景。
在交付形态上,寰望 SC3 采用 全液冷设计,具备极致 PUE 表现,并支持模块化交付与快速部署。曦望方面表示,在同等推理能力量级下,该方案可将整体系统交付成本从行业常见的亿元级,降低至千万元级,实现一个数量级的下降。
这一“算得过账”的系统级能力,被视为万亿参数模型规模化应用的重要前提。
在软件层面,曦望构建了与 CUDA 兼容的基础软件体系,覆盖驱动、运行时 API、开发工具链、算子库和通信库,降低推理应用的迁移门槛。目前,该体系已适配 ModelScope 平台 90% 以上主流大模型形态,包括 DeepSeek、通义千问等。
在曦望看来,推理 GPU 的竞争并不止于芯片本身,而在于能否将硬件能力稳定转化为可交付、可计价的推理算力。
![]()
GPU 厂商开始下场,推理云平台成为“最后一公里”
如果说 S3 回答的是“推理算力如何更便宜”,那么曦望与商汤科技、第四范式等生态伙伴探索的推理云平台,则试图解决“推理算力如何更好用”。
通过 GPU 池化与弹性调度,曦望将底层算力整合为统一的推理算力池,并以 MaaS(Model as a Service)作为核心入口,使企业无需关注底层硬件配置与集群运维,即可按需调用大模型推理能力。这一体系也成为“百万 Token 一分钱”推理成本合作的重要技术基础。
曦望董事长徐冰在会上表示,推理时代的核心不是“把芯片卖出去”,而是能否持续、稳定地把算力转化为可交付的生产力。“谁能持续降低推理成本,谁就掌握了 AI 产业的成本曲线。”
据披露,曦望 2025 年推理 GPU 芯片交付量已突破 1 万片,标志着其推理 GPU 路线完成从工程验证到规模化交付的关键跨越。
中国工程院院士、浙江大学信息学部主任吴汉明指出,推理算力价值的实现离不开协同,需要芯片设计、系统集成、软件开发到产业应用的全链条协作。
在国产 GPU 行业从“拼参数”走向“拼单位经济成本”的拐点上,曦望选择以推理为切口,尝试重构 GPU 的产品形态与算力交付方式。这条 All-in 推理的路径,正在成为观察中国推理算力商业化进程的重要样本。





京公网安备 11011402013531号