当前位置: 首页 » 资讯 » 新科技 » 正文

消息称谷歌联手Meta推进“TorchTPU”计划 挑战英伟达AI芯片霸主地位

IP属地 中国·北京 编辑:吴婷 IT之家 时间:2025-12-18 14:09:52

IT之家 12 月 18 日消息,据路透社报道,知情人士透露,Alphabet 旗下的谷歌正在推进一项新计划,旨在提升其人工智能芯片运行全球最主流 AI 软件框架 PyTorch 的性能,此举意在削弱英伟达在人工智能计算市场长期以来的霸主地位。

据IT之家了解,该计划是谷歌雄心勃勃的战略布局之一,核心目标是让旗下张量处理单元(TPU)成为英伟达市场领先的图形处理器(GPU)的可靠替代品。随着谷歌试图向投资者证明其人工智能相关投资已产生回报,TPU 的销售额已成为谷歌云业务收入的关键增长引擎。

但知情人士表示,仅凭硬件优势不足以推动客户广泛采用。这项内部代号为“TorchTPU”的新计划,旨在消除阻碍 TPU 芯片普及的核心障碍 —— 通过实现 TPU 与 PyTorch 的完全兼容,并提升对开发者的友好度,来吸引那些已基于 PyTorch 构建技术架构的客户。部分知情人士还透露,谷歌正考虑将该软件的部分组件开源,以加快客户的采用进程。

知情人士称,相较于此前为支持 TPU 运行 PyTorch 所做的尝试,谷歌此次对 TorchTPU 投入了更多的组织关注度、资源与战略权重。背后的原因是,越来越多有意采用 TPU 的企业认为,相关软件栈是制约芯片落地的瓶颈。

PyTorch 是一个由 meta 公司深度支持的开源项目,也是人工智能模型开发者最常使用的工具之一。在硅谷,极少有开发者会逐行编写能在英伟达、AMD 或谷歌芯片上直接执行的代码。

相反,开发者们会依赖 PyTorch 这类工具,其整合了大量预先编写的代码库与框架,能够自动化完成人工智能软件开发中的诸多常见任务。PyTorch 于 2016 年首次发布,其发展历程与英伟达的并行计算架构(CUDA)紧密相连。部分华尔街分析师认为,CUDA 正是英伟达抵御竞争对手的最强壁垒。

英伟达的工程师耗时多年优化,确保基于 PyTorch 开发的软件能在其芯片上实现极致的运行速度与效率。相比之下,谷歌长期以来一直让内部的大批软件开发人员使用另一款名为 Jax 的代码框架,旗下 TPU 芯片则通过 XLA 工具来提升代码的运行效率。谷歌自身的大部分人工智能软件栈与性能优化工作均围绕 Jax 展开,这使得谷歌自身的芯片使用方式,与客户期望的使用方式之间的差距逐渐拉大。

谷歌云发言人未就该项目的具体细节置评,但向路透社证实,此举将为客户提供更多选择。

该发言人表示:“我们看到市场对我们的 TPU 和 GPU 基础设施的需求正在大规模激增。我们的核心关注点是,无论开发者选择基于何种硬件进行开发,都能为他们提供所需的灵活性与规模支持。”

面向客户的 TPU

长期以来,Alphabet 将旗下大部分 TPU 芯片优先用于内部业务。这一局面在 2022 年发生改变,谷歌云计算部门成功游说公司,接管了负责 TPU 销售的团队。这一调整大幅增加了谷歌云的 TPU 配额。随着客户对人工智能的兴趣日益浓厚,谷歌也在通过扩大产能、向外部客户销售 TPU 的方式,把握这一市场机遇。

然而,全球多数人工智能开发者使用的 PyTorch 框架,与谷歌芯片目前高度适配的 Jax 框架之间存在兼容性鸿沟。这意味着,大多数开发者若想采用谷歌芯片,并使其性能媲美英伟达产品,就必须投入大量额外的工程开发工作。在竞争激烈的人工智能赛道,这些工作既耗时又耗钱。

若“TorchTPU”计划能成功落地,将大幅降低那些寻求英伟达 GPU 替代品的企业的迁移成本。英伟达的市场主导地位不仅源于其硬件优势,更得益于其 CUDA 软件生态系统,该系统已深度嵌入 PyTorch,成为企业训练和运行大型人工智能模型的默认方案。

知情人士称,企业客户向谷歌反馈,TPU 在人工智能工作负载场景中较难推广,原因在于过去使用 TPU 往往要求开发者放弃行业主流的 PyTorch,转而使用谷歌内部偏好的机器学习框架 Jax。

与 meta 的合作

知情人士透露,为加速开发进程,谷歌正与 PyTorch 的研发与维护方 meta 展开紧密合作。此前《The Information》曾报道,两家科技巨头正在洽谈相关合作,拟让 meta 获得更多 TPU 的使用权。

谷歌最初向 meta 提供的是托管服务模式 —— 像 meta 这样的客户可部署谷歌专为运行其软件和模型设计的芯片,同时由谷歌提供运维支持。知情人士表示,meta 在推动 TPU 兼容软件的开发方面有着明确的战略考量:此举有助于降低模型推理成本,推动其人工智能基础设施摆脱对英伟达 GPU 的依赖,从而在合作谈判中掌握更多主动权。

meta 方面则拒绝就此置评。

今年以来,谷歌已开始直接向客户的数据中心销售 TPU,不再将其使用权限局限于自家云平台。本月,谷歌资深高管阿明・瓦赫达特被任命为人工智能基础设施负责人,直接向谷歌首席执行官桑达尔・皮查伊汇报。

谷歌的人工智能基础设施肩负着双重使命:既要支撑 Gemini 聊天机器人、人工智能驱动的搜索引擎等自研产品的运行,也要为谷歌云的客户提供服务,例如,向人工智能公司 Anthropic 等企业出售 TPU 的使用权。

标签: 谷歌 人工智能 芯片 客户 人士 知情 开发者 软件 战略 部分 霸主 地位 框架 市场 谷歌云 核心 代码 旗下 消息 开源 基础设施 模型 企业 硬件 规模 公司 布局 竞争对手 耗时 细节 科技

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。