当前位置: 首页 » 资讯 » 新科技 » 正文

能效提升万倍!从Google量子出走的他们发布首个热力学AI芯片原型

IP属地 中国·北京 DeepTech深科技 时间:2025-11-01 00:09:31

当 AI 巨头们争相投入数十亿乃至上百亿美元建设数据中心、采购更多 GPU 来训练和运行大型模型时,一家名为 Extropic 的初创公司正在尝试一条截然不同的道路。这家成立于 2022 年的公司刚刚推出了首个工作硬件原型,它的核心技术不依赖传统的 0 和 1 比特,而是通过“概率比特”来处理信息,这种独特的方法,可能会从根本上改变 AI 计算的能效方程式。

10 月 29 日,Extropic 宣布其首个硬件 XTR-0 已交付给包括前沿 AI 实验室、气象建模初创公司以及多国政府代表在内的合作伙伴进行测试。


(Extropic)

让噪声成为计算的燃料

Extropic 将其处理器称为“热力学采样单元”(Thermodynamic Sampling Unit,TSU),以区别于传统的中央处理器(CPU,Central Processing Unit)或图形处理器(GPU,Graphics Processing Unit)。

传统计算机竭力消除电路中的热噪声和电子波动,Extropic 却反其道而行之,将这些通常被视为敌人的物理现象转化为宝贵的计算资源。他们设计的处理器 TSU 的基本构成单位不再是确定的比特(bit),而是“概率比特”(probabilistic bit,p-bit)。

传统的比特在任何时刻都只有两个明确的状态:0 或 1。而 p-bit 则利用晶体管内在的热噪声,使其在 0 和 1 之间自然地、概率性地波动。这种设计使得 TSU 能够原生、高效地执行概率算法,尤其是生成式 AI 模型中常见的采样任务。


(Extropic)

目前主流的 AI 模型,如大语言模型和扩散模型,其核心环节之一就是从一个复杂的概率分布中抽取样本。在目前的 GPU 架构上,这一过程通常需要大量的矩阵运算来首先计算出概率分布,然后再进行采样,整个过程不仅计算密集,而且能耗巨大。Extropic 的 TSU 则跳过了复杂的矩阵运算,直接通过物理过程对概率分布进行建模和采样。


图丨相关论文(arXiv)

根据 Extropic 于 2025 年 10 月 28 日在学术预印本网站 arXiv 上发布的论文《一种用于类扩散模型的高效概率硬件架构》(An efficient probabilistic hardware architecture for diffusion-like models),其设计的全晶体管概率计算机,在运行他们提出的“去噪热力学模型”(Denoising Thermodynamic Model,DTM)时,相较于在 GPU 上运行的同类算法,能在达到同等性能水平(performance parity)的前提下,将能耗降低约 10,000 倍。

从量子计算的“科学出走”到热力学计算

Extropic 的故事,某种程度上源于对量子计算前景的失望。创始人 Guillaume Verdon 和 Trevor McCourt 都曾是 Google 量子计算团队的核心成员,两人在滑铁卢大学参与创建 TensorFlow Quantum 项目时相识。


图丨Guillaume Verdon(左)与 Trever McCourt(右)(X)

Verdon 是量子深度学习领域的先驱人物,在滑铁卢大学攻读应用数学与量子信息博士学位期间,他创立了后来成为 Google TensorFlow Quantum 的项目,之后加入了 Google Quantum AI 团队。在 Alphabet 旗下的登月工厂 X,他担任物理与 AI 团队的量子技术负责人,推动了一系列从感知、通信到表征学习的量子技术应用。

McCourt 最初是一名机械工程师,在滑铁卢大学加入 TensorFlow Quantum 项目的创始团队后,开始与 Verdon 密切合作,共同开创了可微分量子编程软件。之后他转向硬件工程方向,在 Google Quantum AI 开发尖端设备和控制技术。但量子计算的可扩展性时间线不断延长,让这些技术精英开始寻找新的出路。McCourt 随后前往麻省理工学院攻读博士,专注研究噪声在计算和生命系统中的作用——这一研究方向,也成为 Extropic 核心理念的基础。

2022 年,Guillaume Verdon 和 Trevor McCourt 离开了量子计算领域,创立了 Extropic。按照公司的说法,团队中的许多成员都经历了“量子计算的科学出走”(scientific exodus from quantum computing)。随着量子物理计算机的可扩展性时间表一再拉长,这些物理学家和工程师开始寻求另一条通往实用物理计算的道路:一条不依赖量子力学、将噪声视为可利用的资源而非负担、不需要器件物理学奇迹就能达到工业规模的道路。

公司的首席架构师 Christopher Chamberland 曾在 AWS 和 IBM 量子部门领导核心架构和路线图制定工作,被广泛认为是最杰出的量子计算机架构师之一,但他最终也选择离开量子计算领域,加入 Extropic。这支团队的成员此前来自谷歌 AI、AWS、meta、IBM、英伟达等公司,他们试图在物理学与 AI 的交叉点上开辟新的可能性。

2023 年 12 月,Extropic 宣布完成 1,410 万美元的种子轮融资,由 Kindred Ventures 领投,投资者名单中包括 Perplexity 的 Aravind Srinivas、Y Combinator 的 Garry Tan、Naval Ravikant 和 Shopify 的 Tobias Lütke 等知名天使投资人。

从原型到下一代芯片

近日,他们已经推出了首款硬件原型 XTR-0。目前发布的 XTR-0 硬件由一个现场可编程门阵列(FPGA,Field-Programmable Gate Array)芯片与两个 X-0 芯片组成,后者各包含少量 p-bit。尽管规模有限,但这一原型已经证明了公司方法的潜力。Extropic 已经将第一代芯片交付给了包括前沿 AI 实验室、气象建模初创公司以及多国政府机构在内的早期合作伙伴。


图丨首款硬件原型 XTR-0(Extropic)

气象 AI 公司 Atmo 的 CEO Johan Mathe 是首批测试者之一,该公司使用 AI 模型进行高分辨率天气预报,客户包括美国国防部。Mathe 表示,Extropic 的芯片将使更高效地计算不同天气条件的概率成为可能。他已经使用了公司发布的软件库以及真实芯片进行测试,“我能够运行几个 p-bit,看到它们按预期方式运行。”

这个软件库名为 THRML,是 Extropic 同步发布的重要工具。它使开发者能够在 GPU 上模拟 TSU 芯片的行为,从而在真正的硬件到来之前就能开发热力学机器学习算法。这种策略也类似于英伟达当年通过 CUDA 软件生态系统建立竞争优势的做法,即先让开发者熟悉新的编程范式,再推动硬件的大规模部署。

公司计划于 2026 年发布的下一代芯片 Z-1 预计将包含 25 万个 p-bit。在最近发布的论文中,他们还详细阐述了如何利用 Z-1 芯片来创建一种新型扩散模型。

传统的基于能量的模型(Energy-based Models,EBMs)在概率计算中面临一个根本性难题,Extropic 将其称为“混合-表达性权衡”(Mixing-Expressivity Tradeoff,MET)。简单来说,当模型的表达能力增强时,从该模型中抽取独立样本所需的计算量会急剧增加,导致推理成本高昂且训练不稳定。这就像试图在一个布满高墙的能量景观中移动,两个“山谷”之间的巨大势垒会让迭代采样器陷入停滞。

Extropic 提出的解决方案是去噪热力学模型。这种模型将 EBMs 与扩散模型相结合,不是试图用单一的 EBM 来建模数据分布,而是通过一系列 EBMs 逐步构建复杂性。每一步的能量景观都保持相对简单且易于采样,但整个链条能够表达的分布复杂度却不受限制。这种渐进式的复杂性构建允许模型在固定计算预算下表达更复杂的分布,从而规避了 MET 的限制。

实际操作中,DTMs 通过学习一系列条件分布来逆转一个将数据分布逐渐转化为简单噪声的过程,进而用于生成新数据。关键在于为给定问题选择适当的步数,使得逆向过程的分布既足够复杂以获得良好性能,又不会复杂到难以采样。

根据论文中的数据,Extropic 团队开发的 DTM 架构在简单图像生成基准测试上已经显示出惊人的能效。他们使用一个仅包含 70×70 采样单元的网格,成功生成了来自 Fashion-MNIST 数据集的低分辨率灰度服装图像。论文中的对比图显示,在相同的性能水平下,DTM 在 TSU 上的能耗比在 GPU 上运行的传统方法低约一万倍。


(Extropic)

一种可能的计算未来

不过,硬件原型的诞生还只是其迈向大规模生产和应用的一小步,从数十个 p-bits 扩展到百万甚至数十亿级别,技术难度会呈指数级增长。芯片制造的良率、系统集成的复杂性、软件生态的建立,每一个环节都可能成为瓶颈。正如 Extropic 首席技术官 McCourt 所坦言:“我们拥有一个比矩阵乘法更高效的机器学习原语,但问题是,如何构建出像 ChatGPT 或 Midjourney 那样规模的东西。”

当前,美国企业每年在 AI 数据中心上的投入已经超过了阿波罗登月计划经通胀调整后的总成本。到 2030 年,这些数据中心可能消耗美国 10% 的电力。在这样的背景下,任何能够显著提高能效的技术都具有重要意义。如果 Extropic 声称的 1 万倍能效提升能够在实际应用中兑现哪怕一部分,也足以引起关注。

分布式 AI 初创公司 Prime Intellect 的首席执行官 Vincent Weisser 认为:“他们对信息处理物理学的方法,可能在未来十年带来变革性影响,特别是当传统晶体管缩放触及基本极限时。”不过他也指出,“如果能够实际扩展”仍是关键前提。

现实肯定比一套简单的“颠覆”叙事要更为复杂。Extropic 的技术可能无法全面取代传统 GPU,但可以在某些特定应用场景中提供补充。概率计算天然适合生成式模型的采样、不确定性量化、贝叶斯推理等任务,但对于需要精确数值计算的场景,传统硬件可能仍然不可替代。就像量子计算被期待在特定问题上展现“量子优势”而非全面替代经典计算一样,热力学计算可能也会找到属于自己的生态位。

参考资料:

1.https://extropic.ai/writing/inside-x0-and-xtr-0

2.https://extropic.ai/writing/tsu-101-an-entirely-new-type-of-computing-hardware

3.https://extropic.ai/writing/thermodynamic-computing-from-zero-to-one

4.https://arxiv.org/abs/2510.23972

5.https://www.wired.com/story/extropic-aims-to-disrupt-the-data-center-bonanza/

运营/排版:何晨龙

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。