![]()
这项由加州大学伯克利分校的托比亚斯·克雷曼(Tobias Kreiman)、于童白(Yutong Bai)、法迪·阿提(Fadi Atieh)、伊丽莎白·韦弗(Elizabeth Weaver)、埃里克·曲(Eric Qu)以及阿迪蒂·S·克里什纳普里扬(Aditi S. Krishnapriyan)共同完成的研究发表于2025年10月,论文编号为arXiv:2510.02259v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
说起化学反应,你可能会联想到高中化学课上那些复杂的分子结构图——一个个原子像珠子一样用线条连接,形成各种奇形怪状的图案。长期以来,科学家们训练人工智能预测化学反应时,也总是先给它们看这些"分子地图",就像给GPS导航提供道路网络一样。然而,加州大学伯克利分校的研究团队却做了一件看似不可能的事:他们让AI完全抛开这些预制的"地图",仅仅通过原子的三维坐标位置,就学会了理解分子的结构和行为。
这就好比让一个从未见过地图的人,仅仅通过记住城市中每栋建筑的GPS坐标,就能准确预测交通流量和最佳路线。更令人惊讶的是,这个"不看地图"的AI不仅做得和传统方法一样好,在某些方面甚至表现更出色。
研究团队使用的是大名鼎鼎的Transformer架构——正是支撑ChatGPT和其他大语言模型的核心技术。他们将分子信息转换成一串数字序列,就像把一本化学教科书翻译成计算机能理解的"密码本"。这个AI学会了原子之间距离越近,相互作用越强的基本规律,甚至能够根据不同的分子环境灵活调整自己的"关注范围"——在拥挤的分子区域专注于局部相互作用,在稀疏区域则扩大观察范围寻找远距离的影响。
为了验证这个想法,研究团队在包含400万个分子结构的OMol25数据集上进行了大规模实验。结果显示,他们的10亿参数Transformer模型在预测分子能量和作用力方面,完全可以与目前最先进的图神经网络模型相媲美,而且在训练和运行速度上还更有优势。
一、传统分子AI的"地图依赖症"
要理解这项研究的意义,我们先来看看传统的分子人工智能是如何工作的。假设你要教一个AI系统理解一座城市的交通规律。传统方法就像是先给AI提供一张详细的道路地图,告诉它哪些街道相连,哪些是主干道,哪些是小巷。基于这张预制地图,AI学会预测不同路段的车流量和最佳行驶路线。
在分子世界里,传统的机器学习方法采用图神经网络(GNN)架构,它们需要研究人员事先定义分子中原子之间的"连接关系"。这就像为每个分子画一张特制的地图,通常基于一个固定的距离阈值——比如规定两个原子之间距离小于5埃(一个极小的长度单位)就认为它们"相邻",或者选择距离最近的几个原子作为"邻居"。然后,图神经网络沿着这些预定义的连接传递信息,就像信息在城市道路网络中流动一样。
这种方法在很多情况下确实有效,但也带来了一些根本性问题。首先是"固定视野"问题。就像用固定焦距的相机拍照,有时候你需要广角镜头捕捉全景,有时候需要长焦镜头聚焦细节,但固定的距离阈值无法根据具体情况灵活调整。在密集的分子区域,可能需要关注更近距离的相互作用;而在稀疏区域,重要的相互作用可能发生在更远的距离上。
其次是计算效率问题。图神经网络需要处理大量稀疏的连接关系,这就像在一个有很多断头路和单行道的复杂路网中导航,计算过程变得复杂且难以并行化。随着分子规模增大,这个问题变得更加严重。
最重要的是,这种预制图谱的方法限制了模型的表达能力。它假设我们事先知道什么样的原子连接是重要的,但在复杂的化学环境中,重要的相互作用模式可能是我们没有预料到的。这就像用一张过时的地图导航现代城市,可能会错过新修的道路和更优的路线。
理论研究还发现,图神经网络存在一些根本性限制,比如"过度平滑"问题——就像把一张清晰的照片反复模糊处理,最终所有细节都消失了。还有"过度压缩"问题,信息在网络中传递时会逐渐丢失,就像电话游戏中消息传递几轮后变得面目全非。
正是在这样的背景下,研究团队开始思考:是否可以完全摆脱预制图谱的束缚,让AI直接从原子的三维坐标学习分子的结构和性质呢?
二、让AI"无图可依"的大胆尝试
研究团队的核心想法非常直接却极其大胆:完全抛弃传统的分子图谱表示,让AI直接从原子的三维坐标位置学习分子的所有相互作用。这就像让一个人不看任何地图,仅仅通过记住每个地点的GPS坐标,就学会理解整个城市的结构和交通规律。
他们选择的工具是Transformer架构——这正是ChatGPT、GPT-4等大语言模型背后的核心技术。但与处理文字不同,这里的挑战是如何将三维分子结构转换成Transformer能够处理的序列数据。
研究团队设计了一套巧妙的"翻译系统"。他们将每个分子的信息转换成一长串数字序列,就像把一本化学教科书翻译成计算机的"暗号"。这个序列包含了分子的所有关键信息:每个原子的类型(比如碳、氢、氧),每个原子的精确三维坐标位置,整个分子的总能量,以及作用在每个原子上的力的大小和方向。
为了处理这些连续变化的数值(比如原子坐标可能是1.234567这样的小数),他们采用了一种"双轨制"策略。一方面,他们将这些连续数值按照一定规则分成离散的"档位",就像把连续变化的温度分成低温、中温、高温几个等级,便于Transformer处理。另一方面,他们同时保留原始的精确数值,让模型能够获得最准确的信息。这就像既给GPS导航提供"大致方向",又给出"精确坐标",确保不会因为简化而丢失重要细节。
更有趣的是他们的训练策略。整个训练过程分为两个阶段,就像培养一个化学家的学习过程。第一阶段是"预训练",AI像学生一样阅读大量分子数据,学习分子世界的基本规律。在这个阶段,AI需要根据已知的部分信息预测剩余的信息,比如给出分子的结构,预测它的能量和受力情况。这就像给学生一些不完整的化学方程式,让他们填空完成。
第二阶段是"微调",AI开始专门训练预测分子的能量和作用力,这是实际应用中最重要的任务。在这个阶段,AI不再需要处理离散化的数据,而是直接输出连续的数值结果,就像从"多选题练习"过渡到"解答实际问题"。
整个模型的架构基于LLaMA2,这是目前最先进的语言模型架构之一。研究团队几乎没有对原始架构做任何修改,只是移除了原本用于处理文字序列的位置编码(因为原子的物理位置已经明确给出),并增加了处理连续数值和离散标记的双重输入机制。
这种设计的美妙之处在于,模型完全没有被灌输任何关于分子结构的先验知识。它不知道什么是化学键,不知道哪些原子应该"相连",甚至不知道距离近的原子通常相互作用更强。所有这些化学常识,都需要它从数据中自己发现和学习。
三、令人惊喜的学习成果
当研究团队查看这个"无图可依"的AI学会了什么时,他们发现了一系列令人惊喜的结果。最让人兴奋的是,AI竟然自发地学会了化学中最基本的规律之一:原子之间距离越近,相互作用越强。
通过分析AI内部的"注意力机制"——也就是AI在处理每个原子时会重点关注哪些其他原子——研究团队发现了一个清晰的模式。在模型的前9层(可以理解为AI思考过程的前几个步骤),AI主要关注距离较近的原子,而且关注程度与距离成反比关系。这就像一个人观察房间时,自然而然地先注意到身边的物品,再逐渐扩展视野到远处的东西。
更有趣的是,AI还学会了分层处理信息。在早期的思考步骤中,它专注于局部的原子相互作用,就像先了解每个街区的局部交通情况。然后在后期步骤中,它开始整合全局信息,关注分子的整体性质如电荷和自旋,就像从局部交通情况推断整个城市的交通流量。
这种学习到的注意力衰减距离恰好与传统图神经网络中人工设定的"截断半径"相匹配——通常在6到12埃的范围内。这意味着AI自己发现了化学家们经过多年研究总结出的经验规律,完全没有人工灌输这些知识。
但AI学到的远不止这些基本规律。研究团队发现,AI还具备了惊人的适应性。传统的图神经网络使用固定的连接距离,就像用固定焦距的镜头拍照。而这个AI学会了根据不同的分子环境动态调整自己的"关注半径"。
具体来说,当一个原子处在分子的密集区域,周围有很多其他原子时,AI会缩小关注范围,主要考虑最近邻的相互作用。这就像在拥挤的市中心,你主要注意身边几米内的情况。相反,当原子处在分子的稀疏区域,周围原子较少时,AI会扩大关注范围,寻找更远距离的重要相互作用。这就像在郊区空旷地带,你的视野会自然扩展到更远的地方。
研究团队通过一个巧妙的分析验证了这一点。他们定义了"有效关注半径"的概念——对于每个原子,计算包含其90%注意力的最小距离范围。然后他们发现,这个有效关注半径与原子的"邻居密度"呈现明显的正相关关系。简单说,周围原子越稀疏的位置,AI的关注半径越大;周围原子越密集的位置,AI的关注半径越小。
更让研究团队惊讶的是,不同的"注意力头"(AI内部的并行处理单元)学会了完全不同的关注模式。有些注意力头表现出"最近邻居"行为,几乎只关注距离最近的一个原子。有些则表现出复杂的"排名依赖"模式,关注程度不只依赖于距离,还依赖于距离的相对排名。还有一些甚至学会了"反常识"的模式,对更远的原子给予更多关注,可能是为了捕捉某些特殊的长程相互作用。
在实际性能测试中,这个"无图可依"的AI表现同样令人印象深刻。在包含400万分子结构的OMol25数据集上,10亿参数的Transformer模型在预测分子能量方面达到了118毫电子伏特的平均绝对误差,在预测原子受力方面达到了18.4毫电子伏特每埃的误差。作为对比,最先进的图神经网络模型eSEN的对应误差分别为130毫电子伏特和13.0毫电子伏特每埃。
虽然在力的预测上图神经网络略有优势,但考虑到Transformer完全没有使用任何化学先验知识,这个结果已经相当惊人。更重要的是,Transformer在训练和推理速度上都明显更快,这得益于成熟的硬件和软件优化。
四、规模扩展的无限可能
研究团队进行的规模扩展实验可能是这项研究最具前瞻性的部分。他们训练了从80万参数到12亿参数的多个不同规模的模型,发现了一个在其他AI领域已经得到验证的重要规律:模型性能随着规模增大呈现可预测的改善趋势。
这种现象被称为"scaling laws"(规模定律),在自然语言处理领域已经成为指导大模型发展的重要原理。简单来说,就是模型越大、训练数据越多、计算资源越多,模型的性能就越好,而且这种改善遵循可预测的数学关系。
在分子AI领域,研究团队首次系统性地验证了这一规律的存在。他们发现,无论是在预训练阶段还是微调阶段,模型的性能都与参数数量呈现清晰的幂律关系。更重要的是,在他们测试的最大规模(12亿参数)下,性能改善趋势没有任何饱和的迹象,这意味着继续扩大模型规模很可能带来进一步的性能提升。
为了更深入地理解这种规模效应,研究团队还进行了"计算最优"分析。他们训练了不同规模的模型,使用不同数量的训练轮次,然后绘制出在固定计算预算下如何分配模型大小和训练时间能获得最佳性能。结果表明,存在一个最优的平衡点:在给定的计算资源下,既不应该训练过小的模型很长时间,也不应该训练过大的模型很短时间。
这种分析不仅具有理论价值,更有重要的实践意义。它为未来的分子AI研究提供了"配方指南":如果你有一定的计算预算,应该选择多大的模型,训练多长时间,才能获得最佳的性能回报。
更令人兴奋的是,这些规模定律能够用来预测更大模型的性能。研究团队用较小模型的训练结果拟合出数学公式,然后成功预测了更大模型的表现,误差非常小。这意味着,即使我们现在还没有足够的计算资源训练千亿或万亿参数的分子模型,我们也能大致预测它们的性能潜力。
从更宏观的角度看,这些发现暗示着分子AI可能正处在类似于自然语言处理几年前的关键转折点。就像GPT系列模型的规模扩展带来了ChatGPT这样的突破性应用,分子AI的规模扩展也可能催生出我们现在难以想象的新能力。
研究团队指出,目前图神经网络很难扩展到超过几亿参数的规模,而且在可扩展性方面一直面临理论和实践的双重挑战。相比之下,Transformer架构已经在其他领域证明了可以成功扩展到万亿参数的规模,拥有成熟的训练技术、硬件支持和软件框架。
五、分子动力学模拟的实战检验
为了验证这个"无图可依"的AI是否真的理解了分子世界的运行规律,研究团队进行了分子动力学模拟测试。这就像让AI不仅要能看懂静态的城市地图,还要能预测城市中交通流量随时间的变化。
分子动力学模拟是计算化学中的核心应用,它模拟分子在时间演进过程中的运动轨迹。就像预测一群人在广场上的行走路径,每个人(原子)的下一步动作都受到周围所有人的影响,而这种相互影响又会持续改变整个群体的运动模式。
研究团队选择了10个不同的分子进行100皮秒(一个极短的时间单位)的模拟,温度设定为500开尔文。他们特别关注一个重要的物理量:原子间距离分布函数,这个函数描述了分子内部原子之间的典型距离模式,是衡量分子结构稳定性的重要指标。
结果显示,Transformer模型预测的距离分布与参考标准(使用更大型模型UMA-S的结果)高度吻合,平均绝对误差仅为0.040。作为对比,两个不同版本的图神经网络模型的误差分别为0.077和0.065。这意味着Transformer不仅在静态预测上表现优秀,在动态模拟中也能准确捕捉分子的真实行为。
更有挑战性的测试是能量守恒模拟。在真实的物理世界中,一个孤立分子系统的总能量应该保持不变,这是物理学的基本定律之一。研究团队对Transformer进行了特殊的微调训练,让它学会预测"保守力"——即确保能量守恒的力。
在这种严格的物理约束下,Transformer同样表现出色。在100皮秒的模拟过程中,系统总能量的变化控制在极小范围内,证明模型确实学会了遵守基本的物理定律。相比之下,直接预测力(而非保守力)的模型会出现明显的能量漂移,违反了物理定律。
这些模拟实验的成功具有重要意义。它们证明了Transformer不仅能够进行静态的能量和力预测,还能用于实际的科学计算任务。在药物设计、材料科学、催化剂开发等领域,分子动力学模拟都是不可或缺的工具。Transformer模型的成功意味着它有潜力成为这些实际应用的可靠工具。
此外,研究团队还测试了模型的旋转不变性——即当分子在空间中旋转时,预测的力应该随之相应旋转,而力的大小保持不变。通过计算不同旋转角度下预测力的余弦相似度,他们发现Transformer达到了0.99以上的相似度,几乎完美地学会了这一重要的物理对称性。
六、未来应用的无限遐想
这项研究为分子人工智能开辟了一条全新的发展道路,其潜在应用前景令人振奋。首先,在不确定性量化方面,Transformer展现出了独特优势。由于模型学习的是分子结构的完整概率分布,它能够为每个预测结果提供"置信度评分"。
研究团队在SPICE数据集上进行的实验证明了这一点。他们训练了两个不同规模的Transformer模型,然后用这些模型预测新分子结构的"可能性分数"。结果发现,当其他机器学习模型(如MACE-OFF、GemNet、EScAIP)出现较大预测误差时,Transformer给出的可能性分数往往较低。这就像一个经验丰富的医生,不仅能诊断疾病,还能告诉你他对这个诊断有多少把握。
这种不确定性量化能力在实际应用中极其宝贵。在药物设计过程中,如果AI模型能够主动标识出它"不太确定"的分子结构,研究人员就可以优先对这些结构进行实验验证,避免在模型预测不可靠的区域做出错误决策。
在生成建模方面,Transformer的潜力同样令人期待。由于模型学习的是原子位置、能量和力的联合分布,理论上它可以用来生成全新的分子结构。这就像从学会阅读小说过渡到学会创作小说。研究团队指出,这种生成能力可以用于自动化的分子设计,为特定应用生成具有目标性质的化合物。
在多模态学习方面,Transformer架构的灵活性为整合不同类型的实验数据提供了可能。未来的模型不仅可以处理理论计算的分子结构,还可以融入光谱数据、X射线衍射结果、核磁共振信号等实验信息。这就像让AI不仅能读懂文字,还能理解图片、声音和视频,形成对分子世界更全面的理解。
研究团队还设想了"理论水平条件化"的可能性。不同的量子化学计算方法有不同的精度和计算成本,就像不同分辨率的相机。未来的模型可能能够根据指定的理论水平调整预测精度,在速度和准确性之间灵活平衡。
在更广泛的科学研究中,这种"无图可依"的方法可能启发其他领域的突破。任何需要理解复杂相互作用网络的科学问题——从蛋白质折叠到材料设计,从气候建模到生态系统分析——都可能从这种新的建模范式中受益。
当然,研究团队也诚实地指出了当前方法的局限性。虽然模型学会了近似的旋转不变性,但它不是严格意义上的物理对称性。在需要绝对精确遵守物理定律的应用中,可能还需要额外的约束或后处理步骤。此外,模型的训练稳定性仍有改进空间,特别是在微调阶段。
七、对科学研究范式的深远影响
这项研究的意义远远超出了技术层面的创新,它可能预示着科学研究范式的根本性变化。长期以来,科学研究依赖于人类专家归纳总结的"先验知识"——那些经过代代传承的经验规律和理论框架。在分子科学中,这些先验知识体现为化学键、分子图谱、反应机理等概念。
然而,这项研究展示了一种全新的可能性:让AI直接从原始数据中发现规律,而不依赖于人类预设的概念框架。这就像让一个外星人观察地球上的交通流动,它可能会发现我们从未想到的交通规律,因为它不受我们既有的"道路"和"红绿灯"概念的束缚。
这种方法的哲学意义深远。它暗示着自然界的基本规律可能比我们现有的理论框架更加丰富和复杂。当AI从原子坐标中自发学会距离-相互作用关系时,它验证了我们的化学直觉。但更有趣的是,AI还学会了一些我们没有预料到的复杂模式,比如不同注意力头的专门化分工,以及基于环境的自适应关注机制。
在更广阔的背景下,这种研究方法呼应了人工智能领域正在发生的"范式转移"。就像GPT模型通过学习海量文本数据展现出令人惊讶的语言理解和生成能力,分子Transformer通过学习大规模分子数据可能也会涌现出我们目前无法预测的新能力。
这种转移的核心是从"专家系统"向"大数据学习"的转变。传统的专家系统需要领域专家手工编码知识规则,就像手工绘制地图一样费时费力且容易遗漏。而大数据学习方法让AI自己从数据中发现模式,就像让GPS通过分析millions of trips自动优化路线一样。
当然,这种转变也带来了新的挑战。AI学到的知识往往是"隐性"的,嵌入在数百万个参数中,很难用人类可理解的方式解释。这就像一个围棋高手说不清楚自己为什么要在某个位置落子,只是"感觉"这样下会更好。在科学研究中,可解释性至关重要,因为我们不仅要知道结果,还要理解原因。
研究团队通过分析注意力机制部分解决了这个问题,但这只是开始。未来需要开发更多的分析工具和可视化方法,帮助科学家理解AI学到的分子知识,并将其转化为可操作的科学洞察。
另一个重要考虑是数据的质量和代表性。AI的学习能力完全依赖于训练数据,如果数据存在偏差或覆盖不全,AI的知识也会相应受限。这就像一个人如果只在北京生活过,可能对南方的气候和文化缺乏准确理解。确保训练数据的多样性和质量将是未来研究的重要方向。
说到底,这项研究展示了一种令人兴奋的可能性:科学发现可能不再局限于人类专家的认知框架,AI可以成为探索未知领域的强大伙伴。就像望远镜扩展了我们的视野,显微镜揭示了微观世界,AI可能成为探索复杂系统规律的新型"认知工具"。
在这个快速发展的领域,传统的图神经网络方法当然仍有其价值,特别是在那些物理约束极其重要的应用中。但这项研究为我们打开了一扇新的窗户,让我们看到了不依赖预设图谱的分子AI的巨大潜力。随着计算资源的不断增强和训练技术的持续改进,这种方法可能会在未来几年内带来更多令人惊喜的突破。
对于整个科学研究领域而言,这项工作提醒我们保持开放的心态,勇于挑战既有的假设和方法。有时候,最大的突破来自于最简单却最根本的问题:我们真的需要那些看似不可或缺的"先验知识"吗?答案可能会让我们重新思考科学发现的本质。
Q&A
Q1:什么是Transformer架构?为什么它能用于分子研究?
A:Transformer是支撑ChatGPT等大语言模型的核心技术架构。它原本用于处理文字序列,但这项研究发现它也能处理分子数据。研究团队将分子的原子坐标、能量等信息转换成数字序列,让Transformer像理解语言一样学习分子规律。最神奇的是,它能自动学会原子距离越近相互作用越强这样的化学基本规律,完全不需要人工告诉它什么是化学键。
Q2:这种方法比传统的图神经网络有什么优势?
A:主要有三个优势:第一是适应性更强,传统方法用固定距离判断原子是否相连,而Transformer能根据分子环境灵活调整关注范围;第二是计算效率更高,得益于成熟的硬件和软件支持,训练和运行速度都更快;第三是扩展性更好,能够轻松扩展到数十亿参数规模,而图神经网络很难做到这一点。
Q3:这项技术现在能用于实际的药物研发或材料设计吗?
A:目前还处于研究阶段,但已经展现出实用潜力。研究团队成功用这个AI进行了分子动力学模拟,这是药物设计和材料科学中的重要工具。不过在实际应用前,还需要解决一些问题,比如确保严格遵守物理定律、提高预测的可解释性等。研究团队预计随着模型规模进一步扩大和训练技术改进,实用化应用指日可待。





京公网安备 11011402013531号