当前位置: 首页 » 资讯 » 新科技 » 正文

诺奖得主最新预言:后AlphaFold时代,AI4Science将遍地开花!

IP属地 中国·北京 编辑:顾雨柔 学术头条 时间:2025-07-17 18:22:56


他是新晋诺奖得主读博期间因「无法被物理学吸引」而选择辍学。在从一名物理学家转行成为计算生物学家后,他借助人工智能(AI)技术解决了困扰科学界数十年的「蛋白质折叠」难题。

他就是John Jumper,现任 Google DeepMind 杰出科学家。几个月前,他与 AlphaGo 之父、该公司的联合创始人兼 CEO Demis Hassabis 因“在蛋白质结构预测方面的贡献”共同获得了 2024 年诺贝尔化学奖。

日前,在Y Combinator 于旧金山举办的 AI Startup School 活动上,他分享了 AlphaFold 从最初的创意萌芽,到在CASP 竞赛中崭露头角,再到迭代升级为AlphaFold 2 并实现原子级精度预测的全过程,以及彻底改变生物学领域。

他阐述了蛋白质折叠背后的科学难题、关键算法突破,以及将数百万种蛋白质结构向全球研究人员开放所带来的深远影响。

学术头条在不改变原文大意的前提下,对访谈内容做了适当的精编和删减。如下:

我曾在 AI4Science 领域做过一些工作,我相信我们可以利用人工智能(AI)系统改变世界,加速科学进展,催生新的发现。这真的很棒,我们有机会运用这些工具、这些想法,思考如何建立合适的 AI 系统,从而使病人痊愈,离开医院。

从物理学家,到计算生物学家

我经历了一段非常精彩的旅程。我最初是学物理学的,曾想成为一位研究宇宙定律的物理学家。如果运气足够好,我的工作可能还会在某本教科书中占一行字。后来,我还选择攻读了物理学博士学位。然而,我做的那些研究并没有真正吸引我,我感觉它不像是我想做的事情。

所以,我选择了辍学。我没有像许多人那样创办一家初创公司,本来这似乎很适合我,而是去了一个从事计算生物学的公司,研究如何让计算机对生物学作出聪明的判断,我热爱这项工作,不仅因为它很有趣,更因为它能让我做自己擅长的事情:编写代码、推导公式、深思熟虑地探讨世界的本质,并且将这些应用到一个非常实际的目的上:最终,我们希望能研发出药物,或者帮助其他人研发出药物。

后来,我离开了这家公司,重返学校、攻读生物物理学和化学,逐渐成为了一名生物学家和机器学习研究者。我无法像之前(在企业)那样使用强大的计算硬件,于是开始深入学习并对统计学、机器学习产生兴趣。那家公司拥有专用于模拟蛋白质动态定制的专用集成电路(ASIC)。失去这些资源后,我仍然想研究同样的问题,但我不想用更少的算力做同样的事。当时,我们并没有把它称作AI,甚至连机器学习这个词也没那么常见,我们称自己为统计物理学的研究者。但关键问题是:我们如何开发算法?如何从数据中学习,而不是依赖巨大的计算资源?

结果我发现,除了大量计算,AI 是解决新问题的关键。后来,我加入了 Google DeepMind,一家想要探讨如何利用这些技术以及想法推动科学进步、拓展科学边界的公司。

工业界的节奏飞快,我很幸运能与一些非常聪明的人合作,并拥有强大的计算资源。这一直非常有趣,而我现在站在这里,意味着我们确实取得了一些进展。对于我而言,最重要的指导原则是:我们做这项工作最终目标,构建一些使科学家做出发现的工具

关于AlphaFold的一切

最让我感到欣慰的,是 AlphaFold 至今已有大约 35000 次引用。而在这些引用中,有成千上万的例子是科学家们使用我们的工具做出的发现,这些是我个人无法做到的工作,但它们正被用来做出发现——无论是疫苗,药物开发,还是研究身体如何运作。我觉得这非常令人兴奋。

今天我想和大家分享的,就是关于这个项目的故事,尤其是机器学习研究在其中发挥的作用——这并不是简单的现成机器学习工具。我还想告诉大家,创造出一个伟大的工具后会发生什么,它是如何被使用的,以及它将如何影响世界。

1细胞与蛋白质的复杂性

我们先来上一堂世界上最简短的生物学课程。细胞是复杂的。对于仅在高中或大学学过生物学的人来说,可能会认为细胞是由几个附有标签的简单部分组成,但实际上它的构造要复杂得多。它是密集且复杂的,且充满了巨大的复杂性。


人类大约有 20000 种不同类型的蛋白质,它们组合在一起,执行细胞中几乎所有的功能。

人们常说 DNA 是生命的说明书,它会告诉你如何构建一个蛋白质。生物体已经进化出一种机制,它能够利用原子来构建它所需要的机器,也就是字面意义上的纳米机器。DNA 是一维的线状分子,而蛋白质在某种意义上也是如此。它就像一串珠子,发出指令,将不同种类的氨基酸串联起来。

你可能会想,DNA 是一个线性结构,但显然不是一维的。那么,这之间会发生什么呢?答案是,在构建这个蛋白质并一块一块地组装完成后,它会自发地折叠成一个形状。就像你买了一个宜家书架一样,不用去做任何难的工作,它就自动组装完成,最终得到一个非常复杂的结构。你可以看到一个典型的蛋白质,如激酶(对于生物学家应该很熟悉),你可以看到其中的复杂原子排列,而这个排列是有功能性的,让你身体中的大多数蛋白质都能发挥作用。

2蛋白质结构测定的挑战

事实上,绝大多数蛋白质都会经历自我折叠的过程,而这个过程是极其微小的——光线的尺寸只有几百纳米,而蛋白质则仅有几纳米。这意味着,它们无法通过光学显微镜被观察到,你根本看不见它们。长期以来,科学家们一直想要了解这种结构,来预测蛋白质结构变化如何影响疾病。这关乎蛋白质如何工作,以及整个生命科学如何运转。通常来说,药物的研发就是为了中断或改变某种特定蛋白质的功能。

科学家们已经通过大量聪明的办法弄清楚了很多蛋白质的结构,但这依然是一项异常困难的任务。这不像我们想象的那样,只要打开实验手册,按照蛋白质结构测定的实验步骤做就行了。这需要绝对的智慧,创新的观念,以及探索解决问题的途径。

接下来,我要描述的就是一种通过实验确定蛋白质结构的预测方法,或者说蛋白质结构的实验测定。首先你需要让这些庞大而不规则的分子形成一个规则的晶体,就像食盐一样。这个过程非常复杂,所以科学家们要尝试许多方法,不断进行创新,就像许多科学探索一样,过程漫长而艰难,很容易失败。

为了让大家直观体会这项工作的难度,我随便找了一篇论文。在实验方法部分写道:“经过一年多的努力,晶体开始形成。”这意味着科学家们不仅要完成所有困难的实验,还必须耐心等待一年时间,才能知道自己的努力是否有效。而在等待的一年里,他们可能已经尝试了另外上千种无效的方法。

一旦成功获取晶体,就可以将这个样本送进同步加速器。你可以看到,这台仪器之大,甚至需要围绕它开车。你用它产生的高强度X 射线照射晶体,拍摄它的衍射图谱,然后解析出蛋白质结构,并将其存放在 PDB(蛋白质数据库)中。我们的研究工作之所以能够取得突破,得益于 50 年前科学家们将这些蛋白质结构都集中存放在这里,让我们后来能够获取。PDB 收集了科学界几乎所有的学术蛋白质结构,供每个人使用。

以下是我们基于这个数据库所做的研究。目前,大约有 200000 个蛋白质结构,每年大约增加 12000 个,但这与实际需求相比还远远不够。获取关于蛋白质的源头信息,也就是 DNA 序列,远远比蛋白质结构的获取容易得多。当前蛋白质序列的发现速度比解析蛋白质结构的速度快了大概 3000 倍。

3构建AlphaFold

以上是一些科学背景。接下来,我想和大家谈谈我们所做的工作,我们先看一下这张示意图。


我们想要建立一个 AI 系统,实际上,我们并不关心它是否是一个 AI 系统。这是做 AI4Science 工作中的一个好处——我们专注于解决问题本身,而不在乎如何解决问题。我们的目标是找到一种方法,无论它是一个计算机程序,还是其他任何形式,从左侧代表蛋白质氨基酸序列的部分出发,我们想通过中间的部分,也就是 AlphaFold,最终得到右侧的 3D 结构,你会在图中看到两个结构,蓝色的是我们的预测结果,绿色的是通过实验获得的真实结构。后者往往需要耗费科学家一至两年的时间,以及约 10 万美元的研究成本。

你可以看到我们做到了这一点,我想告诉你们,我们是如何做到的。实际上,要解决这个问题,或者任何一个机器学习的难题,有三个主要的要素:数据、算力、算法。我觉得我们强调的大多是前两个,而对第三个——算法的研究讲得还不够。

在数据方面,我们拥有 200000 个蛋白质结构,在算力方面,我们用的并不是LLM(大语言模型)规模的计算,最终的模型基于 128 个 TPU V3 核心,大致相当于 128 块GPU,计算了大约两周的时间,这完全在学术界可以承受的范围内。但值得一提的是,算力的大部分成本并不是最终模型的计算成本,而是那些尝试了各种方案却未能奏效的过程,所有你必须经历的失败尝试。

最后,关于算法研究,我想说的是,这项工作的关键在于,大部分研究可能只有两个人参与,真正做这项工作的是一个小团队。因此,当你看到这些机器学习的重大突破时,背后参与的人员可能远比你想象的要少。实际上,这就是我们与众不同的地方。我们提出了一系列新的想法,如何将机器学习带入蛋白质结构预测的问题。

可以说,早期的系统,主要基于卷积神经网络(CNN),取得了一些进展,确实有所改善。但如果你把它替换成一个 transformer,说实话,效果差不多。如果你将 transformer 的想法与大量的实验和更多的创新结合,你才能看到真正的变化。在几乎所有今天看到的所有顶尖的AI 系统中,都包含了大量的研究和创新,这些是中等规模的创新的集合。

4.AlphaFold的突破与公开数据

这些突破不仅仅是头条新闻中的“transformer”“大规模扩展”“测试时推理”等。这些固然重要,但它们只是一个非常强大系统的众多元素之一。事实上,我们甚至可以量化我们研究的价值。例如,AlphaFold 2 是这个系统的一个重要改进版本,AlphaFold 1 是当时最先进的系统。

然而,AlQuraishi 的科学家们做了一个非常严谨的实验,结果显示,AlphaFold 2 只用 1% 的数据训练时,其准确度就与 AlphaFold 1 相当甚至更高。所以,可以清楚地看出,算法研究所产生的效益要比数据的价值高得多,约为数据的 100 倍。

我认为这非常重要。当你们在思考初创公司或正在考虑创业时,一定要考虑到:想法、研究和发现是如何放大数据和算力的。我们当然希望利用更多数据、更多算力,但在做机器学习研究时,创新和思想是至关重要的,它们能够帮助我们真正改变世界。

此外,我们可以回过头来做一些细致的分析,看看哪些部分在我们的系统中起到了关键作用。不要太过于关注细节,我们从论文中提取了一些数据,你可以看到这与基准模型的差异。


如上图,我们可以看到,每去掉一个系统中的组成部分,都会影响到最终结果的准确性。有一些创新的想法,很多在当时是非常流行的研究方向。例如,关于等变性(equivariance)的研究,人们说“等变性就是解决问题的关键,AlphaFold 正是一个等变性系统,它太棒了,接下来我们一定要继续研究等变性,以便获得更强的系统”。然而,我对这个想法感到困惑,因为第六行展示的“IPA 不变点注意力”(IPA-Invariant Point Attention),实际上去除了系统中的所有等变性,虽然会稍微影响系统,但影响却很小。实际上,AlphaFold 2 在 GDT 上比 AlphaFold 1 的准确性提高了约 30 个百分点,而等变性只解释了其中的两三个百分点。它并不是依靠一个单一的想法,而是通过多个中等规模的创新叠加起来,形成了一个革命性的系统。

当你在构建这些系统时,必须牢记生物学的相关性。我们有一些创新的想法,能够将我们的系统优化提升。我们的系统逐步变得更好,越来越精确,最终我们达到了一个阈值,足以让那些不关心机器学习的实验生物学家也信赖并采纳。但我们必须通过大量努力,而一旦我们做到了,它将带来令人难以置信的变革。

我们可以借助这项评估来进行衡量。其中,深蓝色代表AlphaFold 的结果,其余颜色则对应当时的其他系统。在蛋白质结构预测领域,由于存在“盲测”评估机制,它在某些方面要远远领先于 LLM 和通用机器学习领域。自 1994 年开始,有一项名为 CASP 的盲测竞赛每两年举办一次。所有热衷于蛋白质结构预测的团队都会参与其中,对大约 100 个刚被解析但还未发表的蛋白质结构进行预测。正因为答案是未知的,所以这种方式能够真实地检验出哪种方法才是真正有效的。


在此次竞赛中,我们的预测误差大约仅为其他所有团队平均误差的三分之一。这一点意义重大,因为只有在面对答案未知的问题时,才能真正评判一个系统的好坏。你会发现,很多系统在真实场景的检验中表现并不理想,这是因为我们很容易把自己的思路“过拟合”到已知的基准测试数据集上。实际上,现实世界中的问题几乎总是比训练时遇到的问题更具挑战性。毕竟,你需要从海量数据中总结规律,再将这些规律应用到某个至关重要、且独一无二的新问题上。所以,无论是在系统开发阶段,还是用户决定是否采用该系统时,建立可靠的衡量标准都极为关键。而外部基准测试对于区分真正有效的解决方案、并推动世界发展而言,更是必不可少的存在。

5AlphaFold更易于获取

同样值得一提的是,我们深知这个工具的重要价值,在经过大量评估后,决定通过两种方式向所有人开放。一方面,我们将代码进行了开源;另一方面,在代码开源大约一周后,我们发布了一个规模庞大的预测数据库,初期包含 30 万个蛋白质结构,后续又扩展到 2 亿个,基本覆盖了所有已测序物种的全部蛋白质。这一举措带来了翻天覆地的变化。

这里有个有趣的社会学现象:当我们仅发布代码时,反响主要集中在专家圈子里;而当我们以数据库的形式将成果直接呈现给全球用户后,引发的轰动效应则完全不同。观察这种反应的过程十分有意思,当时我们每天都会在 Twitter 上刷新动态,关注大家的讨论内容。即便在 CASP 竞赛结束后,结构预测领域的专家们已经认可这是一项重大突破,但那些我们真正希望使用该工具的普通生物学家,他们专注于用蛋白质开展实验,并不关心结构预测本身,并且仍对此心存疑虑,甚至会想:“或许这次 CASP 的题目比较简单吧。”直到数据库发布后,人们的好奇心才被彻底激发。这种信任的建立在某种程度上带有社会性,其深度令人难以想象。甚至有人会惊讶地问:“DeepMind 是怎么获取到我还未发表的蛋白质结构的?”

当他们开始相信这个数据库时,真正的转折点就出现了。每个人心中都有一个自己始终未能解析的关注蛋白质,或者可以拿朋友未发表的结构悄悄进行比对。这种开放性和易用性,让所有人都能亲手尝试并亲自验证它的可靠性,而口碑传播正是建立信任的关键所在

我们看到了一些用户的评价:“我曾花三四个月攻克这个难题,今天早上用 AlphaFold 预测后,结果好得让人难以置信。真希望早点用上它,挽回那些浪费的时间!”当面对一个耗费一年时间都无法成功表达和纯化的蛋白质时——这意味着研究者一整年都无法获得开展下一步实验的材料,AlphaFold 的价值就充分显现出来了。这些评价意义重大,因为当你解决了真正的问题、创造了适用的工具,就能改变世界,改变那些在你成果基础上继续探索的不同领域研究者的生活。

看到这些用户反馈并与无数人交流,这种感觉非常美妙。而让我真正意识到这个工具重要性的,是在它发布几个月后:Science 杂志推出了关于“核孔复合体”(Nuclear Pore Complex)的专刊,这是一个由数百种蛋白质组成的超大复合体。令我们意外的是,专刊中的四篇重磅论文中,有三篇都深度运用了 AlphaFold,整本杂志中“AlphaFold”这个词出现了一百多次。而我们对此完全不知情,也没有与这些研究人员合作,这完全是科学家们在我们的工具的基础上进行的新科学研究,而这是最令人兴奋的时刻。

6实际应用与成功案例

更有趣的是,用户常常用出一些我们完全没有预料到的方式使用 AlphaFold。如下图,Yoshika Morowaki 在 AlphaFold 的代码发布两天后发的一条推文。


我们当时预测了各个蛋白质的结构,本来计划要构建一个系统来预测蛋白质如何相互结合。然而,这位研究人员说,“既然我有 AlphaFold,为什么不把两种蛋白质组合起来,看看会发生什么?”你可以把这种尝试理解为一种蛋白质的“提示工程”(prompt engineering)。然后他们发现,居然是世界上最好的蛋白质相互作用预测

AlphaFold 可以处理我们未曾预料到的问题。这显示了当你训练出一个强大的系统时,它能在某些方面展现出我们没有预料到的“涌现”技能。人们开始发现许多以前从未想到的用法,而这还只是开始。我们看到越来越多的科学家在利用 AlphaFold 进行蛋白质设计,或是尝试解决其它新问题。

一个非常重要的应用是,人们开始学习如何用它来设计和改造大型蛋白质,或者在部分研究中利用它。我想讲这个故事有两个原因:第一,它是一个非常酷的应用;第二,它实际上揭示了科学工作范式的改变。很多人总说,科学的本质是实验和验证。大家会觉得,既然你已经有了这么多 AlphaFold 预测的结果,那现在我们只需要用传统的方法解析所有蛋白质的结构,告诉我们这些预测是对的还是错的。

这是对的,科学的确是要依赖实验。然而,他们错的地方是,科学不仅仅是通过去解决某个特定蛋白质的结构来做实验,而是通过提出假设并加以验证。在这个例子中,科学家们关注的问题是如何利用 AlphaFold 预测的蛋白质结构来设计一个新的蛋白质,进而用它做新的药物递送。为了这个目的,他们选择了一个名为收缩性注射系统(Contractile Injection System,简称CIS)的蛋白质,这个蛋白质在许多细菌中发挥作用,帮助它们将毒素或效应分子注射到宿主细胞中。这种系统在基因编辑和靶向药物递送领域具有巨大潜力。

MIT 的 Jang Lab 提出了一个有价值的问题:我们能否借助这种蛋白质实现靶向药物递送?能否用它将 Cas9 这类基因编辑工具输送到特定细胞中?他们尝试了 100 多种方法来改造这种蛋白质,但当时他们并没有掌握该蛋白质的结构。


以上是依据模型渲染出的效果示意图。他们希望改变这种蛋白质的识别对象。原本,这种蛋白质参与植物防御等功能,但科学家们并不清楚该从何处着手改造。在运行 AlphaFold 后,他们获得了一个预测模型。说实话,这个模型本身并非完美无缺。不过,他们几乎立刻从中发现了关键信息:模型底部的支架结构,揭示了它识别并附着到目标细胞的方式。既然如此,我们为何不直接用人工设计的蛋白质来替换它们呢?在使用 AlphaFold 进行预测后,他们设计了一个新的蛋白质(见图中的红色部分),替换掉原本的接合部分,从而改变了蛋白质的识别特性,使其能够靶向特定的细胞。结果表明,这个新设计的蛋白质成功地将目标细胞中的荧光蛋白标记出来,这项发现有助于开发新型的靶向药物递送系统。

我们还能看到更多这样的例子。越来越多的科学家开始运用这一工具,探索成千上万种分子间的相互作用,以此确定哪些可能具有重要意义。研究人员通过 AlphaFold 预测发现了精子与卵细胞结合的新的机制,这个发现深刻改变了我们对生殖过程的理解。类似的应用几乎无穷无尽,许多以 AlphaFold 为基础的新发现层出不穷,推动着科学界不断向前发展。

通用AIAI4Science未来

我个人认为,AlphaFold 将整个结构生物学领域,即研究生物大分子结构的领域的发展速度,提升了 5%-10%。这个数字看似不起眼,但它对世界产生的影响却十分深远。

我相信,我们未来会见证更多由此引发的科学突破。我认为,归根结底,结构预测乃至更广泛意义上的AI4Science,都应被视为一种强大的能力,能够为实验研究者的工作提供助力。我们从这些零散的观察结果、这些自然数据出发——相当于互联网上所有的文字信息。我相信,我们会不断看到这种模式,而且它会变得越来越通用。我们会找到合适的基础数据源来实现这一点。

另外,这种方法的一个重要特点是,从已有数据入手,进而探寻它所能解决的问题。这种方式有望推动各个科学领域取得重大突破。这些模型具备强大的能力,能理解细胞内的相互作用。这些都是从这些预测结果中提取科学内涵后所带来的成果,而且模型所遵循的规则还能被调整应用于新的目标。

我认为,这正是 AlphaFold 这类专用系统展现其“基础模型”潜力的核心所在。事实上,我相信我们会开始在更通用的系统(无论是 LLM,还是其他类型的系统)中看到这种趋势。我们会在这些系统中融入越来越多的科学知识,并将它们应用于至关重要的领域。这才是未来真正的发展方向。

在 AI4Science 研究中,最令人兴奋的问题是:它的通用性会达到何种程度?我们是只能在少数几个特定领域取得颠覆性成就,还是拥有更具通用性强大系统?我的预测是,随着我们不断深入研究,后者终将会实现。

视频链接:

https://www.youtube.com/watch?v=2Yguz5U-Nic&ab_channel=YCombinator

整理:小瑜

如需转载或投稿,请直接在公众号内留言

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。