当前位置: 首页 » 资讯 » 新科技 » 正文

清华双成果颠覆蛋白质设计:全自动进化工厂实现设计验证闭环

IP属地 中国·北京 DeepTech深科技 时间:2025-12-08 22:17:58

从去年到今年,清华大学教授张数一和团队连着两个冬天做出两个“AI+蛋白质”成果,它们分别是极速压缩与智能重建蛋白质序列空间的 EvoAI,以及能够 24 小时昼夜不停、全自动进化蛋白质的 iAutoEvoLab 工厂。相关论文分别发表于 Nature Methods 和 Nature Chemical Engineering。

EvoAI 和 iAutoEvoLab 的结合,形成了一个闭环:

iAutoEvoLab 可以产生大量的进化数据,反过来这些数据又能喂养和训练 EvoAI,让其预测能力和设计能力越来越强。

而更强大的 EvoAI 又可以指导 iAutoEvoLab 设计更聪明的进化路线和基因回路,实现蛋白质的可编程进化。

未来,这个自动化实验-AI 的闭环,有望打通蛋白质序列到复杂功能的黑箱。其中,马梓源和沈达分别是相关论文的第一作者。


图 | 从左到右:张数一、沈达、马梓源(资料图)

EvoAI:将海量蛋白质压缩进一个锚点百宝箱

当把所有可能的蛋白质序列视为一片无边无际的星空,那么找到那些功能优秀的蛋白质,就像是在银河系中寻找适合生命存在的星球。传统方法要么像使用望远镜一样一个一个地费力观察及实验筛选,要么就是试图使用并不完整的星图去做推算即计算机预测,这两种方法不仅缓慢而且存在误差。

张数一团队给出的解决方案是:抛开逐个扫描的做法,只需找到那些最明亮、最具代表性的锚点蛋白质就行了。这些锚点就是那些包含了关键功能信息的蛋白质变体。只要锚点足够有代表性,就能描绘出整个高功能蛋白质的路线图。

张数一告诉 DeepTech:“我们的解决思路类似于图片压缩,就是将关键信息提取并浓缩在更小的尺寸里,无需传递全部庞大数据,也能保留核心特征。通过这种极致的压缩,可以高效捕获那些定义蛋白质功能景观的关键数据点也就是锚点。”


(https://doi.org/10.1038/s41592-024-02504-2)

为了高效地找到这些锚点,他们发明了一套名为 EvoScan 的进化扫描方法。这套方法的核心在于利用了一种会感染细菌的病毒也就是噬菌体作为进化平台,其上承载着那些需要接受改造的蛋白质基因。他们还给这套系统配备了一个基于 CRISPR 的定向突变系统,这样一来就可以瞄准蛋白质基因的特定段落进行突变。

同时,他们还设计了不同蛋白所需要的基因回路(genetic circuit)来作为筛选方法,借此将蛋白质功能的好坏与噬菌体的生存能力直接挂钩。那些功能好的蛋白质能让噬菌体实现大量繁殖,那些功能差的蛋白质则会直接被淘汰。

这让 EvoScan 能像使用探照灯进行分区扫描一样,快速、系统地探索蛋白质的各个区域,从而能够找出那些让蛋白质功能变强的关键突变点也就是锚点。


(https://doi.org/10.1038/s41592-024-02504-2)

为了验证 EvoScan 方法的效果,张数一等人进行了蛋白-蛋白相互作用、蛋白-小分子相互作用、蛋白-核酸相互作用等不同场景下的三个实验。

在第一个实验中,他们成功进行了回复突变实验,使得绿色荧光蛋白的纳米抗体恢复功能,证明了 EvoScan 的精准定位能力。

在第二个实验中,针对新冠病毒的主蛋白酶也就是病毒复制必需的关键蛋白质,他们使用两种不同的药物,以耐药性作为筛选压力,借此进行全基因扫描。结果不仅找到了已知的耐药性突变,还发现了一批从未被报道过的新耐药位点,并且这些位点遍布于整个蛋白质之中。这进一步证明了 EvoScan 的全局扫描能力。

在第三个实验中,他们选择了一个同源性较低的转录因子蛋白质 AmeR。通过设计多轮的多维扫描路线,从可能的序列空间之中,捕获了 82 个关键的锚点变体。这些变体大多包含了多个突变,功能都比原始蛋白质更强大。其中,表现最好的一个单突变体 S57R,在细菌和人类细胞中都变成了更加高效的基因开关,能够为合成生物学提供优质的零件。

找到 82 个锚点只是第一步。关键在于下一步:如何用这区区 82 个点,去代表和重建理论上高达 10^50 的可能性的整个高功能序列空间?

为此,他们结合了预训练的蛋白质结构模型 GeoFitness 和蛋白质语言模型 ESM-2,使用这 82 个锚点的数据进行训练,教会 AI 理解这些突变之间的复杂的相互作用,即理解一种名为上位性的现象。

结果显示:这个名为 EvoAI 的混合智能模型,仅仅凭借 82 个锚点,就对于 AmeR 的序列空间进行了更加准确的描绘。基于预测模型规划的序列空间,当张数一团队使用 AI 设计包含 6 个突变的全新蛋白质时,所有 10 个由 AI 设计的蛋白质变体功能都得到了大幅提升,活性提高了 10-38 倍。相比之下,使用传统低维突变数据训练出来的模型,设计出来的全部是相较于初始蛋白功能更差的蛋白质。

经过计算,AmeR 这个无比庞大的高功能蛋白质设计空间被压缩了 10^48 倍,并且只用 82 个锚点就大大提升了设计空间的可读性/可预测性。因此,EvoAI 证明了蛋白质功能景观具有极端的可压缩性,为蛋白质工程设计打开了新纪元的大门。


(https://doi.org/10.1038/s41592-024-02504-2)

iAutoEvoLab:24 小时不停歇的全自动蛋白质进化工厂

找到了设计蛋白质的智能方法 EvoAI 之后,另一个巨大的挑战摆在面前:如何将想法快速、大规模地变为现实?许多富有潜力的蛋白质,尤其是涉及到功能复杂或多结构域融合的蛋白质,在待改造的目标功能方面,它们的起始活性可能极低甚至为零,使用传统方法改造它们堪比大海捞针。

于是,张数一团队携手合作者打造出一个工业级全自动实验室 iAutoEvoLab,它的目标是将蛋白质定向进化这个过程,变得像现代化工厂流水线一样的高通量、高效率和高可靠性,并且几乎无需人工干预。


(https://doi.org/10.1038/s44286-025-00303-w)

iAutoEvoLab 融合了硬件、软件与无菌环境:

在它的硬件部分里,涉及到一个液体处理工作站,该工作站就像灵巧的机械手一样,能够精确地进行样品传代和溶液配置。机械臂在导轨上来回穿梭,将培养板在不同设备之间进行运转。恒温培养箱、生长检测仪和冰箱等各司其职。其还打造一个定制化的倾斜模块,能够让液体转移变得更加精准。

在它的软件部分里,涉及到一个名为 MegaFluent 的软件控制系统,它不仅能够编排复杂的操作流程,还能分析生长检测仪传来的细菌生长数据,根据设定好的阈值能做出如下决策:哪个孔该进行继续培养?哪个孔达到了传代标准?该使用多大的稀释比例和药物浓度?通过这些决策其能针对每个实验孔实现独立反馈控制。

在它所附带的无菌环境里,头顶的层流罩能够提供洁净的空气,确保在长达数周甚至数月的连续进化过程中,样品不会被污染。


(https://doi.org/10.1038/s44286-025-00303-w)

光有自动化平台还不够,还需要有一个进化引擎。为此,张数一团队选择了基于 OrthoRep 的酵母体内生长偶联连续定向进化系统。他们评估了多种与酵母生长相关的选择标记基因,并设计了一系列基因回路,将目标蛋白质的功能好坏,直接转换为这些选择标记基因的表达强弱,从而能与酵母细胞的生长状态进行牢牢绑定。

这就像给每一个等待进化的蛋白质设定了一个游戏规则:功能得到改进的,酵母就能活得好和活得长;功能变差或者功能不变的,酵母就会被淘汰。在这种持续不断的生存压力之下,进化以自动的方式开展着。

为了探明它的真实本领,他们挑战了一项高难度任务:改造一个融合蛋白 CapT7。如能成功进化则可一次性完成基因转录和 mRNA 加帽,那么将在 mRNA 疫苗生产和药物开发中产生巨大应用潜力。但问题在于,最初的融合蛋白在酵母里几乎检测不到活性,因此这是一个近乎于从零开始的进化难题。

然而,iAutoEvoLab 在超过 25 天的时间里,24 小时不间断地运行着,并管理着上百个独立的进化线路。根据实时生长数据,软件会以动态方式调整每个孔中的抗生素浓度和菌液稀释比例,逐步地加大进化压力。


(https://doi.org/10.1038/s44286-025-00303-w)

经过多轮的自动化筛选,他们获得了功能得到显著提高的变体。通过后续接入自动化连续流培养装置,进一步地施加极限选择压力,他们得到了 CapT7-V14,其在酵母中驱动基因表达的能力比最初版本提高了 30 倍以上。

iAutoEvoLab 的成功证明了,即使是从功能几乎为零的起点出发,通过全自动、高通量、可编程的进化,也可以锻造出具有实用价值的蛋白质工具,并能将蛋白质工程这样一门高度依赖人工经验的手艺,升级为标准化和规模化的先进制造。期刊编辑评价称:“不难想象,这样的平台将在扩大蛋白质工程产业规模方面找到一系列实际应用。”

张数一也表示:“论文发表后,我们收到了来自多方的关注与联系。我们搭建这一平台的初衷,正是希望未来它能成为一个通用型工具,使产出的数据建立在统一、标准化的基础之上。”

参考资料:

https://www.nature.com/articles/s41592-024-02504-2?sessionid=

https://www.nature.com/articles/s44286-025-00303-w

运营/排版:何晨龙

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。