近年来,人工智能(AI)与生命科学的深度融合,正在以前所未有的速度推动着科研范式的根本性变革。从传统的描述性分析到如今的预测性模拟,AI 正逐步成为揭示生命奥秘、加速药物研发的强大引擎。其中,AI 虚拟细胞(AI Virtual Cells, AIVC)作为生命系统的数字孪生,正成为生物学家开展高通量虚拟模拟实验的一种重要方法路径。
在这一前沿领域,同济大学数字生命智能体实验室(DELTA Lab)正致力于利用 AI 技术构建数字生命智能体。近日,该实验室相继发布了两项阶段性研究成果——AlphaCell 和 CellHermes,分别从“虚拟细胞世界模型”的构建和“细胞语言模型”的跨模态异构数据融合两个维度,加速 AI 虚拟细胞研究从概念验证走向实用预测的进程。
AlphaCell:构建“虚拟细胞世界模型”,迈向高保真细胞扰动预测
虚拟细胞的概念最早可追溯至 21 世纪初。2001 年,《生物技术趋势》杂志(Trends in Biotechnology)就称之为“21 世纪的重大挑战”,提出要通过计算机完整模拟一个细胞的全部生命过程。此后二十余年,传统机制建模因多尺度交互、非线性动力学等复杂性而进展缓慢。
直到 2023~2024 年,人工智能与单细胞组学技术的爆发式融合,快速改变了这一局面,学界开始尝试利用大规模的深度神经网络进行建模,让 AI 从海量组学数据中直接学习细胞的多模态表征与动态规律。
当前计算生物学正从描述性推断转向预测性模拟,这种研究范式的转变,将对未来的生命科学研究产生深远影响。传统统计学建模难以应对高维度、高复杂度的生物数据,而在 AI 技术的驱动下,科学家得以进行预测性研究。
然而,现有的单细胞扰动预测框架,包括隐变量算术模型(如 scGen、CPA)、图网络模型(如 GEARS)、隐空间流模型(如 CellFlow)以及基于集合匹配的基础模型(如 STATE),在全基因组动态建模时仍面临三大结构性瓶颈:
![]()
图丨刘琦(受访者)
表征不完整(Representation Incompletion): 现有模型往往依赖启发式特征选择,将细胞基因特征截断为有限的高变基因(HVGs),从而对低表达但关键的调控因子产生“盲区”,损害了细胞状态定义的理论完备性。
同济大学数字生命智能体实验室负责人刘琦教授在采访中对 DeepTech 强调,传统方法仅用高变基因描述细胞状态“远远不够”,只有将所有基因纳入考虑,采取这种“全量输入”,才能确保细胞状态定义的理论完备性,避免了因丢失低丰度关键基因而导致的预测偏差。
重构失真(Reconstruction Distortion): 隐变量模型解码机制薄弱,导致隐空间内的数学操作在解码回原始基因空间时,容易产生脱离实际测量的“生物学幻觉”。
动态迁移缺陷(Transferability Deficiency): 现有方法多将扰动建模为离散跳跃或在受限局部空间扩散,缺乏全局统一的连续坐标系,难以学习可跨细胞类型迁移的“通用动力学法则”。
AlphaCell 的三大核心架构创新
在这一背景下,研究团队联合同济大学自主智能无人系统前沿科学中心、上海期智研究院等团队,引入自动驾驶与具身智能领域的“世界模型”(World Model)理念,构建了一个严谨的“虚拟细胞世界模型”:AlphaCell,用以对虚拟细胞世界状态转移的潜在逻辑进行刻画和建模。
![]()
(DELTA Lab)
该模型通过重构单细胞数据的空间表示与动态转换,模拟细胞在虚拟世界中的运动和状态转移。其中包括三项关键技术:
首先,流形整流(Latent Manifold Rectification)构建了连续紧凑的流形空间。AlphaCell 摒弃了对高变基因(HVGs)的截断,直接处理包含 19,253 个 HGNC 蛋白编码基因的全转录组数据。
模型结合 Mamba(状态空间模型)和 Transformer 的混合架构,将近两万维的高维离散观测数据压缩为一个紧凑的 32x128 维连续隐流形(Continuous latent manifold),通过信息瓶颈和两阶段训练任务过滤技术噪音和批次效应,为连续动力学模拟提供了高质量的数学基础。
其次,高保真观测接口(Biological Reality Reconstruction)保障了生物学一致性。为确保在抽象隐空间中的每一步状态推演都能高保真地对应真实的生物学表型,AlphaCell 设计了一个非对称的“倒金字塔”结构,配备了 12 亿参数的混合专家(MoE)解码器。
该解码器能确保任意隐空间状态可以被高保真地翻译回全基因组表达谱,为动态模拟提供了真实性的生物学锚点,有效避免了“生物学幻觉”。
最后,通过通用状态转换(Universal State Transition)求解最优传输流。在连续流形之上,AlphaCell Flow Model 承担了“物理引擎”的作用。它引入最优传输条件流匹配(OT-CFM),将扰动响应严谨地数学建模为细胞状态沿着流形测地线的连续物理演化,而非预测离散状态映射。
刘琦教授解释,这种连续流动力学模型能够学习到“通用的扰动物理学法则”。为了处理上千种截然不同的扰动机制而不发生梯度冲突,Flow Model 设计了 16 个专家的 MoE 架构,实现了特定扰动机制与底层细胞身份的有效解耦。
性能突破与创新意义
AlphaCell 的基座模型和 Flow Model 分别在超大规模数据集(总计超 2.2 亿单细胞转录组,包含 Tahoe-100M、Sci-Plex 等)上完成训练,并在多个泛化场景下展现出性能突破。
其突破了全基因组尺度的“维度诅咒”。在全基因组预测任务中,AlphaCell 凭借其流形整流设计,维持了较高的保真度,初步证明了其架构在重构和解析真实调控逻辑时的有效性。具体包括:
首先,模型在跨细胞背景的组合中表现出优越的泛化能力。在“已见细胞+已见扰动但组合未见”任务中,AlphaCell 实现了全面的性能领先,尤其在全基因组范围内(而非 HVG 截断)的差异表达基因(DEGs)的识别精度上大幅超越对比模型。这表明模型成功学习了具有可迁移性的扰动物理学法则。
![]()
(DELTA Lab)
其次,面对最具挑战性的任务:预测一种药物在“完全未见过的全新细胞谱系”上的全基因组范围响应,AlphaCell 依然取得了大幅性能提升,实现细胞类型全基因组范围的“零样本(zero-shot)”动力学迁移。
刘琦教授指出:对于这种“零样本”预测场景,现有采取 HVG 截断的方法逻辑上无法自洽:若依赖 HVG,但对于新细胞类型,我们根本无法预知哪些基因会产生高变。
而 AlphaCell 所体现出的“零样本”预测能力,意味着模型可能学到了某种“通用动力学法则”,而不是仅仅死记硬背训练数据。
![]()
(DELTA Lab)
刘琦教授表示,AlphaCell 目前仍是一个“概念验证(Proof of Concept)”阶段的成果,与一个真正通用的虚拟细胞模型之间还有较大距离。未来的工作将聚焦进一步优化计算框架,持续迭代模型,最终赋能生命数字孪生系统的构建和相关应用。
CellHermes:以自然语言为桥梁,融合异构组学的细胞语言模型
在生命科学领域,如何有效整合形态异构的多模态组学数据一直是计算生物学面临的核心挑战。同济大学数字生命智能体实验室近期发布的另一项创新成果 CellHermes,是一个以自然语言作为统一接口的细胞语言模型。
刘琦教授将 CellHermes 视为实验室在虚拟细胞研究的“第二角度切入”,它更多地是从多模态异构数据整合的角度,借助语言模型统一不同组学描述模态和形式。
异构数据整合的痛点与突破
单细胞转录组数据通常以高维表格形式存在,而蛋白质互作网络则以图结构呈现,两类数据在数学结构上的显著差异,使得传统分析流程往往需要为每种模态单独设计模型或从零训练大规模基础模型,计算成本高昂且知识迁移受限。
在这项工作中,实验室尝试去攻克多模态异构组学整合难题,联合亥姆霍兹慕尼黑中心、慕尼黑工业大学、复旦大学、剑桥大学、微软亚洲研究院及帝国理工学院等团队,发布 CellHermes(Hermes 取自希腊神话中掌管信使的神)。
CellHermes 的创新之处在于,它提出以自然语言作为统一接口,将图结构数据和表格数据“翻译”成统一的数据形式,从而在同一学习框架内进行联合学习。
方法创新:将图与表“翻译”为统一语言
CellHermes 并未从零训练新的模型骨干,而是基于现有预训练大语言模型,采用低秩适配(Low-Rank Adaptation, LoRA)进行参数高效微调。
团队借鉴并扩展了 Cell2Sentence 等工作的思路,其核心方法包括将表格数据(单细胞转录组)转化为“基因表达句子”,将每个细胞中数千个基因按照表达量从高到低排序,形成一个文本描述。同时将图结构数据(蛋白质互作网络)转化为自然语言陈述蛋白之间的作用关系。
在此基础上,研究团队设计了多种自监督学习任务,包括掩码语言建模(预测句子中被遮盖的基因)、自回归预测(续写表达句子),以及图结构中的节点和边预测,使模型在预训练过程中同时获取和融合两类数据中的知识。
![]()
(DELTA Lab)
CellHermes 的一个重要发现是,图结构数据能够为表格数据的表示学习提供丰富的先验关系。刘琦教授在访谈中提到,图数据能够帮助模型推断哪些基因倾向于共同发挥作用,这是对基因调控、生物学相互作用等先验知识的有效运用。
而这种跨模态预训练也带来了显著的获益。首先是基因功能预测性能提升。在 5 项基因功能预测任务中,CellHermes 的表现优于或与当前主流的单细胞基础模型相当。这也说明,尽管 CellHermes 所用的训练数据量远小于某些对比模型,但图数据的引入可能提高了数据的利用效率。
其次,CellHermes 可完成细胞类型特异性基因网络的重建。例如,在 CD8⁺ T 细胞的分析中,CellHermes 能够生成细胞类型特异的基因嵌入,并据此构建基因互作网络,成功识别出与 T 细胞激活相关的功能模块,而传统方法未能发现这些模块。
最后则是多任务适应能力。团队构建了名为 BioUniBench 的基准平台,将 10 项异构下游任务(遗传扰动预测、细胞适应性估计等)统一转化为问答格式。经过指令微调的 CellHermes 同样在这些任务上展现出较好的性能,且在部分任务上观察到多任务联合训练带来的正向迁移。
CellHermes 的另一大特点是其生物学可解释性。由于模型基于大语言模型构建,其可以利用内部的注意力机制定位关键输入元素,同时生成自然语言式的思维推理过程。
例如,在黑色素瘤患者肿瘤反应性 T 细胞的分类任务中,模型不仅准确区分了反应性与非反应性 T 细胞,还能通过注意力权重高亮与细胞毒性相关的基因,并输出类似“该细胞高表达细胞毒性基因,因此可能为肿瘤反应性 T 细胞”的文本解释。刘琦教授表示,这种可解释性能够为生物学家提供可解释的推理线索。
![]()
(DELTA Lab)
CellHermes 展示了一种高效的组学数据分析路径:将异构组学统一为文本,使大语言模型同时处理多模态内容,从而不必为每种模态单独建模。
刘琦教授指出,CellHermes 目前仍存在局限性,如训练数据多样性相对有限。未来团队将进一步量化图数据以及其它组学数据带来的具体增益,并持续优化文本生成的可解释性。
数字生命的未来图景
AlphaCell 和 CellHermes 两项研究,分别从细胞状态的“物理模拟”和细胞信息的“语言理解”这两个角度,共同推动了生命数字孪生系统的构建。刘琦教授表示,这两项工作目前均发布在预印本平台上,是同济大学数字生命智能体实验室团队和诸多交叉团队共同合作的阶段性研究成果。
其中 AlphaCell 论文的第一作者是同济大学的啜国晖助理教授、陈晓涵博士、杨兴博博士,通讯作者是同济大学自主智能无人系统前沿科学中心的何斌教授和刘琦教授;CellHermes 论文的第一作者是同济大学的高溢骋博士、亥姆霍兹慕尼黑中心汪伟旭博士、复旦大学赵宇恒博士和同济大学董科竟博士,通讯作者是亥姆霍兹慕尼黑中心的 Fabian J. Theis 教授和刘琦教授。
同时,这两项研究有望在未来进一步优化、整合,希望为生物学家提供了更便捷、更可解释的数据分析工具,也将为个性化医疗、药物研发等应用场景提供新的技术思路。
展望未来,从宏观的组织器官到微观的基因调控网络,构建虚拟数字生命系统将成为一个强大的探索工具,甚至有望开启“设计生命”功能、优化生命过程的新篇章。然而,该目标的实现道路并非坦途。
面对海量的计算资源需求、模型泛化能力的极限挑战,以及伴随而来的深远伦理考量,科学家们仍需持续攻坚。但刘琦教授认为,中国的科学家团队在生物学问题的深刻理解与硬核技术的攻坚突破上正逐步体现其独特优势,他对中国 AI 驱动的生命科学创新充满期待。
参考内容:
https://www.biorxiv.org/cgi/content/short/2026.03.02.709176v1
https://www.biorxiv.org/content/10.1101/2025.11.07.687322v2
运营/排版:何晨龙





京公网安备 11011402013531号