近日,中山大学博士生李孟燃和中国科学院香港创新研究院臧泽林博士及合作者打造出一种名为 CHMR 的 AI 系统,堪比一位拥有细胞之眼的 AI 化学家,能让药物研发变得更精准和更安全。
经过在 9 个大型公开数据集、累计 728 项药物属性预测任务上的严格测试,CHMR 大获全胜。
在预测药物活性和药物毒性等分类任务上,平均性能比此前最先进的 AI 方法高出 3.6%。在预测药物在体内的溶解性和代谢率等回归任务上,平均误差降低了 17.2%。在数据严重缺失的一些现实场景之下,CHMR 的表现依然稳健可靠。
![]()
图 | 李孟燃(李孟燃)
李孟燃告诉 DeepTech:“我同时考虑了多模态(细胞、基因)数据的缺失性问题,并且将分子、细胞、基因之间的层级关系耦合到一个模型框架中进行建模。将这两方面结合起来做,可能是我们率先尝试的。”
众所周知,药物是人类对抗疾病的重要武器。但是,研发新药就像大海捞针,传统方法主要依靠分析药物的化学结构比如原子如何连接、分子形状如何来预测它是否有用和是否安全。然而,药物真正地发挥作用,是在它进入我们身体与细胞相遇之后。
药物分子就像一把钥匙,能够打开细胞上的特定的靶点,从而引发一系列的连锁反应:细胞的外形可能改变,内部的基因活动也会改变。这些细胞的反应,才是决定药效和毒副作用的关键。
可惜的是,在实验中要想获取每种药物对于所有细胞和所有基因的影响数据,极其昂贵和困难。人们常常只有药物结构的完整数据,而关于它如何影响细胞的反应报告确实残缺不全。
这就好比你作为老板要招聘一名新人,你只知道候选人的身高体重也就是结构信息,却不知道他的学历如何、经验如何也就是不知道他的能力信息,那么你很难判断他是否适合成为你的员工。
![]()
(https://arxiv.org/abs/2511.21120)
面对细胞反映数据确实这个普遍难题,CHMR 展现出了较强的智能。它的核心思想是:融合多维度信息,模仿生物世界的层次关系进行推理。
它的第一招是使用朋友圈来补全信息。CHMR 非常明白这样一个道理:即那些结构相似的药物,其细胞反应可能也是相似的。当一个药物的某些细胞实验数据缺失的时候,它会去查找这个药物在化学结构上的邻居也就是相似分子,通过参考邻居们已有的细胞数据,它可以像玩填字游戏一样,科学地推测出缺失的信息,这比简单地使用零或随机值填充要准确得多。
它的第二招是使用对齐化学与生物的语言。化学结构比如分子图和细胞反应比如基因表达数据,是两种完全不同的语言。CHMR 就像是一位精通双语的翻译,它可以将这两种信息映射到同一个语义空间里,确保“杀死癌细胞的药物”这个含义,在化学结构和细胞反应两种表达中得到同意的理解和关联。
它的第三招是通过构建知识树来理解层次关系。CHMR 能够意识到,从药物化学结构的最底层,到细胞形态变化的中间层,再到基因活动改变的最顶层,存在一个天然的生物层次关系。CHMR 在 AI 大脑里构建了一棵决策树,树的浅层根节点代表着广泛的化学特征,随着走向深层枝叶,所代表的信息越来越具体,比如特定的细胞反应模型或者基因通路。通过这棵树,CHMR 能够系统地组织知识,理解药物作用从微观化学到宏观生物效应的完整链条。
它的第四招是在关系网中实现自我完善。CHMR 还引入了一个包含分子、细胞、基因的庞大知识图谱,图谱中的连线代表它们之间已知的相互作用,比如某种药物已知能够调控某个基因。CHMR 会在这个图谱里进行随机游走,学习节点之间的影响关系,从而更好地重建和理解确实的信息。
![]()
(https://arxiv.org/abs/2511.21120)
这让 CHMR 主要能被用于加速安全型新药的诞生、成为老药新用的探测器、成为个性化医疗的助推器以及成为探索生物奥秘的新工具。
对于制药公司来说,其可以利用 CHMR 在早期就从海量候选分子之中,更准确地筛选出那些有效且低毒的优秀分子,大幅地节省实验时间和成本,让药物更早来到患者身边。
对于科学家来说,其可以利用 CHMR 来挖掘现有药物未知的生物效应,助力发现一些已经上市的药物在治疗新型疾病上的潜力即发现药物重定位的潜力,例如一种旧药可能意外地能够有效治疗另一种罕见病。
对于生物学家来说,其能将 CHMR 作为一款强大的计算显微镜,系统性地探索“化学扰动-细胞表型-基因表达”之间的复杂网络关系,助力揭示更多生命活动的底层规律。
参考资料:
相关论文https://arxiv.org/abs/2511.21120





京公网安备 11011402013531号