当前位置：首页 » 资讯 » 新科技 » 正文

DeepMind用AI重构科研流程，Kaggle竞赛击败84%选手

IP属地中国·北京 DeepTech深科技 时间：2025-09-13 22:05:52

近日，谷歌 DeepMind 联合 MIT、哈佛发布了一篇长达 71 页的论文，提出了一项突破性成果：他们开发了一种能帮助科学家自动生成“专家级科研实证软件”的 AI 系统。该系统结合大语言模型（LLM）与树搜索（tree search），首先通过 LLM 生成代码，再利用树搜索在巨大的解空间中系统地探索与改进，能在数小时至数天内完成人类需要数月才能完成的科研编程任务。
这一方法已在多个科学领域展现出“专家级成果”，包括生物信息学、流行病学、地理空间分析、神经科学、时间序列预测和数值分析，且往往优于现有人类顶尖方案。论文强调，AI 通过主动检索并整合外部复杂的研究思想，实现了“超人表现”，为加速科学发现提供了一条通用路径。

图｜相关论文（arXiv)
现代科研越来越依赖软件，从化学模型、天气模拟、流体力学建模，到社会系统预测，背后都是复杂的代码。然而开发适用于特定领域的代码通常需要长达几年繁琐的工作，且过程极其依赖研究者的直觉和经验，漫长的耗时极大限制了科学探索的效率。
研究团队将这些科学难题称为“可评分任务”（scorable tasks），定义为可通过“实证软件”（empirical software）解决的科学问题，而“实证软件”就是科研中所有为了最大化特定评估指标而设计的软件（例如对已有观测的拟合程度）。
该研究开发的 AI 系统旨在系统并且自动地生成可以解决“可评分任务”的“实证软件”，结合大语言模型与树搜索算法来更新迭代软件以提高软件的质量评分。

图｜LLM 与树搜索自动生成科研软件的流程示意图（arXiv）
首先，用户提供具体的问题描述、评价指标以及相关数据，接下来 LLM 根据这些线索生成候选 Python 代码，而候选程序都会在沙盒环境中运行并得到一个质量评分。接着树搜索程序会参考每个方案的得分，不断选择哪些候选解法值得进一步改进和扩展。
研究团队提出了 PUCT（Predictor + Upper Confidence bound applied to Trees）树搜索算法，收到 AlphaZero 的上置信界（Upper Confidence Bound UCB）启发，通过平衡开发和探索来选择新的候选程序。该系统的另一大关键是能够探索并整合来自外部来源的研究想法。这些想法可能来自科学论文、教材或搜索引擎（包括 Gemini Deep Research 和 AI co-scientist 等 LLM 工具），会被注入 LLM 提示以指导代码生成。
研究团队通过 2023 年的 16 场 Kaggle 比赛来开发和完善 AI 代码变异系统，并且与排行榜上的人类参赛者进行对照校准以取得高分。

图｜Kaggle 实验结果（arXiv）
上图展示了 AI 系统在这 16 场比赛中的平均公共排行榜百分位数表现：树搜索（TS）方法的表现显著优于单次 LLM 调用，甚至优于 1000 次 LLM 调用中最好的结果。在树搜索过程中，AI 会不断发现新的策略，使得分数出现“跳跃式”提升，而这些累积的跃升最终带来了最高质量的解决方案。
实验也说明在提示中加入针对具体问题的建议，能大幅提升表现。在“TS + 专家建议”实验中，研究员向模型提供了赢得 Kaggle 比赛的常见经验性指导；在“TS + Boosted Decision Tree (BDT)”实验中，模型被要求从零开始实现一个决策树库，而不使用现成的标准包。

图｜单细胞批次整合过程示意图（arXiv)
研究团队在六个不同的科学领域基准任务评估该方法，并且得到超过人类最新方法的表现。
在基因组学领域，这一系统在单细胞 RNA 测序（scRNA-seq）的批次效应消除任务中表现突出，研究员使用了 OpenProblems 批次整合基准来测量模型表现。面对高维且稀疏的数据，该系统不仅成功去除了混杂的批次效应，同时还保留了生物学信号。
系统共提出了 87 种全新的单细胞数据分析方法，其中 40 种都在 OpenProblems 排行榜上超越了人类专家开发的最佳模型。最具代表性的成果之一是 BBKNN (TS)，它通过对现有方法 ComBat 与 BBKNN 的重新组合，实现了“理念重组”的突破，使整体表现比最佳已发表方法提升了 14%。

（arXiv)
研究团队还交给了 AI 系统前沿的全脑神经活动预测任务，评估基准为斑马鱼全脑神经元活动预测基准（ZAPBench），目标是对超过 7 万个神经元的全脑活动进行建模和预测。实验表明，AI 系统在大多数预测范围内都优于所有基线模型，包括此前表现最佳的 Unet 视频模型；在一步预测任务中，专门设计的模型也达到了领先水平。
AI 系统进化出了能够结合丰富特征集、时间卷积、学习到的“全局脑状态”、神经元特定嵌入的模型。研究团队同时探索性地将“生物物理神经元模拟库（Jaxley）”整合进预测方案，进一步提升了模型的表现与解释力。这一探索仅是概念验证，却预示了 AI 在科学研究中不仅能拟合数据，还可整合科学原理（如生物物理模拟），为构建更可解释的模型开辟了新道路。
参考资料
https://arxiv.org/abs/2509.06503
运营/排版：何晨龙

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

腾讯优图重磅开源Youtu-GraphRAG，实现图检索增强技术新突破

如何让大模型听懂老人“话中有话”？上海创智学院这场课题展示很“哇塞”

“AI领航畅想湘江” 万兴科技将亮相2025互联网岳麓大会

经历多轮裁员、强推线下办公后，微软CEO坦诚需重建与员工的信任

华为“年度旗舰”电池容量被曝超6000mAh，“7开头”电池已在开发

余承东憧憬的大家边开车边睡觉时刻快来了！官方发文：有条件批准L3级车型生产准入

全站最新

腾讯优图重磅开源Youtu-GraphRAG，实现图检索增强技术新突破

如何让大模型听懂老人“话中有话”？上海创智学院这场课题展示很“哇塞”

“AI领航畅想湘江” 万兴科技将亮相2025互联网岳麓大会

经历多轮裁员、强推线下办公后，微软CEO坦诚需重建与员工的信任

热门推荐

腾讯优图重磅开源Youtu-GraphRAG，实现图检索增强技术新突破

如何让大模型听懂老人“话中有话”？上海创智学院这场课题展示很“哇塞”

“AI领航畅想湘江” 万兴科技将亮相2025互联网岳麓大会

经历多轮裁员、强推线下办公后，微软CEO坦诚需重建与员工的信任

长城汽车征战2025敦耐赛：董事长魏建军亲驾哈弗H9柴油版

服贸会时间｜猿编程李翊：编程教育不等于培养程序员

华为“年度旗舰”电池容量被曝超6000mAh，“7开头”电池已在开发

余承东憧憬的大家边开车边睡觉时刻快来了！官方发文：有条件批准L3级车型生产准入

国家网信办公开征求意见：鼓励金融机构探索使用数字人民币等新型支付方式开展跨境支付

红斑狼疮研究新突破：浙大团队科研成果为精准诊疗提供重要理论依据

学历越高，越怕熬夜！2.3万人10年研究实锤：睡得越晚，智力下降越快

滴滴 2024 年所有订单平均抽成 14%，负责人称不等于利润

芯片突发！商务部发声！

一图读懂“2025全国青少年智能无人系统应用大赛”要点

蚂蚁集团资深副总裁彭翼捷：女性在数字时代更具潜力与独特价值