当前位置: 首页 » 资讯 » 新科技 » 正文

之江实验室薛贵荣:当AI开始做科研,我看到了大语言模型的天花板丨GAIR 2025

IP属地 中国·北京 雷峰网 时间:2025-12-24 10:19:34



大语言模型受限于「语言的边界」,无法理解高维度、跨模态的科学数据。

作者丨胡清文

编辑丨徐晓飞

12月12日,第八届GAIR全球人工智能与机器人大会在深圳正式启幕。

本次大会为期两天,由GAIR研究院与雷峰网联合主办,高文院士任指导委员会主席,杨强院士与朱晓蕊教授任大会主席。

作为观测AI技术演进与生态变迁的重要窗口,GAIR大会自2016年创办以来以来,始终与全球AI发展的脉搏同频共振,见证了技术浪潮从实验室涌向产业深海。2025年,是大模型从“技术破壁”迈向“价值深耕”的关键节点,值此之际GAIR如期而至,携手智者触摸AI最前沿脉动,洞见产业深层逻辑

大会上,之江实验室科学模型总体组技术总师,天壤智能CEO薛贵荣博士亲临现场,为参会者带来了一场精彩纷呈的演讲分享。

薛贵荣博士指出,以大语言模型为代表的AI技术虽已在多个学科研究中展现出潜力,但其本质上仍受限于“语言的边界”,难以真正理解高维度、多类型的科学数据,更无法独立完成可验证的科学发现。

基于此,薛贵荣博士系统分析了大语言模型与科学基础模型之间的本质差异,并详细阐述了之江实验室所研发出的021科学基础模型在突破语言维度、统一化科学数据、科学推理与发现,跨学科知识融合等方面的关键优势。同时,他提出一些关于面向“AI+科学”新范式的思考:

1、大语言模型在解决科学问题上还存在很大的局限,在覆盖100多个学科的高难度HLE测试中,表现最优的模型目前也只达到了25.4%的准确率。

2、要想解决科学问题,大科学基础模型的需要超越语言空间,做到真正理解化学、天文学、地球科学、生命科学、材料科学等各类科学知识。

3、科学基础模型与当前的大语言模型之间的主要差别是,大语言模型以文本数据作为Token化的基础,而科学基础模型所对应表达的Token是跨学科、多类型的科学数据。

4、要想把科学数据Token化得先解决OneTokenizer的问题,就是把光谱、化学结构、DNA数据等结构化之后统一到一个高维空间中。

5、将科学数据Token化对齐后可以建立起不同类型数据之间的关联,就可以在解决不同学科、不同专业的科学问题时做出全链路解析。

6、为打破大语言模型解决科学问题的局限性,之江实验室推出了021科学基础模型,在对科学世界形成客观认知的基础上,具备迅速、精准、高泛化性的科学知识问答能力。

精彩演讲回顾

现场演讲完整视频,详见链接https://youtu.be/NZ4nW4cegLg

以下是薛贵荣博士演讲的精彩内容,雷峰网作了不改变原意的整理与编辑:

01

为什么说大语言模型不够用了?

接下来我跟大家介绍一下我们在之江做的工作,科学基础模型。

大家都知道今年我们国家发布了“人工智能+”战略,其中的第一个就是+科学技术。那么科学技术有什么作用?如何训练将它转变成真正的基础模型呢?我们就这些问题跟大家介绍一下。

AI+科学是非常具有挑战性,但也同时也非常exciting的领域。上个月美国发布了“创世纪计划”,类比于曼哈顿计划。曼哈顿计划大家都知道,美国集合了非常多的工程师与科技人员,一起攻坚了一个历史上最重要,并且是规模最大的科技工程项目。

这次的“创世纪计划”,也被定义为“AI曼哈顿计划”,美国集合了17个国家实验室、4万名科学家,是冷战以来对联邦科技资源的一次最大动员。这个计划非常详尽,对于不同时间点的任务部署有着明确规定,作为国家科技工程项目,势必要人工智能技术在科学领域做出重大产出。


这个项目的相关负责人Dario Gil提出,如今人工智能科学应用可以用对话的方式作为开始。正如AI真正的价值不只是写论文的摘要,更重要的是能够形成可验证的结果。需要调用模型以及实验室在几十年间积累的数据,形成一个可验证、可迭代的数据集,通过训练模型,并最终应用到科技行业当中。

人工智能在科技里的应用其实非常早,我主要讲述大语言模型在科学研究中的应用。


这是一份美国的报告,聚集了很多科学家共同研究如今的人工智能在科学发现能解决什么样的问题?一共总结出了5个部分,多模态和多尺度学习、迁移学习、数字孪生、实验设计和交互学习。

那么今天的AI,在科研当中究竟起到什么作用呢?这份报告显示,他们又找了1600名研究人员,其中三分之二认为人工智能工具提升了数据处理的方法,另外有超过一半认为人工智能加快了计算速度,节省了成本和时间。

2024年,当今数学界最年轻的教授陶哲轩提出,到2026年,人工智能会成为数学研究中值得信赖的新合作者。他个人非常积极地应用AI来做科学研究,最近他也频繁使用大语言模型解决数学难题,例如最近他使用GPT-5Pro成功探索了微分几何难题“有界曲率球体问题”的本质。

这件事最有趣的是他并不擅长这个领域,也就是说:今天,我们能够借助人工智能,解决更多科学领域问题,科学的人工智能时代已经来临了。

OpenAI最近也有一个计划:要把人工智能用到科学当中,早前9月3日,OpenAI宣布启动一项新倡议——OpenAI for Science,想要打造一个由人工智能驱动、加速科学发现的平台,并实现了如量子场论的推导过程和干细胞相关的蛋白质优化等相关问题的研究。

最近,OpenAI又招了一名主要做黑洞研究的天文学家亚历克斯·卢斯帕卡,来帮助找寻宇宙银河系中黑洞的所在位置。这个研究人员之前也是做这方面理论研究的,之前他花费数日才计算出来的“黑洞扰动理论中新对称性”的精确形式,GPT-5 Pro仅花30分钟就解决了。

02

科学基础模型如何补齐 LLM 的科研短板?

虽然大语言模型解决了很多科学问题和推理,但大语言模型要想真正服务于科学,还面临着非常多的挑战。

语言是人类交流过程中表达思想的一种符号,它是人类认知的皇冠上的明珠,正如Ludwig Wittgenstein所说:“语言的边界,就是世界的边界。”

今天大家都纷纷想用能够代表我们认知的语言模型,来解决科学问题。然而根据HLE发布的最新研究结果,大语言模型在科学知识与推理方面暂时没有达到人类认知的极限,在覆盖100多个学科的高难度HLE测试中,表现最优的模型目前也只达到了25.4%的准确率。


所以目前要用大语言模型来服务科学,其中仍然存在很大的挑战。要想真正服务于科学,需要模型能够跨越语言的边界,做到真正理解所谓的分子、基因、地震、光谱等各种各样高维的科学数据。

众所周知,一张图片胜过千言万语,图片是另外一种让我们能够表达思想的重要渠道,但后来我们发现,在科学数据中还有一种更复杂的东西,叫做光谱。刚刚我们说一张图片胜过千言万语,而一张光谱胜过千万张图片。

无论是遥感图片,还是在化学实验室中做实验分析,我们都会用一个非常重要的仪器,就是光谱拍摄仪,而拍出来的东西就是光谱数据。这些数据不仅能告诉我们它是什么,还可以告诉我们它表达了什么样的波段值,是由什么元素构成的。

还有一类生命科学数据就是基因。基因信息量非常大,每个人携带的基因序列大概是30亿个。有人做了一个分析,一个咖啡杯容量的DNA可以存储世界上所有的数据。人类所携带的这么长的基因序列,它能表达的信息量也是非常高维的。

接下来就是地球科学研究的一个典型数据叫地震波。地震波其实就是地球的语言,在告诉我们哪个地方会发生地震,或者有可能会发生地震。当然,我们通过地震波不仅仅只是预测地震,我们还可以知道地下的结构。

要想找油探矿,就必须清楚地了解地下的空间结构,而地震波分析就是非常好的手段,类似于我们看光谱一样,地震波也是非常复杂的数据表达。

根据香农的信息论和经典语言学模型来看,自然语言实际是一种低维的离散符号系统。而科学数据包含时间、空间和能量等更高维的特性,它需要表达的维度空间,要远远大于语言所能描述的空间。


从上面这张图可以看到,语言表达只是非常小的一部分。再看右边,这是我们人类疾病关联到的所有学科的知识维度,大概是二十几维。如果只是纯粹用语言来表达我们所看到的世界,空间会非常小,或者说没办法完全表达我们所理解的世界。

我们希望,科学的基础模型能够解决这个难题。

科学基础模型和如今的大语言模型之间存在本质的差别。

首先是数据维度,当前的大语言模型还是以文本数据作为Token化的基础。但科学基础模型所对应表达的科学数据Token化,是科学空间加上语言空间。因此要表达的维度要远超语言。

这里所指的空间不仅包括我们刚刚讲的一系列空间,它是跨学科、多种类类型的。这其实是一件非常有挑战性的事。而这一切的前提,就是如何有效的对科学数据进行Token化,即解决Tokenizer的问题。

所谓的OneTokenizer,就是把我们见到的所有东西尽量都统一到一个科学数据当中。包括我们刚刚说到的所谓的光谱、化学结构、蛋白质结构、DNA、地震波数据等等,我们都希望把它结构化到一个空间里面。


当然,这些数据本身有它所表达的数据,比如分子式。我们希望哪怕是用文本描述,也可以将它们区隔来表示。比如同样一个C,在分子式、蛋白质、DNA,以及正常的英文单词当中,它所表达的意思是有区别的。

这是一件很复杂的工作,这个事情要真正做好,不仅需要AI科学家团队,还需要很多科学家跟我们一起合作完成。

这就是我们正在做的工作,我们正在把基因组学、细胞组学、光谱、晶体材料、时序数据、空间结构数据等全部Token化,将它们放到一个空间当中。

其次是,Token化之后,很多事情就对齐了,这也是数据治理非常重要的事。刚刚郑宇老师讲了很多城市数据要对齐,其实科学数据也需要对齐。科学数据对齐以后就有真正的科学发现了。

我举四件案例来解释一下对齐的价值:

1、动物迁移&环境变化。大家都知道大雁南飞,那么为什么要往南飞呢?是随着温度变化在本能的飞行吗?通过地球的温度数据以及鸟的迁移会发现,鸟的迁移是根据温度的变化在选择路径的,其实是通过感官角度来做这个事。

2、住房密度&温度。这也是跟城市相关的数字,这个数据如果能很好地对齐,非常有助于我们做科学规律的发现。

3、GDP变化&夜光分布。我们在太空拍摄的夜光图片以及城市GDP的变化,相互之间也是有关系的。

4、卫星上&望远镜上拍摄太空。这两种观测方一种拍摄的图像质量高,一个拍摄的图像质量低。同时对一颗恒星进行拍摄的时候,其实本身已经做到了对齐,但数据质量不一样,把两个数据一起拿来,可以进行新的数据发现。

把数据Token化,建立数据与数据之间的关联,从而保证不同学科或同一学科、不同专业之间的对齐,就像将DNA、蛋白质、疾病表征的对齐,我们就可以进行全链路的科学解析。

从0到1,我们训练了科学基础模型。这个过程也很复杂,不仅仅需要有足够的算力、数据,同时也要有高效的模型训练系统。我们做了预训练、到CPT、Long CPT、SFT、CoT SFT,再到强化学习。现在我们还在内测中。

以上就是我们科学基础模型的技术探索,因为没有参考对象,是从零到一的创新,所以我们的科学基础模型就命名为021。

03

科学基础模型的应用场景有哪些?


接下来我介绍一下这个模型的应用场景。其实我们用了非常多的专业科学知识,这是它的大概分布图,涉及数学、物理、化学、计算机等19个重要学科,覆盖174个领域的科学知识。

这些领域,需要花大量的人力成本来收集数据,大概是几个T的Token,相较于互联网语料,真的只占1%的规模。所以这个数据未来如果想做大,如果想做Scaling Law,还有很大的挑战。当然我们也在不停收集新的数据纳入进来,比如实验室的实验数据。

其次是科学推理,基于这个模型我们可以根据一段语言的描述,通过对话的方式,做分子结构的生成、编辑、修改,达到它所要求的性能。这些原本需要通过高通量的实验,需要花上几个月到一年的时间才能够做到的事情,今天通过对话方式很快就可以做到。


同样,我们也打穿了从基因到疾病诊断的整个流程,能做从基因组学到细胞生物学、病理学、临床医学的整个链路。上图中就是一个基因的突变,我们想知道它是良性的还是恶性的,就可以用这个模型来获得答案。因为我们训练了非常多的科学数据,这应该是当前世界上从基因到疾病精准诊断流程精度最好的模型。

在将来,我们希望所有的人能享受到这样的模型服务,所以语言也是非常重要的,我们这个模型支持应用全世界204种语言。

做这个科学基础模型,非常挑战的是需要非常多的科学家参与进来。那么怎么搞这件事呢?我们也有三套路径。

首先是种子班。我们跟天文、地学、材料科学、生命科学等很多国家实验室、高校、企业建立了大模型种子班,大家一起共创。他们派几十个做科学的人,我们这边派几十个做计算的人,大家一起来了解这件事怎么做。

但前提要求是大家得相互了解,所以我们培训他们来了解模型,他们培养我们来认识什么是该领域的关键数据、关键问题。

其次是科学家工作坊。我们建立了科学家工作坊。刚才我们碰到的那些问题,都是科学家告诉我们的,我们一起开展联合合作,请他们过来跟我们一起干三个月或半年,他们可以带他们的学生。

当前我们在跟国内、国际的一些专家在做深度协同创新。我们深知这个事的难度,所以我们希望越来越多的科学家能够参与进来。所以我们也发起了一个倡议,希望通过全球征集各学科的科学问题,来探索人工智能在科学领域的极限,当然我们也设立了奖金池以及一揽子科研支持方案。

第三是开放研究平台。我们开发的所有数据、模型都会在zero2x平台上进行开放。zero2x平台是一个开放科学研究平台。我们希望更多的人能够来直接使用平台进行科学发现,也可以通过平台跟我们一起进行科学研究的创新。

本次报告的最后,我们希望,通过科学基础模型,真正推动科学研究范式的变革。让我们一起加速科学的人工智能时代到来,谢谢。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。