当前位置: 首页 » 资讯 » 新科技 » 正文

AI竞争时代,做好这件事很关键

IP属地 中国·北京 上观新闻 时间:2025-11-22 16:12:11


打开百度APP畅享高清图片


1

过去几十年,在创新药领域,跨国制药巨头罗氏的领先优势始终难以撼动。但在人工智能时代,形势变化的速度远超所有人想象。

去年进博会期间,罗氏带来一款突破性的产品——Elecsys AD CSF。它能通过脑脊液检测,实现更早且成本、侵入性更低的阿尔茨海默病诊断。这在国内乃至全球市场,都几乎是垄断性的领先。

但才过了一年时间,已有中国医药企业打破了罗氏垄断,实现了自主产业化。它所倚仗的,是一个叫Venus的AI大模型。

Venus的核心能力,是让蛋白质实现功能的“定向进化”。简单理解,就是可以根据功能需求,直接设计改造蛋白质以获得最优方案,把研发周期从几年缩短到了几个月。

今年3月,上海交通大学特聘教授洪亮团队发布了Venus模型。仅隔7个多月,Venus帮助20多家企业设计了超过30款蛋白质,其中十几款已经实现产业化。

Venus的赋能不仅限于生物医药产业。其另一项代表性成果,是一种能降解塑料的酶。在这个领域,GE公司的技术领先全球,但现在Venus推动实现了国产替代。

支持Venus模型的数据集VenusPod也于近日由上海数据局推荐,获得国家数据局2025年“数据要素x”大赛全国总决赛二等奖。

2014年科学家们第一次提出“AI for Science”,到今天已经成为不可忽视的趋势。中国AI的崛起,正在加速各领域的科技创新,使跨国外资公司的技术领先地位不再那么稳固。

但尚不能盲目乐观。AI模型提升能力依赖数据,而且是海量的高质量数据。从全球范围看,高质量数据集的建设开发利用仍面临多重困境和阻碍,这也成为AI发展的一大堵点。

这意味着,谁能在这方面先行突破,或许就能在新一轮科技竞争中占得先机。

2

高质量数据集,是指经过采集、加工等处理,可直接用于开发和训练AI模型,能有效提升模型性能的数据集合。它是AI大模型训练、推理和验证的基础,决定了模型性能优劣。

以Venus为例,它之所以厉害,很大程度上是因为研发团队构建的VenusPod,是全球规模最大的蛋白质序列数据集。它包含150亿蛋白质序列,远超国际主流模型所用的数据集。

更关键的是,Venuspod拥有海量功能标注信息。什么样的蛋白质能耐受130℃的高温,什么样的蛋白质能耐受1000个大气压的强压,什么样的蛋白质能耐受强酸/强碱环境……Venus掌握这些蛋白质的特征,在设计蛋白质功能时,可以有目的地添加相应特征。

但这些高质量数据来之不易。150亿条蛋白质序列中,有约83亿条来自于公共数据库,但其中有功能标注信息的不到100万条。

剩下67亿条才是VenusPod核心竞争力的来源。这些数据由Venus团队与20多个国内科研单位合作获得,比如其中7亿条序列,来自上海交大肖湘教授领衔的“冥渊计划”,由“奋斗者”号载人深潜器在马里亚纳海沟挑战者深渊及雅浦海沟最深点采集。

唯有介入科研项目的深度合作,才能获得不同环境包括极端环境下被标注过的独有宝贵数据。用洪亮的话说,没有这样建立起来的“蛋白质矿藏”,AI模型就“无米为炊”。


即将下水的“奋斗者”号载人深潜器。 新华社照片

3

显然,不是所有的大模型都能像Venus一样,能获取这么多独有的、标注过的数据。理想状况是,各行业、企业都能用上满足应用需求的高质量数据集,让它们的AI大模型都能发挥最大的功效。

这显然不现实。当前一个最突出矛盾在于,数据的采集、清洗、分类和标注,都需要耗费大量的资源,包括但不限于钱、人、时间。

说直白点,不是每家企业都有能力、有意愿开着投入几个亿造的深潜器,冒着风险下到万米深海获取数据的。

不过,虽然高质量数据集建设投入周期长,但其能通过提升生产效率、革新生产工艺、创新服务模式找到价值回报路径,实现数据价值的转化。

但这一转化过程离不开数据集的流通和高效的供需对接。而这是一个全球性难题。

近年来,各国都在探索让数据流通起来的办法,但效果大多不尽如人意。比如英国面向AI技术的一份版权豁免建议,就因受到各方强烈反对而告吹。

洪亮也提到,VenusPod的数据不只是他们团队的功劳,还有20多个在深海、盐湖等地采集并处理数据的科研单位,怎么保障、分配好各自的权益?

如果因为种种原因,各高质量数据集均不流通,最后成为一个个“孤岛”,将极大拖低全局整体效率。

上海作为人工智能产业高地,正在积极探索破局。“我们肯定不希望数据集都在私域‘内循环’,还是希望能有更多‘外循环’‘大循环’。”上海市数据局表示。


2025年2月10日,人工智能行动峰会在法国首都巴黎的大皇宫拉开帷幕。本次峰会上,欧盟官员提出将放松对人工智能技术开发的监管,以助其在欧盟地区蓬勃发展。 新华社照片

4

今年,上海市数据局向国家数据局推荐了一批案例,其中10家单位入选国家数据局行业高质量数据集建设先行先试试点;7个案例入选国家数据局行业高质量数据集典型案例,“VenusPod 蛋白质序列数据集”正是其中之一。

10月,市数据局还启动可信数据空间创新发展试点项目、高质量数据集先行先试项目征集,从数据供给、数据流通、数据利用多个层面,持续探索数据价值化路径。

引导企业、机构探索出一条数据供给、数据流通的市场化解决方案,是推动高质量数据集建设的关键。市数据局表示,将挖掘更多VenusPod这样的优秀项目推荐至国家数据局,争取进一步的政策和资金倾斜,鼓励市场主体挖掘更多有价值的示范应用场景,打出数据要素价值释放组合拳。

在海外亦有类似做法。比如美国政府数据开放平台会列出政府亟待解决的数据问题,并设立奖金,调动全社会的力量共同解决。

同时,上海在供给端还进一步发力,以提升高质量数据资源总量。

现阶段,许多中小企业还处于信息化初级阶段。它们在生产经营过程中,产生了大量的数据,但可能完全没有采集的意识,更遑论加工处理利用。

而且,采集完的数据颗粒度还是太粗。要为AI大模型所用,精准的标注不可或缺。这为了让大模型知道“这是什么东西”,而且不能只是“这是手机”“这是电脑”这般泛泛的标注,还需精准到“这张X光片指向什么病症”这种程度。

上海市数据局表示,高质量数据集建设需要大量跨领域、复合型的高端人才,他们正与市人社局合作,着手培养包括数据标注人才在内的数据领域人才队伍。

以库帕思、智元创新等为代表的一批数据资源供给服务商也正涌现。库帕思开展了教育领域的高质量数据集建设,获得国家专项支持;智元创新打造具身智能高质量数据集,受到市场欢迎,并入选国家数据局典型案例。上海正在为这些数据服务商搭建平台、提供机会,帮助他们挖掘和释放数据潜能,为市场输出更多样、更丰富的数据资源。

从供给到流通,上海正在为我国高质量数据集建设探索可行路径。难题还有很多,但破题的方向已经很清晰了。

原标题:《AI竞争时代,做好这件事很关键》

栏目主编:张骏

本文作者:解放日报 胡幸阳

题图上观题图

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。