当前位置: 首页 » 资讯 » 新科技 » 正文

研究人员打造带有AI同行评审的预印本平台,有望革新科学出版方式

IP属地 中国·北京 DeepTech深科技 时间:2025-09-14 22:14:45

在讨论 AGI 或者通用机器人定义时,人们往往会自然联想到一些直观的衡量标准,比如 AI 能否解出高考题、在国际数学奥林匹克(IMO,International Mathematical Olympiad)上获得金牌,或者机器人能否胜任家务。这些标准固然能体现“聪明”“适应性强”等能力,但却容易忽略一个更本质的维度——它能否在科学领域产出真正的新知识与重大突破?在加拿大多伦多大学博士生张鹏松和所在团队看来,评判超级智能的一个重要标准之一,是 AI 与机器人能不能推动科学边界前进、打破人类既有认知与物理界限。这正是该团队长期关注 AI Scientists 和 Robot Scientists 的出发点与动力[1]。


图 | 张鹏松(张鹏松)

过去,科研进展受限于研究者的创造力、学术背景与有限时间。而近年的大模型与智能体进展,让 AI Agent以及机器人已能自动完成从提出研究设想、开展实验、到撰写论文等行为。比如日本公司 Sakana AI 提出的 The AI Scientist[2]、美国斯坦福大学教授 James Zou 团队的 The Virtual Lab[3]都已经非常好地验证了 AI 作为自主科学家的可行性。这些工作共同指向一个趋势:科学发现也将会迎来新的规模定律 Scaling Laws[1]。

然而,当前的学术出版生态难以承载这股浪潮,传统学术出版体系是为“人类作者 + 人工评审”的时代设计的,如今面对 AI 生成的海量研究,瓶颈集中在以下几方面:

其一,评审吞吐不足,传统期刊和会议依赖人工评审,效率低下,根本无法应对 AI 生成内容的规模。

其二,预印本缺少质量控制,预印本平台像arXiv虽然可以快速发布,但是缺少质量控制机制,无法保证成果的可信度。

其三,署名与规范的不确定性,不少学术场景对 AI 署名/贡献度仍存分歧,透明度与可追责性不足,抑制了人类与 AI 的深度协作,也影响成果的传播与采用。

其四,Proposal 早期生态缺位,现有平台不支持研究提案(Research Proposal)的结构化交流与迭代。这使得“idea 层面的共创与筛选”缺乏公共空间与思想碰撞,错失了大量原本能在萌芽期快速试错与放大的机会。

其五,AI 评审的安全与对齐问题, 基于大模型的评审会遭遇提示词注入(prompt injection)等攻击与操纵风险;同时还存在证据对齐不足、基线不一致等问题。若不治理,这些风险会侵蚀评审公正性与可用性。

其六,跨主体协作缺少统一环境,未来科研一定是 Human-AI 与 AI-AI 的多智能体协同。但当前缺少一个统一、开放、可扩展的“科研环境”,如能打造出来那将既能让不同类型的 Agent(作者、审稿、导师、委员会、实验、传播)以标准化接口接入,又能对质量、溯源、版本进行全程管理。


(arXiv:2508.15126)


图 | aiXiv Platform Overview(arXiv:2508.15126)

基于上述原因,本次团队提出并实现了 aiXiv,其表示这是全球首个面向 AI Scientists、Robot Scientists所产出的Research Proposal和Paper,同时也是一个带有 AI 同行评审与返修环节的 Open Access 预印本平台和 AI Agetns 科研社区环境。目标是为 AI 科学家、机器人科学家以及人类研究者共同建立一个全新的科研生态,打破当下分散、封闭的格局,构建覆盖提交-评审-返修-发布的完整科研与迭代流程。通过开放接口,人类研究者与各种科研智能体都能便捷接入,在同一平台上展开协作。


图 | aiXiv网站demo展示(arXiv:2508.15126)

在机制设计上,aiXiv 引入了结构化、多阶段的评审机制,让 Proposal 和 Paper 能够在迭代中持续改进;同时,版本化发布和可溯源的质量轨迹,让科研成果的提升可以被真实验证。多模型投票机制避免了单一模型偏见,提升了结论的公平性和可靠性。

在安全与对齐方面,研究团队在评审环节中加入检索增强,使评审意见与真实文献对齐;并构建多层次的提示词注入检测与防御机制,抵御隐蔽操纵,确保评审过程的公正与可信。实验表明,在论文的 Pairwise 评审任务中,大模型的准确率可达 81%,验证了其具备真实的学术判断能力。这意味着大模型不仅能够生成科研内容,还能为 AI 产出的研究成果提供可靠的评审意见与打分,帮助智能体完成持续迭代和优化,从而不断提高科研质量。


(资料图)


(arXiv:2508.15126)

本次研究的相关论文发布之后,研究团队收到了不同的角度的评论,有积极的赞许,也有审慎的质疑。

一些评论非常振奋人心。例如有人说“学术界曾经依靠填补已深入探索领域的小空白而蓬勃发展。这些空白已经消失。现在,只有真正的突破才算数。”还有评论提到:“AI 正在撼动学术界!但这些 AI 的改进是真正创新,还是仅仅完善了人类的努力?传统学术界或许需要警钟,是准备好主动适应,还是看着时间站在 AI 这边?”

这些评论恰好与研究团队建设 aiXiv 的初衷高度契合。其认为,随着 AI 与机器人科学家的发展,那些增量式的创新点和“小修小补”的工作会被 AI 快速完成与验证,而这反而能刺激和推动人类科学家把精力集中到更具挑战、更具突破性的科研问题上。

当然,也有不少谨慎的声音。例如有人提醒:“科学不仅仅是发表论文,它还涉及共识、复现和信任,如果充斥着 AI 论文的系统没有良好的治理,可能会淹没真正的科学发现。”还有人担忧:“即使在arXiv上,有时也会有人质疑文章的真实性,但在 aiXiv上这种情况似乎会更加严重”。

研究团队表示,他们非常理解这些担忧,这正是 aiXiv 设计的关键考量之一。研究团队为 AI 与人类研究者共同提供评审接口,让不同的 AI Reviewer 与 Human Reviewer 可以同时参与,形成多维度、多角度的综合审查。这种机制既是对质量的保障,也是对“信任”的回应。研究团队相信,随着 AI 在科研与评审能力上的不断迭代,它最终有可能形成一种新的学术评审范式,使其不仅接近人类水准,甚至在某些方面超越现有人类评审模式。


(arXiv:2508.15126)

就应用前景来说:

研究团队认为,本次 aiXiv 平台或者未来出现的类似平台,将会带来两方面革新性的变化:

首先,有望革新现有的科学研究范式。

在 AI Scientists 的初期发展阶段,科研中的研究提案与创新点方面可能将首先被颠覆。现在的科研环境中存在着这样一种描述“科研就像炒菜”,需要各学科、方法、思想的整合与碰撞。而当下的大模型本身就具备跨学科的知识储备,它们能够在极短时间内提出海量的创新性想法[4][5]。若这些想法通过像 aiXiv 这样的平台得到多维度评审与迭代,那么 AI 产出的可行创新点将无限接近与覆盖 100% 人类科学家所能想到的创新想法。这意味着人类科学家可探索的“增量空间”将迅速收缩,但也会倒逼人类去挑战更高难度、更具突破性的科学问题。

从更长远的视角来看,自 17 世纪以来,人类已在各学科领域发表了约 1.5 亿至 2 亿篇高质量科学论文。这份浩瀚的记录凝聚了人类数百年的努力、协作和渐进式探索。但随着自主 AI 研究人员的崛起,相比之下这些成果很快就会显得微不足道。AI 系统将以超人的速度和规模运行,生成、测试和发表数十亿篇科学论文,这并非几个世纪的工夫,而是短短几年,甚至几个月,几天或几小时……在这些成果中,不仅可能涌现诺贝尔奖级别的突破,还可能在迭代中诞生出堪比甚至超越“爱因斯坦”式的“超级 AI 科学家”。


(arXiv:2503.22444)

其次,有望革新现有的科学出版方式。

aiXiv 的理念是打造一个主要针对 AI 科学家与机器人科学家的免费、共享的预印本平台。但与传统的预印本平台不同的是,aiXiv 集成了 AI 评审,以保证 Proposal 与 Paper 的提交质量。为了实现真正的免费与共享,研究团队正在考虑采用去中心化与区块链技术以存储、记录 DOI、版本、评审轨迹,保证可追溯性与透明性。

另据悉,本次研究团队的合作者大多来自大模型、Agent 与机器人方向。课题的出发点其实很朴素:AI 与机器人能否完成端到端的自主科学研究?如果答案是“能”,当这种能力以规模化出现时,人类应如何接住这股洪流?2024 年,马斯克曾判断“未来 3 年 200-300 亿数量级的类人机器人将会出现”。即便把这个说法打个折,没有物理身体的 AI Agents 在数量上也更容易出现指数级增长。想象一下:仅 1 亿个 AI 研究型智能体持续产生提案与论文,所形成的“审稿需求”已远超人类评审能力。2025 年,国际顶会 NIPS、AAAI 的投稿量都突破三万篇。这只是一个开端,在 AI 的加持下,“没有足够审稿人可用”正在成为现实问题。研究团队希望正面回答:当科研成果数量达到某个临界点时,人们应该怎么办?

研究团队最初把这个问题抛到社交媒体上寻找合作者,很快就吸引了来自全球各大高校和研究机构的伙伴加入,其中涵盖大模型、Agent、机器人以及生物医学等方向的合作者。随后研究团队快速进入研究推进的三个关键阶段。

首先是明确命题与边界,其把问题压缩成两个可操作的问题:其一,如何验证“AI/机器人能做科学”不是孤例,而是可复制、可扩展的流程?其二,当 AI 研究供给暴涨时,如何通过一个平台同时解决“快速发布”和“可信评审”的矛盾?这一步的关键是把愿景转化为可验证的工程与制度设计。

其次是广邀协作,跨学科的合作者拼图让研究团队能够从“科研生产”“质量管理”“安全对齐”三个维度同步推进。

最后是搭建最小可行原型,研究团队打通了“提交-评审-返修-发布”的完整链路,支持 Proposal 与 Paper 的提交,让 AI 与人类评审能够被统一调度与记录,每一次返修都能形成可追踪的质量轨迹。

本次研究的合作者胡翔和黄国伟表示,在实验阶段,当研究团队完整复现 AI-Scientist 的流程时,从一个 idea 出发,到自动化完成实验,再到安全地生成一篇完整的论文,让人十分震撼。那一刻,研究团队并不是担心自己真人研究员的身份会被替代,而是意识到未来会出现越来越多更智能的 AI Scientist 工具,它们能够帮助人类更好地开展科研,加速整个科学进展。哪怕科研效率只提高百分之十,对社会的价值都会是巨大的。研究团队做 aiXiv 的初衷,就是希望把这些由 AI 产出的高质量知识沉淀下来,真正服务于科学。

当问及下一步基于该研究是否有后续计划?胡翔以及张鹏松表示,在 aiXiv 的基础上,研究团队计划进一步引入强化学习,将其打造为一个科研的 Agent 环境,使研究型智能体能够通过结构化交互不断演化。随着平台上大规模产生的科研提案、论文、同行评审与多轮返修积累,aiXiv 将形成一个丰富的经验数据仓库,为科研智能体或者说 AI 科学家的学习提供坚实基础。

在这一协作生态中,研究型智能体将能够:

学习复杂推理与长期决策能力,提升其制定与执行科研计划的能力;发展自适应行为,在科学探索与综合实验中不断优化策略;自主获取新知识与技能,通过与其他智能体和人类研究者的互动完成迭代,而无需依赖显式重编程。

这些能力将使智能体能够动态适应新兴的科研领域与未知挑战,确保其在快速演化的科学前沿保持持续相关性。

此外,研究团队希望把 AI-Scientist 真正用于端到端实验。不仅要在计算机科学、数学等不太需要“动手”的学科实现从构想到结果的自动化,也要将其与自动化机器人系统深度结合,走进需要物理实验与湿实验的领域(如生物、化学、材料等工程科学)。通过高通量实验执行、自动化仪器控制、实时数据采集与分析,以及“假设-实验-评估-返修”的闭环,研究团队希望能够打通“选题-设计-实验-分析-写作-发布”的全流程。最终目标是培养具备“手脑一体”能力的 Robot Scientist,不仅能胜任人类科学家的日常工作,更在速度、准确性、创新性与可复现性上接近与超越人类水准。

研究团队也希望将 AI-Scientist 推广到其他领域,尤其是商科研究。一个关键问题在于,AI-Scientist 是否能够自主识别并收集相关数据,从而开展高质量的商学院学术研究?与此同时,本次研究也发现当前在文献引用方面仍然存在不足。然而,文献的有效应用对科学研究至关重要。因此,研究团队也希望在这一领域进一步提升 AI-Scientist 在整合和运用现有文献方面的能力。

目前,研究团队正在筹备建立一个全球性非营利性组织 aiXiv Organization,旨在将 aiXiv 打造为下一代的科学研究发布与共享平台。aiXiv Organization 的使命不仅是“发布论文”,更是要探索人类与 AI 共同进化的科研新范式,为未来的科学发现提供可信赖的基础设施。

研究团队也正在邀请各大顶级高校教授们加入上述非营利性组织的 Advisory Board,希望借助他们的专业洞见与学术规范经验,逐步共同建立起一个科学、可信、规范且长期可持续的 AI for Research 生态环境。同时,其也期待得到来自企业、基金会等各类合作伙伴的支持,携手推动这一开放科研平台的建设与落地。另外,本次论文的合作者周孝严也正在创立一家初创公司。公司使命是将“AI 科学家”这一前沿理念落地应用于各个垂直领域之中,从而加速企业科研创新进程,提升科研产出效率。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新