当前位置: 首页 » 资讯 » 新科技 » 正文

荷兰伊拉斯姆斯大学打造了一个"读懂论文"的AI系统

IP属地 中国·北京 科技行者 时间:2026-04-23 11:00:48


这项由荷兰伊拉斯姆斯大学鹿特丹分校与英国开放大学联合开展的研究,以预印本形式于2026年4月13日发布在arXiv平台,编号为arXiv:2604.11152v1。这是一篇中间阶段的技术报告,距离最终完成尚有一段路程,但研究团队选择提前公开成果,正是为了听取各方反馈——这本身就体现了一种与主流AI开发截然不同的态度。

**一、一个让人感到不安的问题**

每次打开ChatGPT,你是否有过这样的感受:输入一个问题,几秒钟后一篇看起来像模像样的文章就出现在屏幕上,行云流水,言之成理,却又总让你觉得少了点什么?那种感觉就像是去餐厅点了一道招牌菜,端上来的却是速冻食品加热后的模样——形状对,味道却不太对。

对于社会科学和人文学科(这两个领域合称SSH,涵盖历史、哲学、社会学、政治学、法学、语言学、艺术等几乎所有以"人"为核心的学问)的学者来说,这种不安感尤其强烈。这些学科的核心不是给出标准答案,而是不断提问、质疑、重构,甚至颠覆现有的认知框架。当一个AI系统开始替你"生成"论文、"生成"观点,它实际上是在用一种高度标准化的语言,把本来应该充满张力和探索性的学术思考变成了一碗速食粥。

荷兰伊拉斯姆斯大学的研究团队正是被这个问题困扰着。他们的核心追问是:AI语言技术真的只能以这种方式被使用吗?答案是否定的。他们提出了一套全新的方案,叫做SHARE(社会人文AI研究与教育系统)和MIRROR(模型反思性研究输出修订界面)。这不是另一个ChatGPT,而是一个完全不同哲学取向的工具——它的设计目标不是替你写作,而是帮你更清晰地看见自己写了什么。

**二、现有AI系统的根本问题在哪里**

要理解这个研究为什么重要,先得搞清楚目前的AI语言模型是怎么运作的,以及为什么它对人文社科学者来说存在根本性的问题。

现在我们用的大型语言模型,无论是ChatGPT、Claude还是Gemini,本质上都是在做一件事:预测"接下来最可能出现的词"。你输入"太阳从东方",它就会补上"升起",因为在它见过的海量文本里,这个搭配出现的频率最高。这种能力让它可以写出语法通顺、逻辑连贯的文章,但同时也意味着它天然倾向于产出"最常见的说法",而不是"最有洞见的说法"。

这对人文社科是致命的。一个哲学研究者的价值,恰恰在于他能提出一个让人猝不及防、之前没人想到过的论点。一个历史学家的贡献,可能是把一段被主流叙事长期忽视的地方性经验重新带入视野。一个社会学研究者的洞见,可能来自于刻意反对某种已经被学界视为常识的解释框架。这些都是对"期望"的违背,是对常规表达的偏离——而恰恰是这种偏离,构成了人文社科学术贡献的核心。

问题还不止于此。现有的大型语言模型几乎都是用互联网上的通用数据训练出来的,STEM领域(科学、技术、工程、数学)的内容在其中占据压倒性比例。数学证明、编程代码、化学实验报告——这些领域的知识有明确的对错标准,可以用来验证AI的推理能力。相比之下,人文社科的知识是高度情境化、解释性的,没有统一的标准答案。这导致主流AI模型在人文社科方面的训练本来就不充分,又因为没有合适的方法来衡量它在这些领域的表现,整个领域的AI开发形成了一种系统性的偏见:STEM领域的AI工具越来越精良,而人文社科领域几乎被忽视。

更麻烦的是,当商业AI公司出于安全和合规考虑对模型进行"价值对齐"时——比如让模型拒绝回答涉及仇恨言论或种族歧视的问题——这其实无意间堵死了人文社科研究者正当的学术需求。研究种族歧视的社会学家,研究历史上暴力事件的历史学家,研究极端主义话语的政治学家,都可能因为模型的安全过滤而无法得到需要的内容。这不是模型在保护他们,而是在阻碍他们。

**三、SHARE是什么,它是怎么被造出来的**

SHARE是一个从零开始专为人文社科领域训练的语言模型。与其他模型最根本的区别在于:它的"食谱"只有人文社科的"食材"。

先说数据来源。研究团队从三个大类的语料库中筛选内容。第一类是维基百科,他们没有把所有词条都纳入,而是根据维基百科自己的主题分类系统,专门选取与商业、传播、文化、经济、教育、地理、政府、历史、人类行为、人文、语言、法律、哲学、政治、宗教、社会等相关的条目,同时排除了动植物通讯等非人类社会内容,并且对"科学"类别只保留社会科学和形式科学部分。第二类是古腾堡计划的书库,这是一个以公共领域历史书籍为主的数字图书馆。研究团队根据美国国会图书馆的分类编号,选取了哲学与心理学、历史、地理与人类学、社会科学、政治学、法学、教育、音乐、美术等类别的书籍。第三类也是最重要的一类,是学术论文,主要来自两个大型开放获取数据库:PeS2o(包含约4000万篇开放获取学术论文,源自语义学者开放研究语料库)和CORE(一个由英国开放大学运营的大型学术内容聚合平台,截至2025年5月已收录约4920万篇全文学术文档和4.49亿条元数据记录)。

为了从这些庞大的数据库中精准提取人文社科内容,研究团队采用了一种混合策略。当数据库本身提供了学科分类元数据时,他们直接利用这些标签进行筛选。当没有现成标签时,他们使用了AllenAI(美国艾伦人工智能研究所)开发的学科分类器,自动判断一篇文章属于哪个学科领域。最终保留的学科包括艺术、商业、经济学、地理、教育、历史、法学、语言学、哲学、政治学、心理学和社会学。

关于模型的架构,研究团队选择了微软Phi-4的结构作为基础框架,但把它的"词典"换成了自己从训练数据中学习出来的版本。原版Phi-4的词典有约10万个词条,而SHARE的词典只有5万个,这是因为训练数据主要是英文和荷兰文,不需要那么多词条也能有效处理高度专业化的学术文本。研究团队同样训练了两个规模的模型:参数量约39亿的SHARE-4B,以及参数量约140亿的SHARE-14B,分别对应Phi-4-mini和Phi-4的规模。

训练过程的细节也相当值得了解。SHARE-4B的训练得到了英伟达学术资助的支持,在一个叫做Saturn Cloud的云计算环境中,用8块英伟达A100 GPU跑了656小时,完成了280亿个词条的两轮训练。这个训练过程产生的碳排放量大约相当于一张从阿姆斯特丹飞往纽约的经济舱单程机票。SHARE-14B目前仍在训练中,已经处理了960亿个词条,最终目标是完成6300亿词条的计算最优训练量,也就是说在这份技术报告发布时,14B模型只完成了15%的训练。这部分训练先在Saturn Cloud的8块A100 GPU上跑了167小时,后来转移到荷兰国家超级计算机Snellius上,使用20块H100 GPU并行运算了约225小时。团队还特别强调,他们为确保高效运算花了相当大的工夫,使用了多种加速技术。

**四、MIRROR:一个"不生成任何文字"的AI界面**

SHARE模型做好了之后,研究团队面临一个关键决定:怎么让人们使用它?

通常的路径是:在预训练完成后,进行监督微调(让模型学会回答问题),然后做价值对齐(让模型学会拒绝有害请求)。但研究团队决定不走这条路,原因有几个。其一,根本没有专门为人文社科设计的微调数据集。其二,如前所述,通用的价值对齐会干扰人文社科的正当研究需求。其三,他们在实验中发现,对SHARE进行通用的微调之后,模型生成文本的质量反而下降了,这与近期其他研究的发现一致。

正因如此,他们决定让SHARE保持在纯粹的预训练状态,并为它设计一种完全不同的使用方式。

MIRROR的核心逻辑是这样的:一个只用人文社科文本训练出来的语言模型,当它预测"下一个词最可能是什么"的时候,它实际上是在表达人文社科文本的"平均期望"。如果你写的某个词在这个模型看来是高度出乎意料的,那要么是你犯了个错误,要么是你写出了真正有原创性的内容。这两种情况都值得你停下来想一想。

具体操作是这样的:你把一段文字输入MIRROR,它不会生成任何新的内容,而是对你文字中的每一个词计算一个"意外程度分数"。分数越高,说明这个词在人文社科的语境下越出乎意料。然后,这些词会在屏幕上用颜色深浅来显示——颜色越深,说明越意外。

背后的数学并不复杂,但值得了解一下。研究团队计算了每个词的"惊讶度"(简单说就是:这个词有多不像模型预测的那个词),以及整个词库在这个位置的"混乱度"(简单说就是:模型在这个位置本来就没有特别确定的预测,所以意外性本身意义不大)。把这两个指标结合起来,得到每个词的Z分数——这是统计学中衡量"与正常情况偏离了多少个标准差"的指标。Z分数高的词就会被MIRROR用深色标注出来,提示作者:"嘿,这里有点不寻常,你要不要看一看?"

当你把鼠标悬停在某个被标注的词上时,MIRROR还会显示"模型原本最期待在这里出现的词是什么",呈现出一个类似词典辅助功能但性质完全不同的东西——不是告诉你这个词的同义词,而是告诉你在这个上下文里,整个人文社科文献中最常用的词是什么。

除了这个基本的词级标注,MIRROR还提供几种扩展视图。一种是把文章中所有被标注词按意外程度排名,让你一眼看出哪些地方最特别。另一种是反过来看:在你的文章里,模型觉得"应该出现但实际上没出现"的词是哪些,让你思考是否有什么重要概念被自己忽略了。还可以按句子或段落来汇总意外性分数,帮助你从更宏观的角度了解哪些部分最符合领域常规,哪些部分最具独特性。

这个界面的设计灵感来自一种叫做"期望违背理论"的学术框架。这个理论来自人际传播研究,它提出一个看似反直觉的观点:违背期望有时候比符合期望更好。在人文社科的写作中,这个原理格外适用。期望的违背可能意味着错误,也可能意味着创新。MIRROR的作用就是把这些违背期望的地方标示出来,让作者自己来判断:这是一个需要修改的错误,还是一个值得保留的创新?

**五、这个系统有多好用:三类测试的完整结果**

研究团队通过三个层次的测试来评估SHARE的实际表现。

第一个层次是验证SHARE是否真的比通用模型更适合人文社科文本。他们用的方法是测量"困惑度"——这是语言模型领域衡量"模型对一段文字有多不确定"的指标,值越低说明模型越能理解这段文字。他们用的测试素材是2025年第三季度和第四季度在伊拉斯姆斯大学鹿特丹发表的论文摘要,这批摘要不在SHARE的训练数据中,可以公平地测试模型的真实能力。对比的基准是Phi-4模型(与SHARE架构相同的通用模型),比较两者在理解不同学科论文时困惑度的差异。

结果显示,在艺术、教育、社会学这些典型人文社科领域,SHARE与Phi-4之间的困惑度差距明显小于生物、工程、医学这些STEM领域——这说明SHARE在人文社科领域的理解能力相比Phi-4确实有更高的相对专业性。以学院为单位来看,伊拉斯姆斯大学医学中心的论文与SHARE的契合度在所有学院中最低,而历史文化传播学院、法学院、社会行为科学学院的契合度则明显更高,这与直觉完全一致。

不过,Phi-4在绝对困惑度数值上仍然总体低于SHARE,也就是说通用性能上Phi-4更强。研究团队把这归因于训练数据量的巨大差距:Phi-4用了约万亿规模的词条,而SHARE只用了数百亿,对英语本身的掌握自然没有Phi-4那么全面。这个局限性引出了第二个测试。

第二个层次是专门为这项研究设计的"SSH完形填空基准测试"。完形填空是语言学习中的一种经典测试形式——把一个句子中的某个词挖掉,让被测者猜是什么词。研究团队把这个方法改造成一种专门测试人文社科领域知识的工具。

具体做法是这样的:他们从2026年第一季度发表的275篇人文社科领域学术摘要(这批摘要肯定不在任何模型的训练数据中,保证了测试的公平性)中,找出需要学科背景知识才能判断的词对,比如"正向"vs"负向"、"更高"vs"更低"、"更大"vs"更小"。以"社交媒体使用与幸福感的相关性是负向的"这句话为例,要预测"是"字只需要懂英语语法,但要预测"负向"而不是"正向",就需要了解相关的社会科学研究结果。这275个例子来自11个学科(艺术、商业、传播、经济学、教育、地理、历史、法学、哲学、心理学、社会学),每个学科25个例子,通过在Web of Science上搜索特定关键词并按引用量排序来选取,尽可能代表各领域的标志性研究成果。

测试结果相当令人注目。SHARE-14B(仅完成了15%的训练!)取得了79.6%的修正准确率,超过了完整训练完毕的OLMO-2-13B(73.8%)和Pythia-12B(61.5%),并且与架构完全相同、完整训练完毕的Phi-4-14B(81.8%)仅差2个百分点——而Phi-4所用的训练词条量是SHARE的100倍。从计算效率的角度看,SHARE-14B处于所有测试模型中效率最高的那个位置:用最少的计算量达到了最接近顶级的准确率。SHARE-4B(66.2%)的表现也比同等规模的Pythia-3B(63.6%)略好,但低于参数量仅1.1亿却专为社会科学摘要训练的SSciBERT模型(67.6%),这说明在完形填空这类任务上,专为该任务设计的掩码语言模型(即类似BERT的双向模型,而非SHARE这类自回归模型)仍有其优势。

第三个层次是定性测试,研究团队用四个具体案例展示了SHARE-MIRROR系统在真实使用场景中的表现。

第一个案例是错别字和风格问题检测。研究团队用了一段受一年级本科生写作启发构建的文本,里面故意埋入了错别字("platforma"多了一个字母a)和不符合学术规范的风格选择(文章开头直接引用、没有给"Twitter"加引号、用"literary"代替"literature")。两个模型都成功标注了错别字,14B模型还额外标出了更微妙的风格问题,比如"But so"这种不常见的句子开头方式。

第二个案例是内容错误检测。研究团队构造了一个把议程设置理论的发明者写成了Gerbner和Katz(实际上是McCombs和Shaw)的错误陈述。两个模型在"proposed by"之后都预测"McC"(即McCombs的开头)是最可能出现的词,但只有14B模型的置信度高到足以触发红色标注。这个案例还揭示了一个重要的使用原则:如果文本前面已经有了一个错误,模型会被这个错误"带偏",对后续内容的判断也会受影响。因此,MIRROR在使用时应当从文章开头开始逐步修改,而不是跳着来。

第三个案例展示了正面的期望违背,也就是真正的创新性内容。研究团队用了一篇2026年关于社交媒体隐私的元分析文章的讨论部分,这篇文章在隐私研究的语境中引入了平台监管、数字素养等不太常见的讨论维度。模型标注了"guide"(引导)、"platform"(平台)、"literacy"(素养)等词为意外词——这不是错误,而是这篇研究提出的独特视角。研究团队还演示了"缺失词"功能:模型认为在这段文字中"应该出现但没有出现"的词是什么?SHARE-4B给出了"section"、"safety"、"protection",SHARE-14B给出了"ecosystems"、"designing"、"prioritize"。作者可以自己判断这些"缺失词"是否值得被纳入讨论。

第四个案例最为深刻。研究团队选取了传播学者Gregory Gondwe在2025年国际传播学会年会主席致辞回应文章的第一段。这篇文章讨论的是全球化传播研究中长期存在的地理偏见问题——来自非洲的知识生产者被主流传播学视野边缘化。MIRROR标注了大量词汇为意外,包括"cosmopolitan"(世界主义)、"curiosity"(好奇心)、"African"(非洲的)和"locations"(地点)。更耐人寻味的是:当模型看到"African"这个词时,它最可能预测的下一个词不是"continent"(大陆)或"scholars"(学者),而是"-"(破折号)和"American"——因为在整个英文人文社科文献中,"African"最常见的用法是"African-American"(非裔美国人)。这个结果以一种几乎不需要解释的方式,用模型自身的偏见揭示了Gondwe文章所批评的那种结构性偏见:即便是在学术文献中,非洲作为独立的知识来源也是"意外的"。

**六、为什么不做成聊天机器人,以及这意味着什么**

理解了SHARE和MIRROR的设计之后,有一个问题可能已经浮出水面:为什么不做成更熟悉的对话式AI?你说一句话,它回一句话,这样不是更方便吗?

研究团队的选择有着深思熟虑的理由。他们认为,把语言模型做成一个能流畅对话的助手,本质上是在鼓励一种思维上的依赖关系。当你把写作任务交给一个对话AI,它给你一个答案,你接受或者微调,这个循环让模型成了思考的主体,而你成了审核者。对于人文社科的学者来说,这恰好颠倒了应有的关系。

MIRROR的界面设计刻意没有任何文字输入框——不,准确来说是有一个输入框,但你输入的是你自己写好的文章,而不是一个问题或指令。输出也不是一段生成的文字,而是对你已有文字的分析。这种设计让AI始终处于工具的位置,而不是创作者的位置。

此外,研究团队也在担心一种叫做"拟人化效应"的心理现象:当AI系统像人一样跟你对话,你会不知不觉地开始把它的输出当成权威,赋予它一种它本不该拥有的可信度。历史上有一个著名的例子叫做"ELIZA效应"——1960年代麻省理工学院开发的早期聊天程序ELIZA,其实只是在用简单的规则模仿心理咨询师说话,但测试的人们却对它产生了真实的情感依附,甚至有人把它当成真正的治疗师。研究团队认为,现代的对话AI正在以更大的规模重演这个问题,而MIRROR的非对话设计是一种刻意的对抗。

在数据使用的伦理方面,研究团队也做了相当多的工作。他们用于训练的学术文献都来自开放获取来源,这些论文的作者让自己的研究成为公共财富,是为了让知识传播,而不是为了让商业公司从中牟利。研究团队为SHARE制定了一个叫做"负责任AI许可证"(RAIL)的自定义许可条款,明确禁止商业使用、禁止模型蒸馏(一种从大模型中提取知识来训练小模型的技术,如果允许的话商业公司可以绕过非商业限制),并且限制将模型用于自动文本生成的应用场景。

他们还特别注意数据处理的地理范围:原始数据的预处理只在欧盟境内的服务器上进行,发送到美国云服务器进行训练的数据已经是处理后的词条化形式,并在训练结束30天后删除。这与欧盟通用数据保护条例的要求相符。

关于版权风险,研究团队通过实验证明SHARE模型并没有"背诵"训练数据的问题。当他们用训练集中的文章片段来测试模型,让它按确定性最高的方式逐词续写,模型生成的内容很快就偏离了原文,说明它没有把这些文字原封不动地记住。唯一能被"记住"的内容是一些标准化的免责声明和文件头部信息,这些本来就不受版权保护。

**七、研究团队对局限性的坦诚**

这项研究有一个相当少见的特质:研究团队对自己工作的局限性十分坦诚,没有试图掩饰或淡化。

第一个已知局限是语言覆盖面。尽管人文社科是一个全球性的学术领域,SHARE的训练数据主要是英文,以及少量荷兰文。这意味着它对人文社科的"期望"是基于英语学术文献的"期望",这本身就是一种偏见——正如第四案例所揭示的,即使是英文开放获取的人文社科文献,也已经因为历史上的殖民结构而存在严重的地理和文化偏向。一个用这些文献训练出来的模型,会把这些偏见内化为"正常",把来自非洲、亚洲、拉丁美洲的本土知识框架标注为"意外"。研究团队认为这个局限需要在未来迭代中通过纳入多语种语料库来解决,但他们同时也指出,这个问题本身已经是MIRROR可以让人意识到的一种偏见——模型的局限性变成了可见的学术议题。

第二个局限是SHARE-14B在报告发布时只完成了15%的训练。这意味着目前公开的模型性能只是最终版本的预览,很多能力还没有完全发展出来。在完形填空测试中与Phi-4已经相当接近的表现,让研究团队对完整训练后的结果持有信心,但这仍然是推断,不是已证实的结论。

第三个局限是SSH完形填空基准测试本身的局限性。275个例子、11个学科,这个规模还相对有限。此外,测试中选取的词对(正向/负向、更高/更低等)并不完全能代表所有类型的领域知识,而且测试摘要中可能有一部分是用大型语言模型辅助写成的,这会影响测试的干净程度,尽管研究团队认为这个风险相对可控。

第四个潜在风险是MIRROR本身的使用方式可能被误用。如果读者(比如论文审稿人)把MIRROR的输出当作一种捷径——只关注红色标注的部分,把"出乎意料的多"直接等同于"写得好"或"有创新性"——这就和研究团队的设计初衷背道而驰了。MIRROR是一个引发反思的工具,不是一个提供结论的工具。这种误用的风险是真实存在的,而且目前没有技术手段可以完全防止。

**说到底,这项研究在做一件困难的事**

归根结底,SHARE和MIRROR试图解决的是一个从根源上就带有张力的问题:如何用本质上是"预测常规"的技术,来支持本质上是"创造非常规"的工作?

研究团队的回答是:不要试图让AI去模拟人文社科的创新,而是让AI精确地告诉你什么是常规,然后由人来判断自己的偏离是不是有意义的偏离。这个方案不能完全解决这个张力,但它至少把判断权还给了人——把AI从一个生产者变成了一面镜子。

这项由荷兰伊拉斯姆斯大学鹿特丹分校与英国开放大学联合发布的研究(arXiv:2604.11152v1,2026年4月13日),对所有关心AI与人文价值之间关系的人来说,都是一个值得认真思考的参照。如果你想了解更多,可以用论文编号arXiv:2604.11152在arXiv平台上找到完整的技术报告,包括所有训练细节、基准测试数据以及MIRROR的技术实现方式。

Q&A

Q1:SHARE模型和ChatGPT的根本区别是什么?

A:SHARE模型只用人文社科领域的文献训练,没有经过"让模型学会回答问题"的微调,也没有做商业AI常做的价值对齐处理。ChatGPT这类模型是用海量通用互联网数据训练,然后进一步调教成能流利对话的助手,设计目标是生成用户期望的回答。SHARE的设计目标恰恰相反——它保留的是对人文社科文本"什么是常规"的原始判断,而不是追求流利地生成文字。

Q2:MIRROR界面具体怎么用,普通学生能用上吗?

A:使用方式是把自己写好的文章粘贴进MIRROR,系统会对每个词计算"意外程度分数"并用颜色深浅显示出来。颜色越深说明这个词在人文社科文献中越不常见。悬停在某个词上还能看到模型"原本期待在这里出现的词"。研究团队提到SHARE-4B的量化版本可以在只有CPU的普通笔记本电脑上运行,未来有让学生能在本地使用的潜力,但目前主要以研究原型的形式存在。

Q3:SSH完形填空基准测试是如何保证公平性的?

A:研究团队专门选取了2026年第一季度发表的学术摘要作为测试素材,确保这些内容在所有被测试模型的训练截止日期之后才出现,从根源上排除了"模型之前见过这些文字"的可能性。此外,所有被测试的词对(正向/负向、更高/更低等)都是那种单靠英语语感无法判断、必须了解该领域具体研究结论才能猜对的词,专门用来测量领域知识而非语言能力本身。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。