当前位置: 首页 » 资讯 » 新科技 » 正文

斯坦福、哈佛等机构联手打造"评测卡片",让AI考试成绩变得可信

IP属地 中国·北京 科技行者 时间:2026-06-15 22:10:58

这项由斯坦福大学、Hugging Face、EleutherAI、哥本哈根大学、爱丁堡大学等数十家机构联合完成的研究,于2026年6月发表在arXiv预印本平台,论文编号为arXiv:2606.09809。这是来自全球超过三十家科研机构和企业的研究人员共同协作的成果,项目依托evaleval Coalition社区推进,感兴趣的读者可通过上述编号查阅完整论文。


你有没有注意到,每当一家科技公司发布新的AI模型时,总会附上一串炫目的评测分数?"在某某数学竞赛题库上得了98.9分"、"在某某推理测试上超越人类水平"……这些数字听起来无比权威,但如果换一家独立机构去测同一个模型,分数可能相差十几二十个百分点。这是怎么回事?谁的测试结果才是可信的?

这正是这篇研究想要解决的问题——AI的"考试成绩"目前处于一种高度混乱的状态,而这混乱的代价,最终由那些需要根据这些成绩做决策的人来承担:部署AI系统的工程师、制定监管政策的政府官员、以及试图理解AI能力边界的普通公众。

一、为什么AI的"考试成绩"会如此混乱

考虑这样一个场景:你想了解某款AI在数学题上的真实水平,于是找来了三份报告。第一份来自开发该AI的公司,说模型在MATH数据集上得了98.9分;第二份来自一家独立评测机构,同样测试MATH,却只给出了84.7分;第三份报告压根没写清楚用的什么版本的MATH,用了几道题,温度参数设置是多少,甚至不知道是否用了思维链提示。

这三份报告说的是同一件事吗?表面上是,实质上完全不同。同一个基准测试的名字,背后可能藏着完全不同的测试题目子集、不同的提示方式、不同的评分规则。就像三家餐厅都说自己卖"炒饭",但一家用冷饭、一家用热饭、一家还加了特制酱料,最终出来的是三种东西,却共用了同一个名字。

研究团队通过系统性梳理发现,目前AI评测结果散落在排行榜、模型卡片、学术论文和企业博客等各种来源中,彼此之间格式不兼容,缺少关键信息,也没有任何跨来源比较的统一标准。更重要的是,当结果不完整或语境缺失时,解读这些数字的繁重工作就落到了那些最不具备专业能力去做这件事的人身上——比如监管人员和政策制定者。

过去也有人尝试改善这种状况。有人提出了BenchmarkCards,专门记录评测基准本身的元信息;有人建立了EEE(Every eval Ever)数据库,收集标准化的评测运行记录;还有各类排行榜和系统卡片。但这些努力都只解决了问题的某一个角落:有的只管基准文档,有的只管运行数据,没有人把它们拼成一张完整的图。更大的问题是,大多数这类提案停留在纸面上,没有实际的数据提取工具和托管界面,需要评测者手动填写大量字段,这在实际操作中极难推广。

这项研究提出的解决方案叫做evalUATION CARDS,字面意思就是"评测卡片"。它的核心理念不是创造一个新的标准要求大家从零开始填写,而是把已经存在的三类信息——基准测试的元信息、评测运行的记录数据、模型本身的基础信息——统一整合进一个结构化的记录里,并在这个整合记录上自动计算四个"信号",帮助读者判断一个评测分数是否可信、是否完整、是否有可比性。

二、把"炒饭"分清楚:五层架构让每一分成绩都有迹可循

研究团队发现,现有评测报告的一大根本性缺陷在于它把所有东西都压扁成一个三元组:模型名称、基准名称、分数。这就好比一家餐厅的菜单上只写了"食物:9分",完全没有告诉你这是主食还是甜点、是川菜还是粤菜、是堂食还是外卖评分。

为了解决这个问题,研究团队设计了一个五层的层级架构,把每一个评测结果都放进一条完整的"谱系链"里。这五层从上到下依次是:家族(Family)、组合(Composite)、基准(Benchmark)、子集(Split)和指标(Metric)。

以一个具体例子来说明。当有人宣称"某个模型在MATH上得了99.4%",这个说法在这套架构里会被展开成一条完整路径:MATH家族 → artificial_analysis(一家独立评测机构的组合评分) → MATH-500(具体的500道题子集) → advanced-math(高级数学子类) → accuracy(准确率指标) → 0.994。这条路径告诉了你所有重要信息:谁测的、测了哪个版本、测了哪类题、用什么指标、得了什么分。少了任何一环,这个分数就很难被独立验证。

这个设计还有三层实际意义。第一,可信度警告会精确地贴在具体路径上,而不是笼统地贴在"MATH这个名字"上,因此读者能知道到底是哪个具体测试缺少了可重复的信息。第二,读者可以沿着这条链路向上追溯,看清楚一个综合评分背后具体是哪几项子任务支撑的,哪些有充分证据、哪些只有单一来源的孤证。第三,当不同来源报告的名称不一致时(比如同一个模型在不同报告里叫gpt-4、gpt-4-0613、OpenAI GPT-4),系统会通过标准化层将它们映射到同一个规范标识符,防止同一件事被当成三件事来统计。

三、四张"体检单":评测结果究竟靠不靠得住

有了规范化的数据结构之后,研究团队在上面计算了四个"解读信号",每一个都回答一个关键问题。

第一个信号叫"可重复性"。它问的是:如果另一个人想独立复现这个评测,报告中提供的信息够用吗?这里定义了一个最小信息集,包括采样温度(temperature)和最大生成长度(max_tokens),对于智能体类任务还额外需要评估方案和资源限制的说明。如果这些字段有任何缺失,这条记录就会被标记为存在可重复性缺口,并列出具体缺少哪些字段。可以把这个信号理解成菜谱上的基础要素检查:一道菜至少要写清楚原料、火候和时长,缺了任何一样,别人就没办法做出同样的结果。

第二个信号叫"报告完整性"。这个信号的覆盖范围比第一个宽得多,它检查的是基准测试本身的文档是否足够详尽,包括测试的构建目标、测试的对象是什么能力、评分标准怎么定、适合用在哪些场景、有什么已知的局限性,共涉及28个字段。每个字段根据填写情况得0到1之间的分数,最终汇总成一个整体完整性比例。一个评测结果可以在可重复性上得满分(所有运行参数都记录了),但完整性分数依然很低——因为它根本没有说清楚这个测试在测什么、适合谁用、不适合谁用。

第三个信号叫"来源归属"。它问的是:这个分数是模型开发商自己报告的,还是独立第三方报告的?这一点的重要性显而易见。同一个学生的成绩,自评和他评往往差异悬殊。研究团队在系统中记录了每条结果的"评测关系"字段,分为第一方(开发商自己测)、第三方(独立机构测)和协作测试三类。此外,基准测试本身携带的风险标注——这些标注来自IBM AI Atlas风险识别框架,涵盖欺诈、网络犯罪、仇恨言论、恐怖主义等风险类别——也会随着评测记录一起展示给读者,让人在看分数的同时知道这个测试本身涉及哪些敏感领域。

第四个信号叫"可比性"。它问的是:不同来源报告的同一模型在同一基准上的分数,差异在可接受范围内吗?系统使用5%的阈值作为判断标准。如果两家机构报告的分数相差超过基准量程的5%,就会触发可比性警告,并展示两家的具体分数和推测的设置差异(比如温度参数不同、测试题目版本不同)。这个信号特别重要,因为它能暴露那些"表面上是同一个测试、实际上测的是不同东西"的情况。

这四个信号的设计有一个共同原则:只呈现,不判决。系统不会给评测报告打"不合格"的标签,不会给模型打字母等级分,也不会给任何开发商排名。它只是把哪些信息有、哪些信息没有、不同来源之间差异有多大,清清楚楚地摆在读者面前,让读者自己判断。

四、同一份数据,不同的人看到不同的面貌

研究团队还注意到一个现实问题:一位专门做模型评测的工程师和一位负责AI政策审查的官员,在看同一个评测结果时关心的东西完全不一样。工程师想知道具体缺了哪些配置参数、各家评测机构的设置有什么具体差异、判题模型用的是哪个版本;政策官员则没有时间消化这些技术细节,他需要的是一句话的结论:"这个模型的测试方式有没有被充分记录?报告来自开发商还是独立机构?这个测试覆盖了哪些风险领域?"

为了服务这两类完全不同的需求,evalUATION CARDS设计了两种"阅读模式",但两种模式操作的是完全相同的底层数据,只是展示的角度和粒度不同。

研究模式面向技术人员,展示所有细节:可重复性缺口列出每个具体缺失字段,可比性警告附上导致分数差异的具体设置参数(比如"两家机构在采样温度和提示样本数量上存在差异,导致分数偏差0.07"),指标配置完整展开,包括指标类型、分值范围、评判模型配置。

摘要模式面向政策人员和普通公众,把同样的信号翻译成白话:可重复性缺口不再是一串字段名,而是"这个测试中模型是如何被提示的,文档里没有说明";来源归属不再是枚举字段,而是"这个分数由开发商自己报告,尚无独立机构复测";每个基准测试都配有三行固定格式的摘要注解,分别回答"它在测什么"、"主要注意事项是什么"、"适合谁用"。关于分数高低的解读也被压缩成最简单的一句话,比如"分数越高代表表现越好,已有62个模型参与比较"。

在研究团队与12位来自政府机构、科技公司和非营利组织的从业者进行的半结构化访谈中,参与者的反馈总体积极。一位在非监管政府机构负责AI评测的受访者说,这套工具"比其他所有查看评测结果的方式都好";另一位政策研究人员说,以往需要花大量时间东拼西凑的背景信息,现在都集中在一个地方,"节省了大量时间"。

五、现实情况究竟有多糟糕:对五千多个模型的大规模扫描

研究团队将evalUATION CARDS部署成一套持续运行的监测工具,对截至2026年6月4日的公开评测记录进行了全面扫描。这个语料库涵盖5816个模型、635个单项基准测试(组织进62个家族和10个组合)、超过十万条评测结果,由30个机构贡献数据,包含通过HELM、lm-eval-harness、Inspect AI等框架运行的自动化评测,以及各排行榜抓取和社区直接提交的记录。

扫描结果揭示了三个让人不安的规律性现象。

第一个发现与可重复性有关。在全部50,461条(模型、基准、指标路径)三元组中,有48,698条——也就是96.5%——缺少最小可重复性字段中的至少一项。具体来看,95.6%的记录没有最大生成长度字段,93.9%没有采样温度字段。对于专门测试AI智能体行为的基准,情况更糟:评估方案和资源限制字段在所有相关记录中缺失率高达100%,也就是说完全没有一条智能体评测记录包含这些信息。更具体的对比出现在那些同时拥有开发商自测和第三方独立测试的180个(模型、基准)配对上:开发商自己提交的记录平均填写了0%的基础可重复性字段,而第三方独立评测机构提交的记录平均填写了16.6%。换句话说,在信息透明度这件事上,开发商自测记录甚至不如独立机构的记录。

第二个发现与文档完整性有关。在已有Auto-BenchmarkCards记录的635个基准测试中,文档完整性的中位数得分仅为10.7%。也就是说,大多数基准测试文档的填写情况不到总体要求的八分之一。从具体字段来看,唯一接近100%填写率的字段是评分类型和实际得分——这两项几乎每条记录都有,因为没有这两项就根本无法算作一条评测记录。而在框架另一端,预注册链接和生命周期状态字段的填写率是0%,历史上没有任何一条公开评测记录提供过这些信息。这说明,评测报告在"给出分数"这件事上做得还行,但在"解释这个分数意味着什么"方面几乎是空白。

第三个发现与多方核实有关。在49,865个(模型、基准)配对中,有98.2%只被一个来源报告过,也就是说绝大多数AI能力声明都没有经过任何独立核实。在那1.8%有多方报告的配对中,7.2%存在超过5%阈值的分数差异;如果缩小到由不同机构独立报告的181个指标组,则其中51.9%——超过半数——存在超过阈值的分数差异。这意味着,即便是那极少数有多方核实的情况,超过半数的结果也无法在不同来源之间直接比较。从评测类别来看,第一方独立报告(即只有开发商自己测,没有第三方结果)集中在智能体类基准(15.1%)和通用能力类基准(12.5%),而在安全类基准中这个比例只有0.8%——这意味着,最可能被用于部署决策的通用能力和智能体行为测试,恰恰是最缺乏独立核实的领域。

六、这套系统是怎么运转起来的:技术后台速览

evalUATION CARDS本质上是一个数据整合和计算层,而不是一个独立采集数据的系统。它从三个已有来源提取数据并整合。第一个来源是Auto-BenchmarkCards,这是一套自动提取基准测试元信息的系统,从Unitxt目录、Hugging Face仓库和相关论文中抽取内容,生成结构化的基准描述卡片,并对内容进行事实一致性验证。第二个来源是EEE(Every eval Ever),这是一个社区维护的评测运行数据存储库,包含来自HELM、lm-eval-harness和Inspect AI等主流框架的转换器,每条记录保存了模型信息、评测工具、来源归属和数值结果。第三个来源是模型元数据,来自hub-stats(覆盖Hugging Face上的开源模型)和models.dev(覆盖API部署的模型,包括商业模型),提供发布日期、参数量、权重可访问性等基础信息。

这三个来源彼此独立维护,使用不兼容的标识符系统。一个模型可能在一个来源里叫"gpt-4",在另一个里叫"gpt-4-0613",在第三个里叫"OpenAI GPT-4"。一个基准可能以其论文标题在一个来源里出现,以排行榜代码名在另一个来源里出现。evalUATION CARDS通过一个实体注册层解决这个问题:先进行表面标准化(统一大小写、去除分隔符),再进行精确匹配,再进行标准化匹配,最后进行模糊茎干匹配(剥离版本号和格式后缀)。对200个随机抽取的实体进行人工验证的结果显示,模型匹配准确率98.3%,基准匹配准确率77.4%,指标匹配准确率86.7%。所有无法匹配的实体不会被丢弃,而是原样保留并标记为待人工审核。

整个数据处理管线每天自动运行,全量重建时间不超过20分钟,运行在普通配置的Linux服务器上,前端界面部署在Hugging Face Spaces上,代码完全开源。这意味着任何人都可以在自己的服务器上部署一套独立的evalUATION CARDS实例,就像Model Cards被广泛部署那样。

七、这个工具未来会怎么演化,又有哪些局限

研究团队对这套工具的定位是一个持续演化的基础设施,而不是一次性的研究成果。它设计了一套分层治理机制:日常修复和文档更正只需要一名维护者审查即可合并,涉及数据处理逻辑的修改需要七天公开评论期,而涉及字段定义、信号计算方式或阅读模式的实质性变更需要21天公开评论期加上指导委员会的共识决定。所有提案无论是否被接受,都永久保存在仓库里作为历史记录。

研究团队同时承认了若干重要局限。首先,整套系统的声明继承了其数据来源的局限——Auto-BenchmarkCards验证事实准确性但不验证完整性,因此一个填写了内容但内容不够核心的字段也会得到满分。EEE是一个社区贡献的增长型数据库,没有被纳入其中的评测结果不会出现在evalUATION CARDS里,而系统性缺失(比如某类模型或某类评测机构很少向EEE提交数据)是存在的但没有被建模。

其次,污染控制是文档中最重要的缺失项之一:有多少训练数据出现在测试集中,这个问题目前只在自由文本的限制说明字段里偶尔提及,完全没有作为结构化字段进行收集,因而不计入完整性分数。研究团队将其列为最优先的未来扩展方向。

此外,系统目前只覆盖大型语言模型的评测,尚不支持图像模型、语音模型等其他AI系统。语料库中英语基准和顶级规模模型的比例偏高,反映了数据来源本身的分布偏差。可比性信号使用统一的5%阈值,没有考虑不同指标的统计噪声水平差异。

还有一个研究团队明确提示的风险:文档完整性高分容易被误解为"评测质量高",但实际上完整性分数只衡量文档写得够不够详细,与底层评测设计的严格程度完全无关。为了防止这种误解,系统没有设置任何等级评分或通过/不通过门槛,只是展示具体缺失了什么。

归根结底,这项研究试图解决的是一个协调问题,而协调问题很难靠再发明一个新标准来解决——反而需要的是能把现有努力拼接起来的基础设施,以及能把同样的证据呈现给不同背景的读者的界面。这套工具扫描了超过十万条公开评测记录后发现,96.5%的记录无法被独立验证,超过半数的多方评测存在实质性分歧,而绝大多数评测结果至今没有任何独立机构去核实。这些数字不是指责谁,而是在说明一个生态系统目前的真实状态——AI的能力声明正在被越来越广泛地引用于政策决定和部署决策,而支撑这些声明的基础信息还远远没有达到应有的透明度。如果你对AI评测的可信度感兴趣,这篇论文值得一读,可以通过arXiv编号2606.09809找到完整版本。

Q&A

Q1:evalUATION CARDS里的"可重复性"和"报告完整性"有什么区别?

A:可重复性只检查运行评测时最基本的技术参数有没有记录,比如采样温度和最大生成长度。报告完整性检查的范围更广,涵盖基准测试本身的28个文档字段,包括测试目标、适用场景、评分规则和已知局限等。一个评测可以把所有运行参数都记录了(可重复性满分),但完全没有说明这个测试在测什么(完整性极低)。

Q2:evalUATION CARDS扫描了多少AI评测结果,发现了什么最惊人的现象?

A:截至2026年6月,系统覆盖了5816个模型、635个基准测试和超过十万条评测记录。最惊人的发现是:96.5%的评测记录缺少独立复现所需的最基本信息,开发商自测记录填写基础参数的比例是0%,而98.2%的模型-基准配对只有单一来源报告,几乎没有任何独立核实。

Q3:evalUATION CARDS是强制要求开发商按新格式重新提交评测数据吗?

A:不是。evalUATION CARDS不要求任何人重新填写新表格,它从已有的三个数据来源(Auto-BenchmarkCards、EEE数据库、模型元数据)自动提取和整合信息,在现有数据上计算四个解读信号。它的定位是一个整合和解读层,而非替代现有报告流程的新标准。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。