当前位置：首页 » 资讯 » 新科技 » 正文

新加坡国立大学团队发布深度研究AI评测新标准

IP属地中国·北京 科技行者 时间：2026-04-10 21:54:50

深度研究人工智能系统已经成为科技界的热门话题，但如何评判这些AI系统的研究能力一直是个难题。想象一下，如果我们要评估一位研究员的能力，仅仅看他最终写出的报告是远远不够的——我们更需要了解他是如何搜集信息、分析证据、处理冲突观点，以及整个思考过程的逻辑性。然而，目前大多数AI评测方法就像只看考试成绩而不关心答题过程的老师，这显然无法全面衡量AI的研究能力。
这项由新加坡国立大学MiroMind团队主导的研究发表于2026年3月，论文编号为arXiv:2603.28407v1。研究团队不仅来自新加坡国立大学，还包括南洋理工大学的学者，他们共同开发了一套名为Miroeval的全新评测框架，这套系统就像为AI研究员设计了一场全方位的"能力测试"。
传统的AI评测方法存在四个主要问题，就像用错误的尺子量身高一样不准确。首先，现有评测只关注最终报告的质量，完全忽略了研究过程——这就好比只看菜品摆盘而不管厨师的烹饪技艺。其次，多模态评测能力严重不足，大多数评测都局限于文字内容，而现实中的研究往往需要处理图表、PDF文档、电子表格等各种格式的材料。第三，评测任务过于人工化，缺乏真实用户需求的复杂性。最后，这些评测标准一旦制定就固定不变，无法跟上知识更新的步伐。
Miroeval的创新之处在于它不再是简单的"阅卷机器"，而更像一个全方位的研究能力诊断专家。这套系统包含100个精心设计的研究任务，其中70个是纯文本任务，30个是多模态任务。所有任务都源自真实用户需求，通过两条并行的流水线生成：一条专门收集和改写真实用户的研究需求，另一条则根据网络热点趋势自动生成任务。这种设计就像为AI准备了一套既有经典题目又有最新热点的综合性考试。
更重要的是，Miroeval不只是看AI写出了什么报告，而是像一个经验丰富的导师一样，从三个维度全面审视AI的研究能力。第一个维度是"综合报告质量评估"，这就像评判一篇论文的写作水平和内容组织能力。第二个维度是"智能事实核查"，系统会像一个严格的事实检查员一样，逐条验证AI报告中的每个声明是否有可靠证据支持。第三个维度是"研究过程评估"，这是最具创新性的部分，系统会深入分析AI是如何搜索信息、如何推理分析、如何处理矛盾证据的整个思考轨迹。
研究团队测试了13个主流的深度研究AI系统，结果揭示了许多有趣的发现。不同AI系统在三个评估维度上的表现差异巨大，就像不同专业的研究员各有所长一样。有些AI擅长写出优美的报告，但在事实准确性上存在明显缺陷；有些AI搜集信息很全面，但分析深度不够；还有些AI虽然最终报告看起来不错，但研究过程混乱无序，缺乏逻辑性。
特别值得关注的是，研究过程的质量竟然可以很好地预测最终结果的质量。这就像通过观察厨师的烹饪过程就能预判菜品的好坏一样。那些在搜索、分析、推理过程中表现出色的AI系统，往往也能产出更高质量的研究报告。这个发现颠覆了传统的评测思路，证明了过程评估的重要价值。
另一个令人惊讶的发现是，多模态任务对所有AI系统都构成了巨大挑战。当需要处理图片、表格、PDF文档等多种格式的材料时，大部分系统的表现都明显下降，分数普遍下滑3到10分。这反映出当前AI在多媒体信息整合方面还存在显著不足，就像一个只会看文字材料的研究员突然被要求分析复杂图表时的手足无措。
在所有被测试的系统中，MiroThinker系列表现最为均衡，其中MiroThinker-H1在综合评估中名列前茅。这个系列的突出特点是在三个评估维度上都表现出色，没有明显的短板，就像一个全能型的研究专家。相比之下，其他系统往往在某一方面表现突出，但在其他方面存在明显弱点。
研究团队还进行了大量的稳定性测试，邀请专家对评测结果进行人工验证。结果显示，这套评测系统的准确率达到92%，专家评估与自动评测的一致性高达91%，证明了这套评测框架的可靠性和实用性。
这项研究的意义远不止于提出了一个新的评测标准。它为深度研究AI的发展指明了方向，让我们认识到仅仅关注最终输出是不够的，研究过程的质量同样重要。就像培养学生不能只看考试成绩，还要关注学习方法和思维过程一样，评估AI研究能力也需要更全面、更深入的视角。
随着AI技术在金融分析、医学研究、法律调查等高风险领域的应用越来越广泛，用户不仅需要AI提供准确的结论，更需要了解这些结论是如何得出的。Miroeval提供的过程透明度评估，为解决AI可信度问题提供了新的思路。当我们能够清楚地看到AI的"思考过程"时，就能更好地判断其结论的可靠性。
这套评测框架还有一个重要特点就是能够持续更新。由于采用了双路径的任务生成机制，既可以根据用户需求变化调整测试内容，也可以根据网络热点更新知识背景，确保评测始终跟上时代发展的步伐。这就像一个会自我升级的考试系统，始终保持对AI能力的准确评估。
说到底，Miroeval的出现标志着AI评测进入了一个新时代。它不再满足于表面的文字游戏，而是深入到AI的"思维内核"，全方位审视AI的研究能力。这种评测理念的转变，必将推动深度研究AI向更加可靠、更加智能的方向发展。对于普通用户而言，这意味着未来我们将拥有更加值得信赖的AI研究助手，它们不仅能给出正确答案，还能清晰地展示推理过程，让我们真正放心地把复杂的研究任务交给AI来完成。
当前这套评测系统还有一些限制，比如需要AI系统公开其推理过程，这对于完全封闭的商业系统来说可能存在困难。此外，在处理相互冲突的信息源时，系统目前只能识别冲突而无法判断哪个信息源更可信。不过研究团队表示，他们计划利用可更新的任务生成机制，定期发布新版本的评测集，确保这套标准始终与时俱进，为AI研究能力的准确评估提供持续的支持。
Q&A
Q1：Miroeval与传统AI评测方法有什么不同？
A：Miroeval不只看AI写出的最终报告，还会深入分析AI的整个研究过程，包括如何搜索信息、如何分析证据、如何处理矛盾观点等。传统方法就像只看菜品摆盘不管烹饪技艺，而Miroeval更像全方位的研究能力诊断专家，从报告质量、事实准确性和研究过程三个维度全面评估。
Q2：为什么多模态任务对AI系统挑战这么大？
A：多模态任务要求AI同时处理文字、图片、表格、PDF等多种格式的材料，就像让只会看文字的研究员突然分析复杂图表一样困难。测试显示，大部分AI系统在处理多模态任务时分数都下降3到10分，反映出当前AI在多媒体信息整合方面存在显著不足。
Q3：Miroeval评测结果的可靠性如何？
A：研究团队邀请专家进行了大量验证工作，结果显示系统准确率达到92%，专家评估与自动评测的一致性高达91%。同时还进行了多轮稳定性测试和不同评估模型的对比验证，确保评测结果的可靠性和一致性。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

北京大学突破AI训练瓶颈：让机器学习也能挑食的DataFlex框架

意大利技术学院研究团队打造"记忆达人"机器人

东京大学团队发明"文字导演"：用文本就能克隆任何人的声音

俄亥俄州立大学:AI学会了识别昆虫的身体特征，告别人工标注时代

天仪空间宣布累计募资13亿：博华与图灵资本加持已发射38颗卫星

ServiceNow突破：AI推理实现类人高效智能思考能力提升突破

全站最新

北京大学突破AI训练瓶颈：让机器学习也能挑食的DataFlex框架

意大利技术学院研究团队打造"记忆达人"机器人

东京大学团队发明"文字导演"：用文本就能克隆任何人的声音

俄亥俄州立大学:AI学会了识别昆虫的身体特征，告别人工标注时代

热门推荐

北京大学突破AI训练瓶颈：让机器学习也能挑食的DataFlex框架

意大利技术学院研究团队打造"记忆达人"机器人

东京大学团队发明"文字导演"：用文本就能克隆任何人的声音

俄亥俄州立大学:AI学会了识别昆虫的身体特征，告别人工标注时代

天仪空间宣布累计募资13亿：博华与图灵资本加持已发射38颗卫星

ServiceNow突破：AI推理实现类人高效智能思考能力提升突破

新加坡研究团队发现：让代码边生成边执行，AI编程速度提升55%

AI让新闻变成“流体”：液态内容生产开始成为现实

全系宁德时代电池续航506km 新款长安启源Q05上市：8.99万起

再获顶级AI客户！CoreWeave(CRWV.US)与Anthropic达成多年算力租赁协议

CloudQ+AndonQ 登场，腾讯云龙虾家族解锁对话式管云新范式

苏超开幕在即，魔法原子近300台机器人将亮相

对话李斌秦力洪：不做MPV是因为算不来账， ES9非蔚来用户订单超预期

工信部：加快构建高效统一的人工智能芯片计算互联生态

肺癌领域首个获批T细胞衔接器抗体，小细胞肺癌治疗迎来变革