当前位置：首页 » 资讯 » 新科技 » 正文

浙江大学实现AI代理自我评测新框架

IP属地中国·北京 科技行者 时间：2025-11-04 00:10:37

这项由浙江大学张晟宇教授领导的研究团队发表于2025年10月的预印本论文，详细阐述了一个名为Graph2eval的创新评测框架。该研究的核心贡献在于首次提出了基于知识图谱的自动化多模态任务生成方法，为AI代理（智能助手）的评估开辟了全新道路。有兴趣深入了解的读者可以通过论文编号arXiv:2510.00507v1查询完整论文内容。
设想这样一个场景：当我们想要测试一个新招聘员工的工作能力时，传统的做法是给他们一套固定的试题。但是，如果这个员工事先背过了所有的答案，我们还能真正了解他们的能力吗？同样的问题也困扰着AI代理的评估领域。现有的评测数据集就像那些固定的试题一样，AI系统可能在训练过程中已经"见过"这些题目，因此在测试中表现出色并不代表它们具备真正的智能水平。
研究团队意识到这个问题的严重性。他们发现，当前的AI代理评估就像用同一张考卷反复测试学生一样——学生最终可能会背下所有答案，在考试中得高分，但实际解决新问题的能力却没有得到真正的检验。更重要的是，现实世界中的AI代理需要处理各种动态变化的情况，而不是应对早已见过的固定场景。
为了解决这个根本性问题，研究团队开发了Graph2eval框架。这个框架的核心理念非常巧妙：让AI系统基于知识图谱自动生成新的测试任务，就像一个永远不会重复出题的智能考官。知识图谱可以理解为一个巨大的知识网络，其中包含了各种实体（比如人物、地点、概念）以及它们之间的关系。通过这个知识网络，系统能够不断创造出全新的、具有挑战性的测试场景。
这种方法的革命性在于它彻底改变了评测的范式。传统评测就像使用固定的食谱做菜，而Graph2eval则像一个创意厨师，能够根据现有的食材（知识图谱中的信息）不断创造出新的菜品（测试任务）。每次生成的任务都是独特的，确保AI代理不可能提前"背答案"，从而真正考验它们的实际能力。
研究团队特别强调了多模态和多场景的重要性。在现实应用中，AI代理需要同时处理文字、图片、网页等多种类型的信息，还要能够在不同的环境中执行复杂的交互操作。因此，Graph2eval不仅能生成文档理解类的任务，还能创建需要在真实网页环境中进行多步骤操作的交互任务。这就像考试不仅要测试理论知识，还要考察实际操作能力一样。
基于这个框架，研究团队构建了Graph2eval-Bench数据集，包含了1319个自动生成的任务。这些任务涵盖了从简单的信息提取到复杂的多步推理等各个层面，为全面评估AI代理的能力提供了丰富的测试场景。
一、知识图谱：构建智能评测的基石
知识图谱在Graph2eval框架中扮演着核心角色，就像一个包含无穷知识的大型图书馆。不过，这个图书馆的特别之处在于，所有的书籍、章节、段落之间都通过各种关系线索连接起来，形成了一个复杂而有序的知识网络。
在构建这个知识图谱的过程中，研究团队采用了一套精密的数据处理流程。首先，他们需要对各种来源的文档进行深度解析，这个过程就像一个细心的图书管理员，不仅要理解每本书的内容，还要记录下每个章节的位置、每张图表的说明、甚至每个标题的层级关系。这种精细化的处理确保了知识图谱能够准确反映原始信息的结构和语义。
对于网页数据的处理更加复杂。研究团队开发了自动化的网页爬取系统，这个系统就像一个永远不知疲倦的研究助手，能够自动访问各种网站，提取页面结构信息，并将交互元素（如按钮、表单、链接等）转换为图谱中的节点和边。为了确保数据质量，系统还集成了多层过滤机制，就像质量检查员一样，能够自动识别和排除低质量或无效的网页内容。
知识图谱的节点设计特别巧妙。每个节点不仅包含文本内容，还融合了视觉信息的描述。比如，当遇到一张图片时，系统会自动生成该图片的文字描述，然后将这些描述与图片的标题、说明文字等合并，形成一个完整的节点表示。这种多模态融合的方式确保了即使是复杂的视觉内容也能被准确地编码到知识图谱中。
边的设计同样精密。在文档场景中，边可能表示段落之间的逻辑关系、图表与正文的关联关系、或者不同章节之间的引用关系。在网页场景中，边则主要表示页面之间的导航关系、元素之间的交互关系等。这些边就像道路网络中的各种道路一样，为后续的任务生成提供了丰富的路径选择。
为了提高检索效率，研究团队还为每个节点生成了高质量的向量表示。这些向量就像每个节点的"身份证"，能够快速准确地找到语义相关的内容。通过这种方式，系统能够在庞大的知识图谱中快速定位到与特定任务目标相关的信息。
二、子图采样：精准定位任务核心
子图采样是Graph2eval框架中的关键技术环节，就像从一个庞大的拼图中精确选出完成特定图案所需的拼图块。这个过程的巧妙之处在于，它能够根据不同的任务需求，从知识图谱中提取出最相关、最有价值的信息片段。
在文档理解场景中，采样策略主要基于语义相关性和结构连贯性。系统首先分析任务目标，然后在知识图谱中寻找语义最匹配的节点作为起点。接着，系统会沿着图谱中的边进行扩展，逐步收集相关的上下文信息。这个过程就像侦探破案一样，先找到核心线索，然后顺藤摸瓜地收集相关证据。
值得注意的是，系统在采样过程中会考虑多种因素。除了语义相似度，还会考虑结构匹配度、节点类型的适配性等。比如，如果任务需要比较两个概念，系统会确保采样的子图中包含足够的对比信息；如果任务涉及多步推理，系统会选择那些具有逻辑链条关系的节点组合。
网页交互场景的采样策略则完全不同，采用的是种子驱动的方法。系统首先识别页面中的关键操作元素（如搜索框、按钮、表单等）作为"任务种子"，然后以这些种子为中心，收集它们的邻近节点。这种方法确保了生成的任务始终基于真实可执行的交互操作，就像确保每道菜谱都使用厨房里实际存在的食材一样。
为了控制任务的复杂度和难度，采样系统还实现了灵活的参数调节机制。通过调整子图的大小、边的类型、节点的数量等参数，系统能够生成从简单到复杂的各种难度层次的任务。这就像调节游戏难度一样，可以为不同水平的AI代理提供合适的挑战。
三、任务模板：标准化的创新引擎
任务模板是Graph2eval框架的智能核心，就像一个经验丰富的出题专家的思维模式。这些模板定义了各种类型任务的基本结构和要求，为自动化任务生成提供了标准化的框架。
研究团队设计了12种不同类型的文档理解任务模板，涵盖了从基础的信息提取到高级的推理分析等各个认知层次。每个模板都像一个精心设计的食谱，详细规定了需要哪些"原料"（节点类型）、如何"烹饪"（处理方式）、以及最终"菜品"应该是什么样子（任务格式）。
比如，比较分析类的模板会要求子图中包含至少两个可比较的实体，以及它们之间的关系信息。模板还会指定问题的提问方式、答案的期望格式、评估的标准等。这种详细的规范确保了生成的任务具有一致的质量和可评估性。
任务模板的另一个重要特性是其可扩展性。研究团队采用了Jinja2模板引擎，这使得模板能够灵活地适应不同的内容和场景。就像使用可调节的模具一样，同一个模板可以根据输入的子图内容生成千变万化的具体任务。
对于网页交互任务，研究团队开发了基于元路径的模板系统。元路径就像预定义的行动序列模式，比如"搜索-筛选-查看详情"或"登录-浏览-购买"等。系统能够根据页面的实际功能和可用操作，自动匹配合适的元路径模式，然后生成相应的交互任务。
模板系统还考虑了任务的教育价值和实用性。每个模板都会指定任务所考察的核心能力，如信息检索能力、逻辑推理能力、多模态理解能力等。这种设计确保了生成的任务不仅具有挑战性，还能有效地评估AI代理的特定能力维度。
四、任务生成：从结构到实例的智能转换
任务生成是整个框架的核心环节，这个过程就像一个创意作家根据大纲创作出具体故事的过程。系统需要将抽象的模板和结构化的子图信息转换为具体可执行的任务实例。
在文档理解任务的生成过程中，系统首先会根据选定的模板和采样得到的子图，提取出所需的变量信息。这些变量就像故事中的角色和情节要素，包括实体名称、关系描述、上下文信息等。然后，系统使用大语言模型将这些结构化信息转换为自然语言形式的任务描述和标准答案。
这个转换过程的巧妙之处在于它能够保持任务的多样性和自然性。即使基于相同的模板和相似的子图结构，系统也能生成表达方式不同、侧重点各异的任务实例。这就像同样的食材在不同厨师手中能够做出风味各异的菜品一样。
网页交互任务的生成更加复杂，因为它需要考虑真实网页环境的动态性和交互性。系统会根据种子元素和元路径模式，生成一系列具体的操作步骤。比如，如果元路径是"搜索-筛选-查看"，系统会指定具体搜索什么关键词、使用哪些筛选条件、查看哪些具体信息等。
为了确保任务的可执行性，系统还会进行多层验证。首先检查所有涉及的页面元素是否真实存在且可操作，然后验证任务步骤的逻辑合理性，最后评估任务的完成难度是否适中。这种多重保障机制确保了每个生成的任务都是有意义且可完成的。
任务生成过程还融入了上下文工程技术。系统会根据任务的具体要求和目标受众，调整语言风格、难度水平、以及问题的表述方式。这种个性化的调整使得同一个底层结构能够适应不同的评估需求和应用场景。
五、质量优化：确保评测的精准有效
质量优化是Graph2eval框架的重要保障机制，就像食品生产线上的质量检验员，确保每个输出的任务都达到预期的标准。这个多阶段的优化流程涵盖了任务质量、多样性、新颖性等多个维度。
在质量评估阶段，系统采用了基于规则和基于LLM的双重评分机制。规则基础的评估主要检查任务的格式完整性、逻辑一致性、以及基本的可执行性。比如，对于需要多步操作的网页任务，系统会验证每个步骤涉及的页面元素是否存在，操作序列是否合理等。
LLM评分则更加智能化，能够评估任务的语言质量、难度适宜性、以及内容的教育价值。这就像请一位经验丰富的教师来审核考题一样，不仅要确保题目没有错误，还要评估题目是否具有良好的区分度和教学意义。
多样性保障是优化过程的另一个重点。系统通过分析任务的各个维度（如节点类型、边类型、任务模式、页面类型、网站类型、难度等级等），确保生成的任务集合具有充分的覆盖性。这种方法就像确保考试题目覆盖所有知识点一样，避免了评估的盲区。
新颖性检测机制防止了任务的重复和雷同。系统使用多层次的相似度分析，包括结构相似度、语义相似度、以及执行步骤相似度等。当发现新生成的任务与已有任务过于相似时，系统会自动调整或重新生成，确保任务集合的独特性。
为了平衡质量、覆盖性和新颖性，系统采用了基于MMR（最大边际相关性）的迭代选择策略。这种策略就像在选择代表队成员时既要考虑个人能力，又要考虑团队配合一样，确保最终的任务集合在各个方面都达到最优平衡。
六、多维度评估：全方位检验AI能力
Graph2eval框架不仅能生成多样化的任务，还提供了全面的评估体系，就像一个全科医生能够从多个角度检查患者的健康状况。这个评估体系涵盖了单代理、多代理、以及网页代理等不同类型的AI系统。
在文档理解任务的评估中，系统采用了三种互补的评估指标。F1分数和ROUGE-L分数提供了基于规则的精确评估，就像用标准答案比对学生答案一样，能够量化地衡量答案的准确性和完整性。而LLM-as-a-Judge评估则更加智能化，能够理解答案的语义内容，评估其质量、相关性和完整性，即使表达方式与标准答案不同，也能给出公正的评分。
对于网页交互任务，评估主要基于任务完成的成功率。由于网页环境的复杂性和动态性，传统的基于状态检查的评估方法往往不够可靠。因此，系统采用LLM评估器来分析代理的执行轨迹、最终页面状态和可能的错误信息，综合判断任务是否成功完成。
多代理评估是框架的一个创新特色。系统构建了包含规划器、检索器、推理器、验证器和总结器等不同角色的多代理架构。每个代理都有专门的职责，它们通过标准化的消息协议进行协作。这种设计能够评估AI系统在复杂任务分解、协作配合、以及集体决策等方面的能力。
网页代理的评估特别关注多模态处理和交互执行能力。SoM（Set-of-Mark）代理通过视觉标记系统实现精确的页面元素定位，而Agent S 2.5则集成了反思机制和多维记忆管理，能够从执行过程中学习和改进。这些不同的代理架构为评估AI系统的不同技术路线提供了有价值的对比基准。
七、实验验证：框架效能的全面展示
研究团队基于Graph2eval框架构建了包含1319个任务的Graph2eval-Bench数据集，并进行了全面的实验验证。这些实验就像一场大规模的AI能力测试，涵盖了当前主流的各种模型和代理系统。
在文档理解任务上，实验测试了GPT-4o、GPT-4.1-mini、Qwen2.5-VL系列、以及Deepseek-V3等多个模型。结果显示，不同模型在各类任务上的表现存在显著差异。GPT-4o在F1和ROUGE-L指标上表现最佳，而Deepseek-V3在LLM评估中获得了最高分数。这种差异性恰好证明了框架的有效性——它能够清晰地区分不同系统的能力水平。
特别有趣的是，实验发现多代理协作并没有显著提升文档理解任务的性能，有时甚至略有下降。这个结果表明，对于基于检索增强生成的理解任务，简单的代理协作可能不如预期有效。这种发现对于AI系统的设计具有重要的指导意义。
在网页交互任务的测试中，Agent S 2.5明显优于SoM Agent。在最佳配置下，Agent S 2.5的成功率达到69.20%，而SoM Agent仅为14.51%。这个巨大的性能差距突出了反思机制和记忆管理在复杂交互任务中的重要性。
任务生成效率的测试结果也令人印象深刻。系统平均只需34.87秒就能生成一个文档理解任务，95.51秒生成一个网页交互任务。与传统的人工标注方式相比，这种自动化方法的效率优势是巨大的。
实验还验证了任务的质量和多样性。生成的任务在难度分布、类型覆盖、以及内容丰富性等方面都表现出良好的特性。更重要的是，这些自动生成的任务确实能够有效区分不同AI系统的能力，证明了框架的实用价值。
八、技术创新与应用前景
Graph2eval框架在多个技术层面实现了重要创新。首先，这是第一个基于知识图谱的自动化代理任务生成框架，开创了新的评估范式。传统的评估方法依赖于固定的数据集，而这个框架能够持续生成新的测试场景，真正实现了动态评估。
框架的多模态支持是另一个重要创新。它不仅能处理纯文本任务，还能生成涉及图像、表格、网页等复杂多模态内容的评估任务。这种能力对于评估现代AI系统的综合能力至关重要，因为现实应用中的AI往往需要处理多种类型的信息。
在网页交互任务生成方面，框架实现了从静态页面分析到动态任务创建的突破。系统能够理解网页的功能结构，自动识别可操作元素，并基于真实的交互可能性生成任务。这种能力使得AI代理的评估更加贴近实际应用场景。
框架的可扩展性设计也值得关注。模块化的架构使得系统能够轻松适应新的任务类型、新的评估指标、以及新的代理架构。这种灵活性确保了框架能够随着AI技术的发展而不断演进。
从应用前景来看，Graph2eval框架有望在多个领域发挥重要作用。在AI研发领域，它能够为模型训练和优化提供持续的评估反馈。在产品开发中，它能够帮助企业快速评估AI代理的实际性能。在学术研究中，它为比较不同技术方案提供了标准化的测试平台。
研究团队还展望了框架的未来发展方向。一方面，他们计划集成安全策略生成功能，用于评估AI代理在复杂动态环境中的安全性和鲁棒性。另一方面，他们希望利用知识图谱的结构特性实现错误归因分析，帮助开发者精确定位AI系统在语言理解、推理和任务执行等方面的具体弱点。
说到底，Graph2eval框架代表了AI评估领域的一次重要paradigm shift。它从根本上改变了我们评估AI能力的方式，从依赖固定测试集转向动态任务生成，从单一维度评估转向多维度综合考察。这种变革不仅提高了评估的准确性和公平性，也为AI技术的持续发展提供了更有力的支撑。
随着AI代理在各行各业的广泛应用，我们需要更加可靠和全面的评估工具来确保这些系统的质量和安全性。Graph2eval框架正是朝这个方向迈出的重要一步，它不仅解决了当前评估中的关键问题，也为未来更加智能和自适应的评估系统奠定了基础。
对于普通用户而言，这项研究的意义在于它将帮助开发出更加可靠、更加智能的AI助手。通过更精准的能力评估，我们能够更好地了解AI系统的优势和局限，从而在实际应用中做出更明智的选择和更合理的期望。
Q&A
Q1：Graph2eval框架是什么？它解决了什么问题？
A：Graph2eval是浙江大学开发的AI代理自动化评测框架，它基于知识图谱自动生成测试任务。该框架解决了传统AI评估中的核心问题：现有测试数据集固定不变，AI系统可能在训练中见过这些题目，导致评估结果不能真实反映其实际能力。
Q2：Graph2eval生成的任务和传统评测有什么不同？
A：传统评测使用固定的题目集合，而Graph2eval能持续生成全新的、从未出现过的测试任务。它不仅支持文档理解任务，还能创建需要在真实网页环境中进行多步交互的复杂任务，更贴近AI代理的实际应用场景。
Q3：普通人能用Graph2eval框架吗？它有什么实际价值？
A：目前Graph2eval主要面向AI研究人员和开发者。但它的价值在于能帮助开发出更可靠的AI助手产品。通过更精准的能力评估，未来的AI系统将更加智能可靠，普通用户在使用AI助手时将获得更好的体验和更准确的服务。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

有些二维码，可能是“钱包刺客”

大厂派、辍学派、00后……30岁以下年轻人正在改写中国科技江湖

逼理想主动召回一万台MEGA的，为什么是小小的冷却液？

知名巨头官宣：造车！

阿里前高管掌舵山姆，APP界面遭狂喷：一股盒马味！

太突然：中国门店将全部关闭！陆续打折清仓

全站最新

有些二维码，可能是“钱包刺客”

大厂派、辍学派、00后……30岁以下年轻人正在改写中国科技江湖

逼理想主动召回一万台MEGA的，为什么是小小的冷却液？

知名巨头官宣：造车！

热门推荐

这顿“太空烧烤”别具意义！网友：啥时候上火锅？

有些二维码，可能是“钱包刺客”

大厂派、辍学派、00后……30岁以下年轻人正在改写中国科技江湖

逼理想主动召回一万台MEGA的，为什么是小小的冷却液？

知名巨头官宣：造车！

收购部分雷诺巴西股权吉利再补海外拼图

层层选拔、垃圾收集、营养均衡、漂浮睡觉……中科院专家解读我国首次哺乳动物空间科学实验

阿里前高管掌舵山姆，APP界面遭狂喷：一股盒马味！

太突然：中国门店将全部关闭！陆续打折清仓

吱吱冒油！航天员在太空烤的鸡翅也太香了

亚马逊美股盘前涨幅扩大至5%

造议员假丑闻、给假新闻链接，谷歌 Gemma AI模型遭投诉后下架

领英平台新型钓鱼骗术瞄准高净值人士，微软账号安全受威胁

OpenAI与亚马逊签署380亿美元算力采购协议，减少对微软依赖

10月新势力销量爆发：零跑首破7万辆，小米稳超4万辆，理想猛跌38%