当前位置: 首页 » 资讯 » 新科技 » 正文

​OSWorld-MCP:全新评测基准助力计算机代理产品发展

IP属地 中国·北京 编辑:赵云飞 Chinaz 时间:2025-11-05 10:18:31

近日,OSWorld 团队正式发布了 OSWorld-MCP,这是首个针对计算机使用代理产品进行全面评估的基准测试工具。该基准旨在为开发者和用户提供真实环境下的产品能力评测,提升了评估的真实度、平衡性与可比性。

OSWorld-MCP 的主要特性包括:它综合衡量了模型上下文协议(MCP)工具调用能力、图形用户界面(GUI)操作技能以及决策表现。该基准测试包含了158个经过验证的 MCP 工具,涵盖了七个常用应用程序,包括 LibreOffice Writer、Calc、Impress、VS Code、Google Chrome、VLC 及操作系统实用程序。其中,有25个工具专门用于鲁棒性测试,以保证评测的全面性和可靠性。

此外,OSWorld-MCP 还设定了250项工具适用性任务,其中69% 的基准任务受益于 MCP 工具的应用。这些工具的多轮调用设置带来了决策上的真实挑战,使得测试结果更具参考价值。根据数据,使用 MCP 工具的模型准确率和效率明显提升,OpenAI 的 o3模型在进行15步调用后,准确率从8.3% 提升至20.4%。在测试中,Claude-4-Sonnet 模型观察到的最高工具调用率达到了36.3%,显示出未来改进的潜力。

该项目的开源特性也为开发者提供了丰富的资源与说明,促进了技术的共享与合作。有关项目的详细信息和资源,用户可以访问其官方网站和 GitHub 页面。

OSWorld-MCP 的发布不仅为计算机使用代理产品的评估提供了强有力的工具,也为未来相关技术的发展奠定了基础。

github:https://github.com/X-PLUG/OSWorld-MCP

划重点:

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新