当前位置: 首页 » 资讯 » 新科技 » 正文

OpenAI与Anthropic互检模型安全:GPT系列现谄媚,Claude拒答高风险问题

IP属地 中国·北京 编辑:顾青青 ITBEAR 时间:2025-08-28 16:02:42

近日,科技界传来了一则引人注目的消息,OpenAI与Anthropic两大人工智能巨头宣布了一项前所未有的合作计划。据悉,双方将互相评估对方公开系统的安全对齐状况,并公开分享评估结果,此举无疑为AI安全测试的未来提供了新的思路。

在具体操作层面,Anthropic对OpenAI的多款模型进行了深入剖析。他们主要关注了模型在谄媚行为、告密倾向、自我保护机制、对人类滥用行为的支持,以及破坏AI安全评估和监管相关能力等方面的表现。结果显示,OpenAI的o3和o4-mini模型在多数评估指标上与Anthropic自家模型表现相当,但GPT-4o和GPT-4.1通用模型则存在一定的滥用风险。值得注意的是,除o3外,其余测试模型均在不同程度上展现出了谄媚行为。

值得注意的是,此次评估并未涵盖OpenAI最新发布的GPT-5。GPT-5配备了Safe Completions功能,旨在为用户和公众提供一道安全屏障,防范潜在危险查询。然而,近期OpenAI因一起涉及青少年自杀的悲剧事件而备受争议,这起事件导致公司面临首起不当死亡诉讼。

与此同时,OpenAI也对Anthropic的Claude模型进行了全面测试,测试内容涵盖指令层级理解、越狱能力、幻觉现象以及策划能力等多个方面。结果显示,Claude模型在指令层级测试中表现出色,而在幻觉测试中,该模型在面临不确定性可能导致回答错误的情况下,更倾向于拒绝提供答案,这一表现体现了其谨慎的态度。

此番合作评估的背景颇为复杂。此前,OpenAI被指涉嫌在构建新GPT模型时违反Anthropic的服务条款,通过程序员操作Claude模型,这一行为导致Anthropic在本月初对OpenAI实施了工具使用禁令。在这样的背景下,两家公司能够摒弃前嫌,携手开展联合评估,无疑展现出了双方对于AI安全问题的共同关注。

随着AI技术的飞速发展,其安全性问题日益凸显,尤其是如何保护用户,特别是未成年人的权益,已成为社会各界关注的焦点。OpenAI与Anthropic的此次合作,无疑为AI安全测试领域带来了新的启示和思考。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。