当前位置：首页 » 资讯 » 新科技 » 正文

OpenAI与Anthropic互检模型安全：GPT系列现谄媚，Claude拒答高风险问题

IP属地中国·北京 编辑：顾青青 ITBEAR 时间：2025-08-28 16:02:42

近日，科技界传来了一则引人注目的消息，OpenAI与Anthropic两大人工智能巨头宣布了一项前所未有的合作计划。据悉，双方将互相评估对方公开系统的安全对齐状况，并公开分享评估结果，此举无疑为AI安全测试的未来提供了新的思路。
在具体操作层面，Anthropic对OpenAI的多款模型进行了深入剖析。他们主要关注了模型在谄媚行为、告密倾向、自我保护机制、对人类滥用行为的支持，以及破坏AI安全评估和监管相关能力等方面的表现。结果显示，OpenAI的o3和o4-mini模型在多数评估指标上与Anthropic自家模型表现相当，但GPT-4o和GPT-4.1通用模型则存在一定的滥用风险。值得注意的是，除o3外，其余测试模型均在不同程度上展现出了谄媚行为。
值得注意的是，此次评估并未涵盖OpenAI最新发布的GPT-5。GPT-5配备了Safe Completions功能，旨在为用户和公众提供一道安全屏障，防范潜在危险查询。然而，近期OpenAI因一起涉及青少年自杀的悲剧事件而备受争议，这起事件导致公司面临首起不当死亡诉讼。
与此同时，OpenAI也对Anthropic的Claude模型进行了全面测试，测试内容涵盖指令层级理解、越狱能力、幻觉现象以及策划能力等多个方面。结果显示，Claude模型在指令层级测试中表现出色，而在幻觉测试中，该模型在面临不确定性可能导致回答错误的情况下，更倾向于拒绝提供答案，这一表现体现了其谨慎的态度。
此番合作评估的背景颇为复杂。此前，OpenAI被指涉嫌在构建新GPT模型时违反Anthropic的服务条款，通过程序员操作Claude模型，这一行为导致Anthropic在本月初对OpenAI实施了工具使用禁令。在这样的背景下，两家公司能够摒弃前嫌，携手开展联合评估，无疑展现出了双方对于AI安全问题的共同关注。
随着AI技术的飞速发展，其安全性问题日益凸显，尤其是如何保护用户，特别是未成年人的权益，已成为社会各界关注的焦点。OpenAI与Anthropic的此次合作，无疑为AI安全测试领域带来了新的启示和思考。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

全球首个人形机器人服务员酒店在上海开业

腾讯成立正能量算法工作专班，“让好内容自然遇见对的观众”

暴跌99%！保时捷三季度巨亏79亿，CEO难掩焦虑：中国人不买帐了

百国千企深圳展示“人工智能+数字安防”新趋势

“AI+硬件”深度融合场景落地智能玩具市场持续火热

蔚来乐道汽车椰子系统2.0.6版推送，功能升级续航增加

全站最新

全球首个人形机器人服务员酒店在上海开业

腾讯成立正能量算法工作专班，“让好内容自然遇见对的观众”

暴跌99%！保时捷三季度巨亏79亿，CEO难掩焦虑：中国人不买帐了

百国千企深圳展示“人工智能+数字安防”新趋势

热门推荐

豪威集团前三季度净利增35.15%

29.98万元起，腾势N8L正式上市！

宝宝巴士儿歌软件现低俗广告，品牌回应：审核有疏漏，已排查处理

圆通速递：第三季度净利润为10.46亿元，同比增长10.97%

巨人网络CEO张栋辞职，公司董事刘伟出任CEO

宗馥莉不再是中国女首富

周云杰公布《海尔兄弟2》动画最新进展

山姆售价50万黄金大闸蟹被指侵权

影石2025前三季营收66亿

全球首个人形机器人服务员酒店在上海开业

腾讯成立正能量算法工作专班，“让好内容自然遇见对的观众”

暴跌99%！保时捷三季度巨亏79亿，CEO难掩焦虑：中国人不买帐了

百国千企深圳展示“人工智能+数字安防”新趋势

“AI+硬件”深度融合场景落地智能玩具市场持续火热

蔚来乐道汽车椰子系统2.0.6版推送，功能升级续航增加