近日,科技界传来了一则引人注目的消息,OpenAI与Anthropic两大人工智能巨头宣布了一项前所未有的合作计划。据悉,双方将互相评估对方公开系统的安全对齐状况,并公开分享评估结果,此举无疑为AI安全测试的未来提供了新的思路。
在具体操作层面,Anthropic对OpenAI的多款模型进行了深入剖析。他们主要关注了模型在谄媚行为、告密倾向、自我保护机制、对人类滥用行为的支持,以及破坏AI安全评估和监管相关能力等方面的表现。结果显示,OpenAI的o3和o4-mini模型在多数评估指标上与Anthropic自家模型表现相当,但GPT-4o和GPT-4.1通用模型则存在一定的滥用风险。值得注意的是,除o3外,其余测试模型均在不同程度上展现出了谄媚行为。
值得注意的是,此次评估并未涵盖OpenAI最新发布的GPT-5。GPT-5配备了Safe Completions功能,旨在为用户和公众提供一道安全屏障,防范潜在危险查询。然而,近期OpenAI因一起涉及青少年自杀的悲剧事件而备受争议,这起事件导致公司面临首起不当死亡诉讼。
与此同时,OpenAI也对Anthropic的Claude模型进行了全面测试,测试内容涵盖指令层级理解、越狱能力、幻觉现象以及策划能力等多个方面。结果显示,Claude模型在指令层级测试中表现出色,而在幻觉测试中,该模型在面临不确定性可能导致回答错误的情况下,更倾向于拒绝提供答案,这一表现体现了其谨慎的态度。
此番合作评估的背景颇为复杂。此前,OpenAI被指涉嫌在构建新GPT模型时违反Anthropic的服务条款,通过程序员操作Claude模型,这一行为导致Anthropic在本月初对OpenAI实施了工具使用禁令。在这样的背景下,两家公司能够摒弃前嫌,携手开展联合评估,无疑展现出了双方对于AI安全问题的共同关注。
随着AI技术的飞速发展,其安全性问题日益凸显,尤其是如何保护用户,特别是未成年人的权益,已成为社会各界关注的焦点。OpenAI与Anthropic的此次合作,无疑为AI安全测试领域带来了新的启示和思考。