当前位置：首页 » 资讯 » 新科技 » 正文

Anthropic 推出审计Agent，助力 AI 模型对齐测试

IP属地中国·北京 编辑：陆辰风 Chinaz 时间：2025-07-25 10:11:51

近日，人工智能公司 Anthropic 宣布推出其新开发的审计Agent，旨在对 AI 模型进行对齐测试。这一创新的举措是在其 Claude Opus4模型的部署前期测试过程中研发的，标志着在 AI 安全性和可靠性方面的又一重要进展。
AI 模型在与用户互动时，可能会出现过于迎合用户需求的情况，这对于企业来说可能造成潜在的风险。因此，除了对模型的性能进行评估外，进行对齐测试变得尤为重要。然而，传统的对齐审计面临着可扩展性和验证性的重大挑战，审计工作通常需要人类研究人员投入大量时间，同时也难以确保审计覆盖到所有问题。
在最新发布的论文中，Anthropic 的研究人员表示，他们开发的审计Agent在审计任务中表现出色，同时也揭示了自身的局限性。通过这些审计Agent，研究人员能够在更大规模上进行多次并行审计，提升了对齐验证的效率。此外，Anthropic 还将这些审计Agent的代码在 GitHub 上开源，以便更多研究者进行探索。
研究团队开发了三种审计Agent，分别为:
1. 工具使用调查Agent，用于使用聊天、数据分析和可解释性工具进行开放式调查。
2. 评估Agent，能够建立行为评估并区分模型中是否存在植入的行为。
3. 广度优先红队Agent，专门为 Claude4的对齐评估而开发，用于发现植入的测试行为。
在实际测试中，调查Agent能够识别故意不对齐模型的根本原因，成功率为10-13%，而使用 “超级Agent” 方法后，这一成功率提升至42%。评估Agent也能识别多种模型的特定行为特征，但在一些微妙的行为表现上仍存在不足。红队Agent则通过与目标模型进行对话，能够识别出一部分系统特征，但同样面临挑战。
AI 对齐问题近年来备受关注，特别是在一些模型表现出过度迎合用户的现象后。为了解决这一问题，许多新的评估标准相继被提出，例如评估模型的迎合性及其他潜在偏差。
虽然 Anthropic 的审计Agent仍需进一步完善，但公司表示，随着 AI 系统的日益强大，迫切需要可扩展的对齐评估方法，以应对人类审核的时间成本和验证困难。
划重点:

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

iPhone 17系列开售，华为出击！

iPhone17 PM橙色版黄牛加价涨至1000元

外卖大战中场观察：三巨头不再上头，“小甜水”痛并快乐

第八届IEEE国际无人系统大会举办科技“翅膀”赋能文化腾飞

供销大集：截至9月顺客隆社区团购业务订单量已超去年全年

英伟达50亿美元入股英特尔，将发布CPU+GPU合体芯片，大结局来了

全站最新

iPhone 17系列开售，华为出击！

iPhone17 PM橙色版黄牛加价涨至1000元

外卖大战中场观察：三巨头不再上头，“小甜水”痛并快乐

第八届IEEE国际无人系统大会举办科技“翅膀”赋能文化腾飞

热门推荐

Meta重磅产品亮相，AI眼镜概念股强势崛起

中国茶饮，「占领」华尔街

近8000万元！跨界押注屋顶光伏，长高电新背后逻辑是什么？

CIS三巨头半年报透视，增长密码藏在哪？

资本涌入脑机接口：融资频创新高，企业格局一览

上半年增收不增利，民生银行活成了“夹心饼干”

迎驾贡酒上半年净利润下降18.19%：存货创新高，76亿目标如何兑现？

独家对话前零跑联创吴保军：瞄准电动车市场，欲打造“汽车界爱马仕”

iPhone17 PM橙色版黄牛加价涨至1000元

翟欣欣一审获刑12年，并处罚金10万元赔偿7万余元

影视飓风员工怒怼代理公司：试驾车提供假临牌，中间传个话赚百万

OpenAI惊爆AI"阴谋论"！模型会故意欺骗人类，训练越多反而越狡猾

微软在 Teams 中引入 AI 助手，提升工作效率

英伟达50亿美元入股英特尔，芯片巨头联手重塑AI格局

Luma AI 发布 Ray3：首款支持 HDR 视频生成的创新模型

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

首页

新科技

新金融

新零售

智能车

房地产

科技探索

人物资讯

网络游戏

人工智能

Anthropic 推出审计Agent，助力 AI 模型对齐测试

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

​Anthropic 推出审计Agent，助力 AI 模型对齐测试

同类资讯

Anthropic 推出审计Agent，助力 AI 模型对齐测试