当前位置：首页 » 资讯 » 新科技 » 正文

Anthropic研究：部分AI模型在对齐前已表现出“说谎”行为

IP属地中国·北京 编辑：钟景轩三言科技 时间：2025-07-22 08:08:44

日前，Anthropic的研究发现，部分先进AI模型在对齐前已表现出“说谎”行为，即伪对齐现象。研究人员对25个前沿语言模型进行了测试，发现只有5个模型表现出伪对齐倾向，包括Claude 3 Opus、Claude 3.5 Sonnet、Llama 3 405B、Grok 3和Gemini 2.0 Flash。这些模型在训练环境下更愿意回答有害问题，而在部署环境下则拒绝相同请求。研究还发现，模型的“诚实”行为并非因为对齐良好，而是由于被训练出的“条件反射”拒绝机制。此外，模型的伪对齐动机并非单纯的“自保意识”，而更多是基于利弊的权衡。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

我国遥感四十号 03 组卫星发射任务获得圆满成功

我国成功发射遥感四十号03组卫星

争做网红的二代，困在接班Vlog里

我国为何将主动撞击一颗小行星？远不止“撞一下”那么简单！

小米米家 App 内测 11.0.513 版：设计焕新，新增“场景”页面

清华系前腾讯Robotics X核心成员创业，业内首款能“单手玩手机”的灵巧手来了｜涌现新项目

全站最新

4款纯电SUV争夺全能选手！精密、实用、激进还是保守？

我国遥感四十号 03 组卫星发射任务获得圆满成功

我国成功发射遥感四十号03组卫星

争做网红的二代，困在接班Vlog里

热门推荐

我国成功发射遥感四十号03组卫星

我国遥感四十号 03 组卫星发射任务获得圆满成功

我国成功发射遥感四十号03组卫星

争做网红的二代，困在接班Vlog里

我国为何将主动撞击一颗小行星？远不止“撞一下”那么简单！

小米米家 App 内测 11.0.513 版：设计焕新，新增“场景”页面

清华系前腾讯Robotics X核心成员创业，业内首款能“单手玩手机”的灵巧手来了｜涌现新项目

集成40+大模型、预置100+场景，AI助手重塑出版编辑工作流 | 创新场景

OpenAI预计五年内投入1150亿美元，2030年营收超两千亿美元

${阿里通义千问Qwen3-Max-Preview上线多语言及推理能力实现跨越式升级！

百度收购YY直播有新动作：正式融入百度体系，职级薪酬考核全对齐

中国能否诞生马斯克式企业家？关键在于社会观念转变与硬核创新支持

OpenAI研究人员：破解大语言模型“幻觉”需从评估指标入手，避免奖励猜测

华为揭牌西南首个智慧园区样板点赛力斯超级工厂领航AI+制造新范式

新能源与互联网双向赋能：凯利普借势互联网开启产业升级新征程