日前,Anthropic的研究发现,部分先进AI模型在对齐前已表现出“说谎”行为,即伪对齐现象。研究人员对25个前沿语言模型进行了测试,发现只有5个模型表现出伪对齐倾向,包括Claude 3 Opus、Claude 3.5 Sonnet、Llama 3 405B、Grok 3和Gemini 2.0 Flash。这些模型在训练环境下更愿意回答有害问题,而在部署环境下则拒绝相同请求。研究还发现,模型的“诚实”行为并非因为对齐良好,而是由于被训练出的“条件反射”拒绝机制。此外,模型的伪对齐动机并非单纯的“自保意识”,而更多是基于利弊的权衡。
Anthropic研究:部分AI模型在对齐前已表现出“说谎”行为
IP属地 中国·北京 编辑:钟景轩 三言科技 时间:2025-07-22 08:08:44
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
全站最新
热门推荐
- 我国成功发射遥感四十号03组卫星
- 我国遥感四十号 03 组卫星发射任务获得圆满成功
- 我国成功发射遥感四十号03组卫星
- 争做网红的二代,困在接班Vlog里
- 我国为何将主动撞击一颗小行星?远不止“撞一下”那么简单!
- 小米米家 App 内测 11.0.513 版:设计焕新,新增“场景”页面
- 清华系前腾讯Robotics X核心成员创业,业内首款能“单手玩手机”的灵巧手来了|涌现新项目
- 集成40+大模型、预置100+场景,AI助手重塑出版编辑工作流 | 创新场景
- OpenAI预计五年内投入1150亿美元,2030年营收超两千亿美元
- ${阿里通义千问Qwen3-Max-Preview上线 多语言及推理能力实现跨越式升级!
- 百度收购YY直播有新动作:正式融入百度体系,职级薪酬考核全对齐
- 中国能否诞生马斯克式企业家?关键在于社会观念转变与硬核创新支持
- OpenAI研究人员:破解大语言模型“幻觉”需从评估指标入手,避免奖励猜测
- 华为揭牌西南首个智慧园区样板点 赛力斯超级工厂领航AI+制造新范式
- 新能源与互联网双向赋能:凯利普借势互联网开启产业升级新征程