当前位置: 首页 » 资讯 » 新科技 » 正文

坦白从宽:OpenAI开发新系统教导模型诚实承认自身“不良行为”

IP属地 中国·北京 编辑:赵静 IT之家 时间:2025-12-04 20:08:42

IT之家 12 月 4 日消息,当地时间 12 月 3 日,OpenAI 宣布,正在开发一种新的训练框架,让 AI 在出现不当行为时能够主动“承认”

据IT之家了解,团队把这种机制称为“忏悔(confession)”。传统大语言模型往往用于训练去满足用户期待,因此容易出现逢迎式回答,或在毫无依据下给出极其自信的臆测。新方法则要求模型在给出最终答案后,再提供一段说明,解释自己是如何得出这个回答的。

“忏悔”的评分只看诚实度,不再像主要回答那样需要兼顾有用性、准确性或是否遵守指令

研究人员表示,希望模型能够如实说明自身行为,包括可能存在风险的问题动作,例如测试作弊、刻意压低表现或违反指令。只要模型诚实承认作弊、压分或违反指令,反而会获得更高奖励

标签: 模型 系统 开发新 教导 坦白从宽 指令 动作 消息 机制 时间 团队 作弊 风险 问题 压分 人员 语言 传统 不良行为 准确性 答案 方法

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新