当前位置：首页 » 资讯 » 新科技 » 正文

坦白从宽：OpenAI开发新系统教导模型诚实承认自身“不良行为”

IP属地中国·北京 编辑：赵静 IT之家 时间：2025-12-04 20:08:42

IT之家 12 月 4 日消息，当地时间 12 月 3 日，OpenAI 宣布，正在开发一种新的训练框架，让 AI 在出现不当行为时能够主动“承认”。
据IT之家了解，团队把这种机制称为“忏悔（confession）”。传统大语言模型往往用于训练去满足用户期待，因此容易出现逢迎式回答，或在毫无依据下给出极其自信的臆测。新方法则要求模型在给出最终答案后，再提供一段说明，解释自己是如何得出这个回答的。
“忏悔”的评分只看诚实度，不再像主要回答那样需要兼顾有用性、准确性或是否遵守指令。
研究人员表示，希望模型能够如实说明自身行为，包括可能存在风险的问题动作，例如测试作弊、刻意压低表现或违反指令。只要模型诚实承认作弊、压分或违反指令，反而会获得更高奖励。

标签：模型系统 开发新 教导 坦白从宽 指令动作消息机制时间团队作弊风险问题压分人员语言传统 不良行为 准确性 答案方法

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

字节、阿里齐变阵，大厂“集中兵力”开打AI办公下半场

第一到第六，全是中国大模型

Anthropic回应开源争议，文字游戏还是商业霸权？

具身智能走到哪了：缺数据是共识，大模型“根基不稳”

一个模型控制机器人从头到脚所有运动，谷歌发布新一代机器人基础模型

见证创新力量！第二届“数龙杯”各项大奖依次揭晓

全站最新

字节、阿里齐变阵，大厂“集中兵力”开打AI办公下半场

第一到第六，全是中国大模型

Anthropic回应开源争议，文字游戏还是商业霸权？

荣耀官宣韩寒出任“荣耀影像创想家”

热门推荐

青岛芯聚产业投资基金登记成立出资额5.01亿

字节、阿里齐变阵，大厂“集中兵力”开打AI办公下半场

第一到第六，全是中国大模型

Anthropic回应开源争议，文字游戏还是商业霸权？

青岛芯聚产业投资基金登记成立出资额5.01亿

DeepSeek今年已增资65%

中信金石、青岛啤酒等成立文化科技投资基金出资额10亿

演员寇占文已被限消

马斯克辟谣特斯拉考虑出售中国业务：假消息

雷军再发英文回应澎程装载能力：只有澎程能做到

广汽本田公布辅助驾驶系统专利

长鑫科技上市首周股价飙涨5倍

张小龙再退出三家粉笔关联公司

工信部：截至6月末5G基站总数达510.2万个，比上年末净增26.3万个

具身智能走到哪了：缺数据是共识，大模型“根基不稳”