当前位置: 首页 » 资讯 » 新科技 » 正文

OpenAI 推出 AI “忏悔”框架:旨在训练模型承认不当行为,提高诚实度

IP属地 中国·北京 编辑:柳晴雪 Chinaz 时间:2025-12-04 14:19:29

OpenAI 今日宣布,正在开发一个名为**“忏悔”(Confession)**的创新框架,旨在训练人工智能模型能够坦诚承认自身何时做出了不当行为或潜在的问题决策。

大型语言模型(LLM)通常被训练成提供“符合预期”的回答,这使得它们越来越容易做出阿谀奉承或信口开河的虚假陈述。OpenAI 的新训练模型正是为了解决这一问题,引导模型在主要答案之后做出二次回应,详细说明其得出主要答案的过程。

与传统 LLM 评判标准(如帮助性、准确性和服从性)不同,“忏悔”机制对二次回应的评判标准仅基于诚实性。

研究人员明确表示,他们的目标是鼓励模型坦诚地说明其行为,即便这些行为包括潜在的问题行为,例如:作弊,故意降低分数,违反指令等。

OpenAI 表示:“如果模型诚实地承认作弊、故意降低分数或违反指令,这种坦白反而会增加其奖励,而不是减少。”

OpenAI 认为,无论出于何种目的,类似“忏悔”这样的系统都可能对 LLM 的训练有所帮助,并强调其最终目标是让 AI 更加透明。相关的技术文档已同步发布,供感兴趣者查阅。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新