OpenAI 今日宣布,正在开发一个名为**“忏悔”(Confession)**的创新框架,旨在训练人工智能模型能够坦诚承认自身何时做出了不当行为或潜在的问题决策。
大型语言模型(LLM)通常被训练成提供“符合预期”的回答,这使得它们越来越容易做出阿谀奉承或信口开河的虚假陈述。OpenAI 的新训练模型正是为了解决这一问题,引导模型在主要答案之后做出二次回应,详细说明其得出主要答案的过程。
与传统 LLM 评判标准(如帮助性、准确性和服从性)不同,“忏悔”机制对二次回应的评判标准仅基于诚实性。
研究人员明确表示,他们的目标是鼓励模型坦诚地说明其行为,即便这些行为包括潜在的问题行为,例如:作弊,故意降低分数,违反指令等。
OpenAI 表示:“如果模型诚实地承认作弊、故意降低分数或违反指令,这种坦白反而会增加其奖励,而不是减少。”
OpenAI 认为,无论出于何种目的,类似“忏悔”这样的系统都可能对 LLM 的训练有所帮助,并强调其最终目标是让 AI 更加透明。相关的技术文档已同步发布,供感兴趣者查阅。





京公网安备 11011402013531号