当前位置：首页 » 资讯 » 新科技 » 正文

OpenAI 推出 AI “忏悔”框架:旨在训练模型承认不当行为，提高诚实度

IP属地中国·北京 编辑：柳晴雪 Chinaz 时间：2025-12-04 14:19:29

OpenAI 今日宣布，正在开发一个名为**“忏悔”（Confession）**的创新框架，旨在训练人工智能模型能够坦诚承认自身何时做出了不当行为或潜在的问题决策。
大型语言模型（LLM）通常被训练成提供“符合预期”的回答，这使得它们越来越容易做出阿谀奉承或信口开河的虚假陈述。OpenAI 的新训练模型正是为了解决这一问题，引导模型在主要答案之后做出二次回应，详细说明其得出主要答案的过程。
与传统 LLM 评判标准（如帮助性、准确性和服从性）不同，“忏悔”机制对二次回应的评判标准仅基于诚实性。
研究人员明确表示，他们的目标是鼓励模型坦诚地说明其行为，即便这些行为包括潜在的问题行为，例如:作弊，故意降低分数，违反指令等。
OpenAI 表示:“如果模型诚实地承认作弊、故意降低分数或违反指令，这种坦白反而会增加其奖励，而不是减少。”
OpenAI 认为，无论出于何种目的，类似“忏悔”这样的系统都可能对 LLM 的训练有所帮助，并强调其最终目标是让 AI 更加透明。相关的技术文档已同步发布，供感兴趣者查阅。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

杨振宁放弃化学、改学物理的原因找到了！

在3.4亿家企业中精准“淘金”，启信慧眼AI采购10分钟锁定源头供应商

我国信息通信领域首个国家重大科技基础设施正式投入运行

Window 10停止支持：用户根本不买账Win11！市占率不升反降

【IC风云榜候选企业45】思波微竞逐IC风云榜成长潜力奖，以国产“芯片B超”突破高端检测垄断

【IC风云榜候选企业47】AI时代来临，东方晶源创新点工具破解先进制程良率难题

全站最新

杨振宁放弃化学、改学物理的原因找到了！

在3.4亿家企业中精准“淘金”，启信慧眼AI采购10分钟锁定源头供应商

我国信息通信领域首个国家重大科技基础设施正式投入运行

Window 10停止支持：用户根本不买账Win11！市占率不升反降

热门推荐

奇瑞旗下奇达动力电池公司换帅

卢伟冰回应罗福莉加盟小米在大模型应用方面进展远超预期

OpenAI 推出 AI “忏悔”框架:旨在训练模型承认不当行为，提高诚实度

谷歌合并AI概览+AI模式用户在搜索结果页即可直接展开多轮对话

顾客用 AI 伪造螃蟹损坏图骗退款，行政拘留8日并全额追缴

AI 投资泡沫警报：Anthropic CEO 警告市场风险过高

黄仁勋：未来两三年，全球大约90%新知识由AI合成

杨振宁放弃化学、改学物理的原因找到了！

在3.4亿家企业中精准“淘金”，启信慧眼AI采购10分钟锁定源头供应商

我国信息通信领域首个国家重大科技基础设施正式投入运行

Window 10停止支持：用户根本不买账Win11！市占率不升反降

阿里速卖通正成为国产二轮电动车出海主阵地 “黑五”期间销量增长40倍

电商平台启动年终大促活动持续加码商家扶持力度

【IC风云榜候选企业45】思波微竞逐IC风云榜成长潜力奖，以国产“芯片B超”突破高端检测垄断

【IC风云榜候选企业47】AI时代来临，东方晶源创新点工具破解先进制程良率难题