当前位置：首页 » 资讯 » 新科技 » 正文

OpenAI研究人员宣称已破解模型“幻觉”：重新设计评估指标即可

IP属地中国·北京 编辑：郑浩 IT之家 时间：2025-09-06 18:05:21

IT之家 9 月 6 日消息，据《商业内幕》今日报道，OpenAI 研究人员宣称已经破解大语言模型性能最大的障碍之一 —— 幻觉问题。
IT之家注：所谓幻觉，是指大语言模型把不准确的信息当作事实输出，几乎所有主流模型都深受其困扰。
OpenAI 在周四发布的一篇论文中指出，幻觉的根源在于训练方式更偏向奖励“猜测”，而不是承认不确定性。换句话说，模型被训练成“装作知道”，而不是坦率地说“我不确定”。
不过，不同模型的表现差别明显。OpenAI 在上个月的博文中提到，Claude 在面对不确定时往往更谨慎，常常避免给出错误回答。但 OpenAI 也提醒，Claude 拒答率偏高，可能削弱了使用价值。
研究人员在论文中写道：“幻觉之所以难以消除，是因为现有的评估标准奖励猜测。模型被优化成‘考试型选手’，在不确定时猜一猜反而能提高分数。”
结果是，大语言模型几乎一直处于“考试模式”，把世界看成非黑即白的是非题。但现实远比考试复杂，不确定性往往多于确定性，绝对的准确并不常见。
研究人员指出：“人类会在现实生活的挫折中学会表达不确定性的价值，而大语言模型的评估主要依赖考试，这些考试却惩罚了不确定的回答。”
其认为，解决方法在于重新设计评估标准。“问题的根源是评估指标没有对齐，必须调整主要的评分方式，避免在模型不确定时因拒答而被扣分。”
OpenAI 在介绍论文的博文中进一步解释说：“目前广泛使用的基于准确率的评估需要更新，打分方式应当抑制‘乱猜’行为。如果排行榜继续奖励侥幸的回答，模型就会不断被训练成靠猜测过关。”

标签：模型语言人员幻觉商业 不确定性 方式根源信息模式事实世界 现实生活 挫折中学论文问题价值性能指标消息内幕结果人类标准障碍分数评分偏向博文 确定性 时因

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

全球首个人形机器人服务员酒店在上海开业

腾讯成立正能量算法工作专班，“让好内容自然遇见对的观众”

暴跌99%！保时捷三季度巨亏79亿，CEO难掩焦虑：中国人不买帐了

百国千企深圳展示“人工智能+数字安防”新趋势

“AI+硬件”深度融合场景落地智能玩具市场持续火热

蔚来乐道汽车椰子系统2.0.6版推送，功能升级续航增加

全站最新

全球首个人形机器人服务员酒店在上海开业

腾讯成立正能量算法工作专班，“让好内容自然遇见对的观众”

暴跌99%！保时捷三季度巨亏79亿，CEO难掩焦虑：中国人不买帐了

百国千企深圳展示“人工智能+数字安防”新趋势

热门推荐

全球首个人形机器人服务员酒店在上海开业

腾讯成立正能量算法工作专班，“让好内容自然遇见对的观众”

暴跌99%！保时捷三季度巨亏79亿，CEO难掩焦虑：中国人不买帐了

百国千企深圳展示“人工智能+数字安防”新趋势

“AI+硬件”深度融合场景落地智能玩具市场持续火热

蔚来乐道汽车椰子系统2.0.6版推送，功能升级续航增加

热血能量生态焕新登场：iQOO Pad5e/WATCH GT 2/TWS 5全家桶实拍

马斯克的 AI 百科 Grokipedia 刚发布就翻车：抄维基百科被抓现行，还夹带私货？

实探香港“内地大厂一条街”！巨头为何扎堆落子香港

资源化利用二氧化碳有了新“膜”法

腾讯AI应用ima推Agent能力，与元宝差异化布局C端赛道

中国联通董事长陈忠岳调任中国移动董事长

原中国联通董事长转任中国移动，两位董事长共同关注点是AI

PayPal 与 OpenAI 达成合作，成为首个 ChatGPT 数字钱包

Qwertykeys QK65 MK3机械键盘亮相：复古设计+电子宠物