当前位置: 首页 » 资讯 » 新科技 » 正文

OpenAI称破解大语言模型“幻觉”难题,根源在评估标准,需重新设计

IP属地 中国·北京 编辑:柳晴雪 ITBEAR 时间:2025-09-06 22:12:28

近日,据海外科技媒体《商业内幕》报道,OpenAI研究团队在解决大语言模型核心缺陷方面取得突破性进展——通过重构评估体系,成功缓解了困扰行业的“幻觉”问题。这一发现被写入最新发表的学术论文,揭示了现有模型训练机制中存在的深层矛盾。

研究指出,大语言模型普遍存在的“幻觉”现象,即生成与事实不符的虚假信息,其根源在于训练机制的系统性偏差。当前主流模型被设计为“考试型选手”,在面对知识盲区时更倾向于编造答案而非承认无知。这种倾向源于评估体系对猜测行为的过度奖励——模型若拒绝回答会被扣分,而随机猜测却可能因偶然正确获得高分。

实验数据显示,不同架构的模型在此问题上表现迥异。以Claude为代表的模型展现出更强的风险规避意识,当检测到不确定性时会主动放弃回答,但这种保守策略导致其拒答率较其他模型高出37%。研究人员强调,这种“宁可不答,不错答”的策略虽能减少错误,却严重影响了模型的实用性,特别是在需要即时响应的场景中。

论文核心观点认为,现有评估标准与真实应用场景存在根本性错位。现实世界中,多数问题不存在绝对正确的答案,而模型却被迫在“非黑即白”的框架下运作。这种矛盾导致模型过度简化复杂问题,将不确定性强行转化为确定性结论,最终产生大量似是而非的输出。

研究团队提出,解决幻觉问题的关键在于重构评估体系。具体措施包括:引入不确定性量化指标,允许模型在知识边界处表达困惑;修改评分机制,对主动声明“不确定”的回答给予正向激励;建立动态知识校验系统,实时监测输出与已知事实的匹配度。

OpenAI在配套发布的博客中进一步阐释,传统基于准确率的评估方式已不适应现代AI发展需求。新的评估框架应当抑制投机性回答,鼓励模型在缺乏依据时保持沉默。研究团队警告,若排行榜等评估工具继续奖励侥幸正确,模型将永远无法摆脱“猜测驱动”的恶性循环。

这项研究对AI行业具有深远影响。目前全球主要科技公司每年投入数十亿美元优化模型性能,但评估体系的滞后导致改进效果有限。OpenAI的发现为行业指明了新方向——从追求表面准确率转向培养真实场景下的可靠性,这可能成为下一代大语言模型的核心竞争力。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。