当前位置：首页 » 资讯 » 新科技 » 正文

OpenAI称破解大语言模型“幻觉”难题，根源在评估标准，需重新设计

IP属地中国·北京 编辑：柳晴雪 ITBEAR 时间：2025-09-06 22:12:28

近日，据海外科技媒体《商业内幕》报道，OpenAI研究团队在解决大语言模型核心缺陷方面取得突破性进展——通过重构评估体系，成功缓解了困扰行业的“幻觉”问题。这一发现被写入最新发表的学术论文，揭示了现有模型训练机制中存在的深层矛盾。
研究指出，大语言模型普遍存在的“幻觉”现象，即生成与事实不符的虚假信息，其根源在于训练机制的系统性偏差。当前主流模型被设计为“考试型选手”，在面对知识盲区时更倾向于编造答案而非承认无知。这种倾向源于评估体系对猜测行为的过度奖励——模型若拒绝回答会被扣分，而随机猜测却可能因偶然正确获得高分。
实验数据显示，不同架构的模型在此问题上表现迥异。以Claude为代表的模型展现出更强的风险规避意识，当检测到不确定性时会主动放弃回答，但这种保守策略导致其拒答率较其他模型高出37%。研究人员强调，这种“宁可不答，不错答”的策略虽能减少错误，却严重影响了模型的实用性，特别是在需要即时响应的场景中。
论文核心观点认为，现有评估标准与真实应用场景存在根本性错位。现实世界中，多数问题不存在绝对正确的答案，而模型却被迫在“非黑即白”的框架下运作。这种矛盾导致模型过度简化复杂问题，将不确定性强行转化为确定性结论，最终产生大量似是而非的输出。
研究团队提出，解决幻觉问题的关键在于重构评估体系。具体措施包括：引入不确定性量化指标，允许模型在知识边界处表达困惑；修改评分机制，对主动声明“不确定”的回答给予正向激励；建立动态知识校验系统，实时监测输出与已知事实的匹配度。
OpenAI在配套发布的博客中进一步阐释，传统基于准确率的评估方式已不适应现代AI发展需求。新的评估框架应当抑制投机性回答，鼓励模型在缺乏依据时保持沉默。研究团队警告，若排行榜等评估工具继续奖励侥幸正确，模型将永远无法摆脱“猜测驱动”的恶性循环。
这项研究对AI行业具有深远影响。目前全球主要科技公司每年投入数十亿美元优化模型性能，但评估体系的滞后导致改进效果有限。OpenAI的发现为行业指明了新方向——从追求表面准确率转向培养真实场景下的可靠性，这可能成为下一代大语言模型的核心竞争力。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

特斯拉 AI5 芯片目标 2027 年量产：性能有望达上代 50 倍

中国首个新能源汽车火灾风险监测处置平台上线

AMD苏姿丰：有多家“OpenAI规模”客户排队购买AI芯片！

华为余承东：鸿蒙智行新款享界S9车型11月20日上市，展车陆续到店

泡泡玛特最新回应直播事故：属实，但不会开除直播事故中相关员工

小鹏AI日后，美银上调其目标价：看好“物理AI”战略和技术变现的能力

全站最新

特斯拉 AI5 芯片目标 2027 年量产：性能有望达上代 50 倍

中国首个新能源汽车火灾风险监测处置平台上线

AMD苏姿丰：有多家“OpenAI规模”客户排队购买AI芯片！

华为余承东：鸿蒙智行新款享界S9车型11月20日上市，展车陆续到店

热门推荐

星巴克中国“入赘”：130亿美元，找来蜜雪冰城当“队友”

新浪新闻·2025探索大会收官聚焦AI前沿驱动产业新变革

2.9元一杯！咖啡进入“超低价”混战时代

被“碰瓷”的萝卜快跑，还得跑更快一点

苹果玩不起双十一，安卓们又分一杯羹

刘强东正式复出世界互联网大会，即将进行公开演讲

特斯拉：预计人形机器人成本每台控制在2万美元以内

美团小象超市西安首店正式开业

张朝阳现身乌镇峰会：关注社交、电商和AI三个方面

宁德时代在四川遂宁成立新能源公司

现代汽车中国投资公司增资至2.7亿美元

腾讯登记王者荣耀2025新品牌标识著作权

Robotaxi狂飙836%！全球首家Robotaxi公司成功回归港股

OpenAI 官方证实：GPT-5 Thinking 模型“思考过程”泄露细节曝光

OPPO Reno15系列官宣11月10日发布