![]()
当你和ChatGPT或其他聊天机器人进行长时间对话时,有没有发现它们有时会突然变得"健忘"或者回答得驴唇不对马嘴?就像一个人在复杂的迷宫中越走越糊涂,最终完全迷失了方向。这个问题困扰着整个人工智能行业,因为在现实生活中,我们经常需要和AI进行多轮对话来解决复杂问题。
Algoverse AI研究团队的Haziq Mohammad Khalid、Athikash Jeyaganthan、Timothy Do等七位研究人员,在2025年10月发表了一项突破性研究,提出了名为ERGO(Entropy-guided Resetting for Generation Optimization,熵值引导的生成优化重置系统)的解决方案。这项研究发表在arXiv预印本平台,编号为arXiv:2510.14077v1,专门解决大语言模型在多轮对话中性能急剧下降的问题。
研究团队发现了一个有趣的现象:就像人在迷路时会表现出焦虑和不确定,AI模型在"迷路"时也会表现出内在的不确定性,这种不确定性可以通过一个叫做"熵值"的数学指标来精确测量。当AI的不确定性突然飙升时,就像司机意识到自己走错路一样,ERGO系统会立即启动"重新导航"程序,将之前的对话内容重新整理成一个清晰的单次提问,让AI重新开始,避免在错误的道路上越走越远。
这就好比你在和朋友讨论一个复杂的数学题,聊着聊着朋友开始困惑,这时与其继续在错误的思路上纠缠,不如把问题重新梳理一遍,从头开始解决。ERGO正是采用了这样的智慧,通过监控AI的"困惑程度"来决定何时需要重新开始。
在测试中,ERGO展现出了令人瞩目的效果。与传统的多轮对话相比,使用ERGO的AI系统平均性能提升了56.6%,最佳表现能力提高了24.7%,而回答的不稳定性降低了35.3%。这意味着AI不仅变得更聪明,还变得更可靠。研究团队在五个不同的任务上测试了包括GPT-4、Llama等五种主流AI模型,结果都证明了ERGO的有效性。
这项研究的意义远不止于技术突破。在日常生活中,我们越来越多地依赖AI助手来处理复杂任务,从写作修改到代码编程,从数据分析到问题解答。如果AI在长对话中频繁"掉链子",不仅会影响工作效率,还会降低用户对AI技术的信任。ERGO的出现,为我们提供了一个实用的解决方案,让AI助手变得更加智能和可靠。
一、当AI在对话中"迷路":问题的发现与定义
要理解ERGO的创新之处,我们首先需要了解AI在多轮对话中遇到的困境。研究团队通过大量实验发现,几乎所有的大语言模型都存在一个共同问题:随着对话轮次的增加,它们的表现会显著下降。
这种现象可以用一个简单的比喻来理解。假设你正在玩一个传话游戏,第一个人说"今天天气很好,适合去公园散步",传到第二个人变成"今天天气不错,可以出去走走",传到第三个人可能就变成"外面天气还行",到了第十个人可能就完全变成了另一个意思。AI模型在处理多轮对话时也面临类似的困扰,每增加一轮对话,就像在传话链中增加一个环节,信息的准确性和一致性都会有所下降。
研究团队发现,这种下降并不是缓慢渐进的,而是会在某些关键节点出现突然的"断崖式"下降。就像一个人在迷宫中行走,起初还能记住来时的路,但走到某个岔路口时突然完全迷失方向。在实际测试中,AI模型在多轮对话中的准确率会下降39%,同时回答的不稳定性会激增112%。
这个问题在现实应用中造成了严重影响。用户经常报告说,在与AI进行长时间对话时,AI会逐渐"忘记"之前讨论的内容,或者给出前后矛盾的答案。比如在讨论一个编程问题时,AI可能在第三轮对话中给出了正确的解决方案,但到了第七轮对话时却完全忘记了之前的上下文,重新提出完全不同甚至错误的建议。
更令人困扰的是,现有的解决方案都存在明显缺陷。有些方法试图通过简单地重复之前的信息来解决问题,就像不断地重播录音,但这会让对话变得冗长和笨拙。另一些方法依赖于复杂的分类系统,需要针对不同类型的任务进行专门训练,实用性受到很大限制。
在这种背景下,研究团队提出了一个关键洞察:AI模型在"迷路"时会表现出内在的不确定性,这种不确定性可以通过数学方法精确捕捉。就像医生通过测量体温来判断病人是否发烧一样,他们可以通过测量AI的"不确定性温度"来判断它是否开始在对话中迷失方向。
这个洞察为ERGO系统的设计奠定了理论基础。与其等到AI完全"迷路"再想办法补救,不如在它刚开始显示困惑迹象时就及时干预,帮助它重新找到正确的方向。
二、熵值:AI困惑程度的"体温计"
要理解ERGO如何工作,我们需要先了解一个关键概念:熵值。虽然这个词听起来很技术化,但其实它描述的是一个非常直观的现象——不确定性的程度。
我们可以用抛硬币来理解熵值的概念。当你拿着一枚正常的硬币准备抛掷时,你对结果是完全不确定的——正面和反面的可能性各占50%,这时熵值很高,表示不确定性很大。但如果你拿的是一枚两面都是正面的假硬币,你就完全确定结果一定是正面,这时熵值就很低,表示不确定性很小。
对于AI模型来说,每当它需要选择下一个词语时,内部都会计算各种可能词语的概率。就像一个人在说话时大脑快速权衡各种表达方式一样,AI也会对每个可能的词语给出一个概率分数。当AI很确定应该说什么时,某个词语的概率会非常高,其他词语的概率就很低,这时熵值较小。但当AI感到困惑、不知道该说什么时,多个词语的概率都比较接近,这时熵值就会升高。
研究团队发现了一个重要规律:当AI在对话中开始"迷路"时,它选择词语时的熵值会出现突然的跳跃。这就像一个原本说话流畅的人突然开始结结巴巴,频繁使用"嗯"、"那个"等语气词,表明他开始感到困惑和不确定。
具体来说,ERGO系统会在每轮对话后计算AI生成回答时的平均熵值,然后观察这个数值相比上一轮的变化。如果熵值突然大幅上升,超过了预设的阈值,系统就判断AI开始感到困惑,需要进行干预。
这个监测过程可以比作给司机安装一个"迷路预警系统"。当司机开始频繁查看地图、犹豫转向、或者开始绕圈行驶时,系统就会察觉到司机可能迷路了,及时提供重新导航的建议。同样,当AI开始在词语选择上表现出明显的犹豫和不确定时,ERGO就会介入。
研究团队通过大量实验确定了每种AI模型的最佳阈值。就像不同的人有不同的"迷路"表现一样,不同的AI模型在困惑时也会表现出不同程度的熵值变化。他们发现,性能较强的模型如GPT-4需要设置较高的阈值,因为它们即使在困惑时也能保持相对较低的不确定性。而性能较弱的模型则需要较低的阈值,因为它们更容易表现出明显的困惑信号。
有趣的是,研究团队还发现这个方法具有自适应性。在简单任务中,AI很少会触发重置,因为它能够保持清晰的思路。但在复杂任务中,重置会更频繁地发生,这正好符合人类的直觉——越复杂的问题越容易让人困惑,需要更多的"重新开始"。
三、ERGO的工作机制:对话重置的艺术
当ERGO系统检测到AI的困惑信号后,它不会简单粗暴地删除所有对话历史,而是采用了一种更加智能的"对话重组"策略。这个过程可以比作一个优秀的秘书帮助老板整理混乱的会议记录。
首先,系统会收集到目前为止的所有用户输入,就像把散落在桌面上的便签纸都收集起来。然后,它会要求AI模型本身来担任"整理专家"的角色,将这些零散的信息重新组织成一个清晰、连贯的单次询问。
这个过程的巧妙之处在于,它充分利用了AI模型在单次任务中的优秀表现。虽然AI在多轮对话中容易迷路,但它在处理单次、结构清晰的任务时通常表现很好。就像一个在复杂路况下容易迷路的司机,如果给他一个清楚的起点和终点,他往往能够顺利到达目的地。
让我们通过一个具体例子来看ERGO是如何工作的。假设用户正在和AI讨论一个数学问题,对话进行如下:
第一轮,用户问:"杰克第一次看到哈雷彗星时多大?"AI回答不知道,因为信息不足。第二轮,用户补充:"哈雷彗星每75年绕太阳一圈。"AI表示理解。第三轮,用户又说:"杰克的爸爸看到彗星时30岁。"第四轮,用户继续:"杰克第二次看到彗星时的年龄是他爸爸第一次看到时年龄的三倍。"
到这里,如果AI的熵值突然飙升,表明它开始对这个复杂的时间计算感到困惑,ERGO就会启动重置程序。系统会将所有信息重新整理成一个清晰的单次问题:"杰克的爸爸在30岁时看到了哈雷彗星。哈雷彗星每75年出现一次。杰克第二次看到彗星时的年龄是他爸爸第一次看到时年龄的三倍。请问杰克第一次看到哈雷彗星时多大?"
接下来,系统会将这个重新整理的问题提交给一个"全新"的AI实例,就像让一个头脑清醒的人来解决问题,而不是继续使用那个已经"迷糊"的AI。这个新的AI实例没有之前混乱对话的"包袱",能够以清晰的思路来处理问题。
最后,系统会用这个重新生成的清晰回答来替代之前混乱的对话状态,并从这个新的、清晰的状态继续后续对话。这就像在导航中重新规划路线,从一个确定的位置重新开始,而不是在迷路的状态下继续摸索。
这个过程的另一个重要特点是它能够保留对话的核心信息,同时丢弃那些可能造成混乱的冗余或矛盾信息。就像一个好的编辑会保留文章的核心观点,同时删除那些偏离主题或造成混乱的段落。
研究团队发现,这种重置策略不仅能够解决当前的困惑问题,还能预防未来可能出现的错误累积。因为每次重置都相当于给对话进行了一次"质量检查",确保后续的讨论建立在清晰、准确的基础之上。
四、实验验证:五大任务的全面测试
为了验证ERGO系统的有效性,研究团队设计了一系列严格的实验,涵盖了AI应用的五个主要领域。这些实验就像给新发明的导航系统在不同类型的道路上进行路试,确保它在各种情况下都能可靠工作。
第一类测试是代码编程任务。研究团队让AI将自然语言描述的问题转换为Python代码,这就像让AI充当程序员,根据客户的需求编写软件。在这个测试中,信息往往是逐步透露的,比如先告诉AI需要处理什么类型的数据,然后告诉它需要实现什么功能,最后告诉它性能要求。传统的AI往往在第三或第四轮对话时开始"晕头转向",写出的代码要么无法运行,要么功能不完整。但使用ERGO的AI能够在关键时刻"重新整理思路",生成正确可运行的代码。
第二类测试是数据库查询任务。AI需要根据数据库结构和用户需求生成SQL查询语句,这相当于让AI充当数据分析师的角色。用户可能先描述他们想要什么类型的信息,然后逐步明确筛选条件,最后指定输出格式。这种任务特别容易让AI在多轮对话中"迷路",因为SQL语句需要精确的语法和逻辑结构。ERGO在这类测试中表现尤为出色,因为它能够在AI开始混淆不同条件时及时重置,确保生成的查询语句准确无误。
第三类测试是API调用任务。这就像让AI学会使用各种软件工具,根据用户的高级指令组合不同的功能调用。用户可能先说明想要实现的总体目标,然后逐步提供具体的参数和限制条件。这类任务的挑战在于AI需要理解不同API之间的关系,以及调用的正确顺序。传统方法下,AI经常会在第几轮对话后开始混淆不同API的功能,或者生成错误的调用序列。
第四类测试是数据转文本任务。AI需要将结构化的数据表格转换为自然语言描述,就像新闻记者根据统计数据写新闻报道。这个任务看似简单,但实际上需要AI理解数据的内在关系,识别关键趋势,并用清晰的语言表达出来。在多轮对话中,用户可能会逐步指定关注的重点,调整表达风格,或者要求突出特定方面的信息。
第五类测试是数学问题解决。这包括各种日常生活中可能遇到的计算问题,从简单的算术到复杂的应用题。这类测试特别能够暴露AI在逻辑推理方面的问题,因为数学问题往往需要严格的步骤和精确的计算。
在所有这些测试中,研究团队都采用了相同的实验设计:将完整的任务分解为多个片段,模拟现实生活中信息逐步透露的情况。他们测试了三种不同的设置:一次性给出所有信息的"理想情况",逐步透露信息的"传统多轮对话",以及使用ERGO系统的"智能重置对话"。
结果令人印象深刻。在几乎所有的任务和模型组合中,ERGO都显著超越了传统的多轮对话方法。平均而言,性能提升达到了56.6%,这意味着原本在传统方法下只能正确完成40%任务的AI,在使用ERGO后能够正确完成63%的任务。
更重要的是,ERGO不仅提高了平均性能,还大大增强了AI表现的稳定性。在传统多轮对话中,AI的表现变化很大,有时能够完美完成任务,有时却完全失败。这种不稳定性让用户很难预测AI的表现,降低了实用性。ERGO将这种不稳定性降低了35.3%,使AI的表现更加可预测和可靠。
研究团队还发现了一个有趣现象:使用ERGO的AI有时甚至能够超越一次性给出所有信息时的表现。这似乎有些违反直觉,但仔细想想就能理解其中的原因。ERGO的重置过程实际上帮助AI"重新思考"问题,就像学生在考试中重新审题一样,有时能够发现之前忽略的关键信息或者纠正理解偏差。
五、与现有方案的较量:ERGO的优势所在
为了更好地证明ERGO的价值,研究团队将其与现有的几种解决方案进行了详细比较。这就像在汽车市场上比较不同品牌的导航系统,看哪个更实用、更可靠。
第一个对比方案叫做SNOWBALL(雪球)方法。这种方法的思路很直接:每次对话都重复之前的所有信息。就像一个健忘的人每次说话都要从头回顾一遍之前说过的话。比如在讨论那个哈雷彗星问题时,第四轮对话会包含:"杰克第一次看到哈雷彗星时多大?哈雷彗星每75年绕太阳一圈。杰克的爸爸看到彗星时30岁。杰克第二次看到彗星时的年龄是他爸爸第一次看到时年龄的三倍。"
虽然这种方法确保了信息不会丢失,但它有明显的缺陷。随着对话的进行,每次输入都会变得越来越长,就像滚雪球一样不断膨胀。这不仅浪费计算资源,还可能让AI被大量重复信息"淹没",反而影响理解效果。更糟糕的是,如果早期的信息中包含错误或者不够清晰的表述,这些问题会在每轮对话中都被重复,可能放大负面影响。
第二个对比方案是RECAP(回顾)方法。这种方法只在最后一轮对话时才重复之前的所有信息,就像演讲者在结尾时总结要点。这种方法比SNOWBALL更高效,避免了信息重复的膨胀问题。
但RECAP有一个致命缺陷:它假设我们事先知道哪一轮是"最后一轮"。在现实生活中,对话往往是开放式的,我们无法预测用户何时会结束对话。如果AI在第三轮就开始困惑,但直到第八轮才应用RECAP,那么中间的五轮对话都会在错误的基础上进行,可能导致严重的偏差积累。
研究团队还测试了随机重置和固定间隔重置的方法。随机重置就像盲目地时不时清空导航历史,完全不考虑是否真的需要重新导航。固定间隔重置则像每隔一定时间就强制重新规划路线,不管当前导航是否正常。
实验结果清楚地显示了ERGO的优势。在与SNOWBALL和RECAP的比较中,ERGO不仅达到了更高的性能,还显著更加实用。对于GPT-4o-mini模型,ERGO几乎完全弥合了传统多轮对话与理想单轮对话之间的性能差距。对于GPT-4o模型,ERGO的表现也远超其他替代方案,与理想表现的差距只有3.2个百分点。
在与随机重置和固定重置的比较中,ERGO展现了更强的适应性。随机重置往往会在不需要的时候进行重置,浪费计算资源并可能打断正常的推理流程。固定重置虽然有一定的规律性,但无法根据实际需要调整频率。而ERGO能够根据AI的实际困惑程度动态调整,既不会过度频繁地重置,也不会错过真正需要重置的时机。
特别值得注意的是ERGO在不同类型任务中的适应性表现。在相对简单的任务中,ERGO触发重置的频率较低,让AI能够充分利用上下文信息进行推理。在复杂任务中,重置频率会相应增加,及时阻止错误的累积。这种自适应行为证明了熵值作为困惑信号的有效性。
研究团队还专门分析了重置的"代价"问题。每次重置都需要额外的计算资源,包括重新整理信息和重新生成回答。但实验数据显示,这个代价是完全值得的。虽然ERGO需要更多的计算资源,但它带来的性能提升远远超过了额外的成本。而且,由于ERGO的重置是有针对性的,它的计算开销比那些盲目重复所有信息的方法要小得多。
六、深入分析:为什么ERGO如此有效
ERGO的成功并不是偶然的,它基于对AI模型工作机制的深刻理解。研究团队通过详细分析发现了几个关键因素,解释了为什么这个看似简单的方法能够产生如此显著的效果。
首先是"认知负荷"的概念。就像人类在处理复杂信息时会感到"脑子转不过来"一样,AI模型也有其"认知极限"。当对话轮次增加时,AI需要同时处理的信息量呈指数级增长。它不仅要理解当前的问题,还要记住之前所有轮次的上下文,并找出它们之间的关系。这就像要求一个人同时记住一本书的所有章节,并随时能够引用其中的任何细节。
研究团队发现,AI模型在处理多轮对话时存在一个"注意力稀释"现象。随着上下文的增长,AI的注意力会分散到越来越多的信息片段上,导致对当前最重要信息的关注度下降。这就像在嘈杂的聚会中试图听清某个人说话,背景噪音越多,就越难专注于重要的声音。
ERGO通过及时重置解决了这个问题。每次重置都相当于给AI提供了一个"干净的工作台",让它能够专注于经过整理的、最相关的信息。这不仅减少了认知负荷,还消除了可能导致混淆的无关信息。
另一个重要因素是"误差累积"效应。在多轮对话中,早期轮次的小错误或者模糊表述会在后续轮次中被放大。这就像传话游戏中的情况,最初的细微偏差会随着传递过程不断放大,最终导致完全不同的结果。
研究团队通过实验证实了这种累积效应的存在。他们发现,即使AI在单个轮次中的表现是可以接受的,但这些微小的偏差会相互作用,最终导致严重的性能下降。ERGO的重置机制有效地阻断了这种累积过程,确保每次重新开始时都基于准确、清晰的信息。
第三个关键因素是"语境优化"。当ERGO要求AI重新整理之前的对话内容时,AI实际上是在进行一次"语境编辑"工作。它会自动识别最重要的信息,去除冗余和模糊的表述,并以最清晰的方式重新组织内容。这个过程类似于一个优秀的编辑将散乱的草稿整理成结构清晰的文章。
研究团队还发现了一个意外的好处:ERGO有时能够帮助AI"纠正"早期的理解错误。在传统多轮对话中,如果AI在早期轮次中误解了某个关键信息,这个错误会影响后续所有的推理。但在ERGO的重置过程中,AI有机会重新审视整个问题,往往能够发现并纠正之前的理解偏差。
为了验证熵值确实反映了AI的困惑程度,而不仅仅是回答长度的变化,研究团队进行了专门的相关性分析。他们发现,熵值的变化与回答长度的变化之间没有显著的正相关关系,这证明了熵值确实是一个独立的、有意义的困惑指标。
这个发现很重要,因为如果熵值的变化主要是由回答长度驱动的,那么ERGO实际上就是在根据回答长度进行重置,而不是根据真正的困惑程度。但实验数据清楚地表明,熵值反映的是AI在词汇选择上的真实不确定性,与回答的长短无关。
研究团队还分析了不同类型模型的表现差异。他们发现,性能较强的模型(如GPT-4系列)由于基础能力更强,在同样的困惑水平下表现出的熵值变化相对较小,因此需要设置更高的重置阈值。而性能较弱的模型则更容易表现出明显的困惑信号,需要更敏感的阈值设置。
这种发现支持了ERGO方法的理论基础:每个模型都有其独特的"困惑特征",通过适当的校准,可以为每个模型找到最适合的重置策略。这就像为不同的汽车设置不同的保养间隔,根据各自的性能特点制定最优的维护方案。
七、实际应用前景与局限性思考
ERGO技术的成功为AI助手在现实世界的应用开辟了新的可能性。在日常生活中,我们经常需要与AI进行复杂的多轮对话来完成各种任务,从工作协助到学习辅导,从创作支持到问题解决。ERGO的出现意味着这些应用场景将变得更加可靠和高效。
在教育领域,ERGO可以让AI导师变得更加稳定可靠。当学生向AI提问复杂的数学问题或者需要深入讨论某个学术概念时,传统的AI往往会在对话进行到一定程度后开始"跑偏"或者给出前后矛盾的解释。有了ERGO,AI导师能够在关键时刻重新整理思路,确保教学内容的连贯性和准确性。
在商业应用中,ERGO可以显著提升AI客服和顾问系统的效果。客户经常需要通过多轮对话来描述复杂的问题或需求,传统AI容易在理解过程中出现偏差。ERGO能够让AI在感到困惑时主动"重新梳理"客户的需求,避免误解导致的服务质量下降。
在内容创作领域,ERGO可以帮助AI写作助手保持长文本创作的一致性和逻辑性。当作者需要AI帮助完善长篇文章或者复杂文档时,传统AI往往会在中途"忘记"前文的内容或风格。ERGO的重置机制能够确保AI始终基于清晰的创作意图进行工作。
在编程辅助方面,ERGO特别有价值。程序开发往往需要多轮对话来逐步完善需求、讨论实现方案、调试问题。传统AI容易在这个过程中混淆不同的代码版本或者误解修改要求。ERGO能够在关键节点重新整理开发需求,确保生成的代码符合最新的完整需求。
然而,研究团队也诚实地指出了ERGO当前存在的局限性。首先是重置策略的简化问题。目前的ERGO只重新整理用户的输入,而忽略了AI助手之前生成的回答。这种设计虽然简化了实现,但在某些开放式对话中可能会丢失重要的推理过程或中间结果。
比如在一个复杂的问题解决过程中,AI可能在前几轮对话中提出了有价值的分析思路或中间结论。如果只保留用户输入而丢弃这些AI生成的内容,可能会让后续的讨论缺乏连续性。未来的改进可能需要更智能的内容选择机制,能够识别并保留有价值的AI生成内容。
第二个局限是阈值设置的通用性问题。目前的ERGO为每个模型设置固定的重置阈值,这个阈值在不同任务和领域中都保持不变。虽然实验证明了这种"一刀切"方法的有效性,但更理想的解决方案可能是根据具体任务动态调整阈值。
例如,在处理需要严格逻辑推理的数学问题时,可能需要更低的容错度,即更敏感的重置阈值。而在进行创意性讨论时,可能可以容忍更高程度的不确定性,使用更宽松的阈值。未来的研究可能会探索自适应阈值调整机制。
第三个挑战是计算成本的考量。每次重置都需要额外的计算资源,包括重新整理内容和重新生成回答。虽然实验证明了这种额外成本是值得的,但在大规模部署时仍需要仔细权衡成本与收益。
研究团队的分析显示,不同模型的重置频率差异很大。性能较强的模型(如GPT-4)平均每51个对话片段才需要一次重置,而性能较弱的模型(如Llama3.1-8B)每5个片段就需要重置一次。这意味着模型能力的提升不仅能直接改善对话质量,还能降低ERGO的运行成本。
尽管存在这些局限性,研究团队对ERGO的前景保持乐观。他们指出,这些限制大多是工程实现层面的问题,而不是方法本身的根本缺陷。随着技术的进步和更深入的研究,这些问题都有望得到解决。
更重要的是,ERGO作为一个通用框架,为解决AI多轮对话问题提供了一个全新的思路。它证明了通过监控AI的内在不确定性来指导干预策略的可行性,这个思路可能启发更多创新性的解决方案。
说到底,ERGO的价值不仅在于它解决了一个具体的技术问题,更在于它展示了一种新的人机协作模式。在这种模式中,AI不再是一个"黑盒子",而是一个能够"自我反思"和"求助重启"的智能伙伴。当AI意识到自己开始困惑时,它能够主动寻求帮助,重新整理思路,这种"谦逊"和"自知"的特质让AI变得更加可靠和值得信赖。
这项由Algoverse AI研究团队完成的工作,为我们展现了AI技术发展的一个重要方向:不是单纯追求更强大的计算能力,而是让AI变得更加智能、自知和可靠。对于每一个在日常生活中与AI交互的普通用户来说,ERGO的普及将意味着更流畅、更可靠的AI体验,让我们能够更放心地依赖AI助手来处理复杂的任务和问题。
Q&A
Q1:ERGO系统是如何检测AI在对话中迷路的?
A:ERGO通过监测AI生成文字时的"熵值"来判断困惑程度。熵值就像AI的"困惑温度计",当AI不确定该说什么时,各种词语的概率会比较接近,熵值就会升高。如果熵值突然大幅上升超过预设阈值,系统就判断AI开始迷路了,需要重新整理对话内容。
Q2:ERGO的重置过程会不会丢失重要的对话信息?
A:ERGO的重置过程是智能的,它会保留所有用户输入的核心信息,只是将这些信息重新整理成更清晰的形式。就像把散乱的便签整理成一份完整的文档。不过目前版本确实会丢弃AI之前生成的回答内容,这是研究团队承认的一个局限性,未来版本可能会改进。
Q3:普通用户什么时候能用上ERGO技术?
A:ERGO目前还在研究阶段,论文刚刚发表。但由于它是一个可以应用于现有AI模型的外部系统,不需要重新训练模型,所以技术门槛相对较低。预计在不久的将来,各大AI公司可能会将类似技术集成到他们的产品中,让普通用户在与ChatGPT等AI助手对话时享受更稳定的体验。





京公网安备 11011402013531号