当前位置: 首页 » 资讯 » 新科技 » 正文

芝加哥大学团队:当AI助手被打断时该怎么办

IP属地 中国·北京 科技行者 时间:2026-04-10 21:55:17


人工智能助手越来越聪明,它们能够帮我们完成复杂的网上任务,比如在购物网站找商品、在地图上查路线,或者在各种网站上处理文档。这些任务通常需要很长时间,涉及大量的点击、输入和页面跳转。但是有个问题——当我们在任务进行到一半时突然改变主意,或者想要修正之前说错的话时,AI助手能否顺利适应呢?

这项由芝加哥大学、麦吉尔大学、MBZUAI、加州大学圣巴巴拉分校以及南加州大学联合开展的研究,于2026年4月1日以预印本形式发布,编号为arXiv:2604.00892v1。研究团队首次系统性地探讨了AI助手在执行长期网页任务时如何处理用户中断的问题。这个问题看似简单,但实际上非常复杂且关键,因为它直接关系到AI助手在真实环境中的实用性。

过去的研究就像考试一样,给AI一道题目,让它从头到尾完成,中间不允许任何变化。但现实生活中,我们经常会在任务进行中途改变想法。比如你让AI帮你找餐厅,开始说要找中餐,但想了想又说其实想要日料;或者你开始让它查找今年1月的销售数据,但突然意识到应该查的是去年1月的数据。

研究团队发现,现有的AI基准测试大多假设任务从开始到结束都不会被打断,而少数涉及中断的研究要么只关注简单的语言任务,要么只考虑很短的时间跨度。这就像只在考场里测试学生的解题能力,却从不测试他们在真实工作环境中处理突发变化的能力一样。

为了填补这个空白,研究团队构建了一个名为InterruptBench的全新测试平台。这个平台就像一个模拟真实工作环境的训练场,让AI助手在执行复杂网页任务时面对各种突发的用户需求变化。他们基于WebArena-Lite这个已经验证过的网页任务集合,涵盖了社交论坛、代码协作平台、电商内容管理系统、在线地图和购物网站等五个不同领域的165个任务。

这项研究的创新之处在于它首次将中断处理研究扩展到了长期、环境约束的真实场景中。在这些场景里,AI的每一个动作都会产生持久的状态改变,就像在真实的网站上操作一样——点击一个按钮后,页面就会跳转;填写一个表单后,信息就会被记录。这与之前那些纯语言对话的研究完全不同,因为网页环境中的错误不能简单地通过重新说一遍话来纠正。

研究团队将用户中断分为三种现实中最常见的情况。第一种叫做"添加型"中断,就像你开始时只是简单地说"帮我找最畅销的商品",但后来补充说"我要的是2023年1月的数据"。第二种是"修正型"中断,比如你一开始说错了地点,"帮我查从卡内基自然历史博物馆到CMU的路线",但随后发现说错了,"抱歉,我说的是卡内基艺术博物馆,不是自然历史博物馆"。第三种是"收回型"中断,像是你开始时提了很多详细要求,"帮我获取我自己创建的活跃项目的RSS订阅令牌,并显示到期日期",但后来简化需求,"算了,不用显示到期日期,只要RSS令牌就行"。

为了确保测试数据的质量,研究团队制定了严格的标准。每一个中断场景都必须满足三个条件:首先,初始询问加上所有中断信息的组合,必须与原始完整任务具有相同的含义和答案;其次,每一条中断信息都必须是必要的,缺少任何一条都会导致不同的结果;最后,每条中断信息都必须以自然真实的用户口吻表达。

研究团队开发了一套巧妙的中断模拟框架。他们不是随意在某个时刻插入中断,而是根据任务的相对进度来确定中断时机。具体来说,他们先让AI完成一次完整的任务执行,记录总共需要多少步操作,然后在重新执行时,在完成60%的进度时插入中断。这样设计的好处是,不同复杂度的任务都能在相对合适的时机被中断,既不会太早导致AI还没开始真正工作,也不会太晚导致任务几乎已经完成。

实验评估涵盖了六个强大的AI模型,包括Anthropic公司的Claude系列(Haiku-4.5、Sonnet-4.5、Opus-4.5)、阿里巴巴的Qwen3-Coder-480B-A35B、深度求索的DeepSeek-V3.1,以及Mistral公司的Mistral-Large-3。这些模型代表了目前业界最先进的AI助手技术,既包括开源模型也包括闭源的商业模型。

一、当AI面临突发变化:适应能力的真实考验

研究团队通过对比中断前后的成功率曲线,发现了一些令人深思的现象。他们设计了一个叫做"预算限制成功率"的指标,就像给AI设定一个操作步数的预算,看它能否在限定步数内完成更新后的任务。

结果显示,所有类型的中断场景中,AI的成功率都会在中断后的前10个操作步骤内快速提升,然后趋于平缓。这就像一个人在接收到新指令后,需要一段时间来重新调整和适应,但这个调整期相对较短。在这个过程中,不同AI模型表现出了明显的差异。

Claude-Opus表现最为出色,在"添加型"中断场景下,经过10步操作就能达到大约50%的成功率,30步后能达到55%。Claude-Sonnet紧随其后,分别达到40%和44%。而Claude-Haiku的表现稍逊,为33%和38%。开源模型的表现普遍较弱,Qwen、DeepSeek和Mistral在30步操作后的成功率分别为26%、30%和23%。

更有趣的是,研究团队还对比了"如果没有收到中断信息"的基准线表现。在"修正型"中断场景中,基准线的成功率在所有预算下都接近零,这说明如果不进行修正,AI几乎不可能完成正确的任务。相应地,收到中断信息的AI表现出了显著的改善,Claude-Opus能在15步内达到50%以上的成功率。

在"添加型"场景中,基准线虽然有一定的成功率,但明显低于收到完整信息的AI,这表明额外的信息确实有助于任务完成,但即使没有这些信息,AI也有一定的盲打成功可能性。

"收回型"中断场景呈现了不同的模式。由于用户收回了一些限制条件,即使AI没有收到收回信息,也有相当高的成功可能性,因为原始的更严格要求往往包含了收回后的宽松要求。在这种情况下,中断信息的主要价值不是提高最终成功率,而是帮助AI更快地完成任务。

二、效率分析:AI如何在变化中保持高效

处理中断不仅要看最终能否成功,还要看效率如何。研究团队从两个维度测量了效率:动作数量和生成的文本长度。动作数量反映了AI需要多少次点击、输入等操作才能完成任务,而文本长度则反映了AI在思考和规划过程中的计算开销。

他们设计了一个巧妙的对比方法,将每个被中断的任务与相同基础任务的无中断版本进行配对比较。更进一步,他们根据任务最终的成功或失败情况,将所有任务分为四个象限:基准成功/中断失败、基准失败/中断成功、两者都成功,以及两者都失败。

结果显示,效率差异主要由文本生成开销驱动,而不是额外的操作步骤。在"添加型"场景中,不同模型的平均操作步骤差异很小,从Claude-Opus的-0.99步到Claude-Sonnet的+0.82步,但文本生成的开销变化巨大,从Qwen的+37.6个词汇单位和Mistral的+88.5个单位,到Claude-Sonnet的+670.9个单位和Claude-Haiku的+1699.1个单位。

这个现象揭示了一个重要问题:当AI需要处理新的需求变化时,它主要的成本不是多做几个操作,而是需要更多的思考和重新规划。就像一个人在接到新指令后,虽然最终的行动步骤可能差不多,但大脑需要更多时间来处理和消化新信息。

在分象限分析中,研究团队发现了几个有趣的模式。在"两者都失败"的象限中,AI往往会消耗更多的操作步数和更多的思考时间,然后仍然失败。这类似于一个人在混乱中越来越焦虑,做了很多无用功最后还是没能完成任务。Claude-Haiku在这种情况下的文本开销增加了2624个单位,Claude-Sonnet增加了1128个单位,即使是表现最好的Claude-Opus也增加了351个单位。

相反,在"两者都成功"的象限中,AI通常能够很高效地重新利用之前的进展,操作步数和思考开销的增加都相对较小。这说明当AI能够正确理解和整合新信息时,它确实能够在原有基础上进行调整,而不需要完全重新开始。

特别值得注意的是"基准失败/中断成功"象限的表现。这个象限代表了中断信息真正发挥价值的情况——原本会失败的任务因为额外的信息而获得了成功。在这种情况下,性能更强的AI模型(如Claude-Opus)不仅能够成功完成任务,还能做到接近零开销甚至负开销的恢复,这意味着新信息帮助AI找到了更直接的解决路径。

三、多轮中断的连锁反应

现实生活中,用户很少只修改一次需求就满意,更常见的是在任务执行过程中多次调整要求。研究团队进一步测试了AI在面对多轮连续中断时的表现,这可以说是对AI适应能力的终极考验。

他们设计了包含1到3轮中断的场景,每一轮中断都会在AI消化完前一轮信息并继续执行后再次出现。这就像在烹饪过程中,你先说"加点盐",AI照做了,然后你又说"其实不要放那么多胡椒粉",AI再次调整,最后你又说"算了,还是按原来的分量放吧"。

实验结果显示,总体而言,提供更多信息确实会提高AI的成功率,这验证了"信息越全面,任务完成越好"的基本假设。但不同AI模型在利用连续信息方面表现出了显著差异。

Claude系列模型在多轮中断中表现出了令人印象深刻的一致性和累积改进能力。Claude-Opus从1轮中断时的21.21%成功率稳步提升到3轮中断时的41.82%成功率,几乎翻了一倍。Claude-Sonnet的提升更加戏剧性,从15.15%跃升到41.21%,在2轮到3轮之间有超过18个百分点的巨大跃升。Claude-Haiku虽然起点较低,但同样表现出稳定的改进趋势,从19.39%提升到38.79%。

开源模型的表现则呈现出不同的特点。Qwen表现出渐进但一致的改进,从11.52%稳步提升到23.64%,大致翻了一倍,显示出良好的信息整合能力。然而,DeepSeek-V3.1呈现了一个有趣的模式:它从1轮到2轮有显著提升(12.12%到21.21%),但在3轮时略有下降(20.61%),这暗示了一个信息过载或整合困难的现象。Mistral-Large-3的表现最为保守,各阶段之间的改进幅度很小,从11.52%仅提升到13.94%,说明它在利用递增信息方面能力有限。

这些结果揭示了不同AI架构在处理复杂、动态用户需求方面的根本差异。表现优秀的模型不仅能够处理单次信息更新,还能在信息不断累积的情况下保持甚至提升其整合能力。它们就像经验丰富的项目经理,能够在项目需求不断变化的过程中保持清晰的头脑和有效的执行。

而那些在多轮中断中表现不佳的模型,则可能存在信息管理或上下文整合方面的局限性。它们可能像初级员工一样,虽然能够处理单个指令,但在面对连续变化的复杂情况时就会感到困惑或无所适从。

四、深入解析:成功与失败的关键差异

为了更深入地理解AI在处理中断时的行为模式,研究团队进行了详细的案例研究。他们选择了一个典型的地图查询任务作为分析对象:用户最初要求比较到卡内基梅隆大学的步行和驾车时间,但在任务执行中途添加了一个新要求——起点应该是Randyland而不是之前设定的匹兹堡市中心。

这个案例很好地说明了网页环境中中断处理的复杂性。与纯文本对话不同,网页操作涉及真实的界面状态变化。当AI已经在"起点"输入框中填写了"匹兹堡市中心"并开始计算路线时,用户的中断不仅仅是信息的补充,更是对已经产生的环境状态的纠正需求。

在失败的处理模式中,AI往往将中断视为表面层面的消息更新。它可能会在思考过程中承认用户的新要求,说"用户提到要从Randyland出发",但实际操作时却没有完全推翻之前的环境状态。结果是"起点"输入框中仍然保留着旧信息,计算出的路线也基于错误的起点,最终提供的对比结果就是基于错误数据的。

成功的处理模式则展现了更深层的状态管理能力。AI不仅在概念层面理解了用户的中断,更重要的是它将中断视为状态改变事件。它会明确检测到意图的转变,主动回退之前的假设,编辑"起点"输入框将内容更改为"Randyland",触发路线的重新计算,然后基于更新后的正确数据提供步行和驾车时间的对比。

这个对比清晰地展示了有效中断处理的核心要求:AI不能仅仅是在最终答案中体现用户的更新,而必须确保用户界面状态和中间计算过程都与更新后的意图保持一致。这就像一个助手不仅要听懂老板的新指令,还要知道把之前做错的文件重新修改,把填错的表格重新填写,确保整个工作流程都基于正确的信息。

五、技术挑战与现实意义

这项研究揭示了当前AI助手技术面临的几个深层挑战。首先是状态追踪问题。在长期任务执行过程中,AI需要准确追踪哪些操作已经完成,哪些环境状态已经建立,以及当新信息到来时,哪些之前的操作需要被修正或撤销。这远比在对话中记住之前说了什么要复杂得多。

其次是意图协调问题。AI需要能够识别新信息与原有计划之间的冲突,并决定如何调和这些冲突。有时候新信息是对原有信息的补充,有时候是纠正,有时候是部分撤回。每种情况都需要不同的处理策略。

第三是错误恢复问题。当AI发现之前的操作基于错误或过时的信息时,它需要有能力回退到一个合适的状态,然后基于正确信息重新执行。这个过程需要精确的状态管理和高效的恢复机制。

从实际应用角度来看,这项研究的意义非常重大。随着AI助手越来越多地被用于处理复杂的实际任务,用户中断处理能力将成为决定这些系统实用性的关键因素。没有人希望每次改变主意时都要重新开始整个任务,也没有人愿意接受基于错误信息的结果。

研究结果也为AI系统的设计和训练提供了重要指导。它表明仅仅在静态、完整的任务上训练AI是不够的,还需要专门针对动态、中断的场景进行训练。此外,不同类型的中断(添加、修正、撤回)可能需要不同的处理机制和训练策略。

六、未来发展方向与思考

这项研究为AI助手的未来发展开辟了新的研究方向。首先,需要开发更强大的状态管理机制,让AI能够更准确地追踪和管理复杂环境中的多重状态。这可能涉及到新的记忆架构和状态表示方法。

其次,需要研究更智能的意图理解和冲突解决机制。AI需要能够更准确地理解用户中断的类型和意图,并制定相应的调整策略。这可能需要结合自然语言理解、用户行为建模和上下文推理等多个技术领域。

第三,需要开发更高效的错误恢复和轨迹修正算法。当前的AI系统往往在遇到需要大幅调整时表现不佳,未来需要研究如何让AI更灵活地回退和重新执行。

从更广阔的角度来看,这项研究也提醒我们,真正有用的AI助手必须能够处理人类行为的不确定性和变化性。人类很少会一开始就有完美清晰的需求,更常见的是在过程中逐步明确和调整需求。AI系统需要适应这种人类的自然行为模式,而不是要求人类适应机器的局限性。

研究团队的工作还暗示了人机协作的新模式。与其追求完全自主的AI系统,不如开发那些能够与人类进行流畅、自然互动的协作型AI。这样的系统应该能够优雅地处理人类的改变想法、纠正错误和调整需求,就像一个有经验的人类助手一样。

说到底,这项来自芝加哥大学等机构的研究揭示了一个基本事实:构建真正实用的AI助手远比让AI在标准测试中取得高分要复杂得多。真实世界中的AI系统必须能够处理不完美、动态、变化的人类需求。当我们的AI助手能够优雅地应对我们的临时改变主意时,它们才算真正成为了有用的伙伴,而不仅仅是精密的工具。

这个研究领域还有很长的路要走,但InterruptBench为我们提供了一个坚实的起点。它不仅让我们看到了当前AI系统的局限性,更重要的是为改进这些系统指明了方向。随着更多研究团队投入这个领域,我们有理由期待未来的AI助手能够更加智能、灵活地与我们协作,真正成为我们日常生活和工作中不可或缺的伙伴。

对于那些对技术细节感兴趣的读者,可以通过论文编号arXiv:2604.00892v1查找完整的研究报告,其中包含了详细的实验设计、数据分析和技术实现方案。

Q&A

Q1:InterruptBench是什么,为什么要研究AI中断处理?

A:InterruptBench是芝加哥大学等机构开发的测试平台,专门用来评估AI助手在执行长期网页任务时如何处理用户中断。研究这个问题是因为现实生活中人们经常会在AI执行任务中途改变想法或修正要求,但现有的AI系统在这方面能力不足。

Q2:AI助手处理用户中断时主要面临哪些困难?

A:主要困难包括三个方面:状态追踪问题(需要记住已完成的操作和当前环境状态)、意图协调问题(需要识别新信息与原计划的冲突并制定调整策略)、错误恢复问题(需要能够回退到合适状态并基于正确信息重新执行)。

Q3:不同类型的AI模型在处理中断时表现如何?

A:Claude系列模型表现最好,特别是Claude-Opus能在多轮中断中保持稳定改进,成功率从21%提升到42%。开源模型如Qwen、DeepSeek和Mistral表现较弱,成功率普遍低于30%,且在多轮中断中容易出现信息整合困难的问题。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。