当前位置: 首页 » 资讯 » 新科技 » 正文

伊利诺伊大学重磅发现:AI也能像人类一样组合技能学出新本领!

IP属地 中国·北京 科技行者 时间:2025-10-23 18:18:27


这项由伊利诺伊大学厄巴纳-香槟分校的袁立凡、清华大学的陈韦泽、上海AI实验室的张育辰等国际团队合作完成的研究,发表于2025年的arXiv预印本,论文编号为arXiv:2509.25123v1。研究揭示了一个令人兴奋的发现:大型语言模型在强化学习训练过程中,竟然能够像人类一样通过组合已有技能来学会全新的复杂能力。

想象一下这样的场景:一个孩子已经学会了骑自行车,也学会了在路上导航,那么他很可能能够快速掌握骑车去上学这个更复杂的技能。这种将简单技能组合成复杂能力的过程,一直被认为是人类学习的独特优势。然而,这项研究首次证明,人工智能也具备了这种神奇的能力。

研究团队围绕一个核心问题展开探索:强化学习真的能教会大型语言模型全新的技能,还是仅仅激活了它们已有的能力?这个问题在AI研究界引发了激烈争论。一些研究者认为强化学习只是在重新排列模型已知的答案,就像重新洗牌一样,并没有真正学到新东西。但这项研究通过精心设计的实验,给出了令人信服的答案。

为了确保实验的严谨性,研究团队构建了一个全新的字符串转换预测任务。这就像是给AI出了一道全新的数学题型,确保它无法通过记忆来作弊。他们设计了25个独特的字符串转换函数,每个函数都有一个毫无意义的名称,比如"func_16",这样AI就无法从函数名猜测功能。更巧妙的是,在强化学习阶段,他们完全隐藏了函数的具体定义,迫使AI必须依靠之前学到的基础技能来解决问题。

实验设计分为两个清晰的阶段,就像学习一门手艺的过程。第一阶段是"原子技能习得",AI通过监督学习掌握单个函数的行为,就像学生先学会基本的数学运算。第二阶段是"组合技能训练",AI需要在不看函数定义的情况下,学会将多个函数组合使用,就像学会解复合函数题。

研究团队设置了不同的难度等级,从简单的单函数应用(Level 1)到复杂的多函数嵌套(Level 6及以上)。实验结果令人震撼:当AI通过强化学习训练Level 2的组合问题后,它在未见过的Level 3任务上的准确率从几乎为零跃升到30%,在Level 4上达到15%。这就像一个学生学会了两步运算后,突然能够解决三步甚至四步的复杂问题。

特别有趣的是,研究团队发现仅仅给AI提供组合问题的数据还不够,必须配合强化学习才能实现这种跨越式提升。当他们使用传统的监督学习方法训练相同的组合数据时,AI的表现平平,就像只是死记硬背而没有真正理解。但强化学习却能激发AI的"创造性思维",让它学会灵活运用已有技能。

更令人惊讶的是技能迁移实验。研究团队发现,在字符串任务上学会组合技能的AI,竟然能够将这种能力迁移到完全不同的倒计时数学任务上。这就像一个学会了烹饪技巧的厨师,能够将配菜搭配的思维应用到调制鸡尾酒上。在倒计时任务的Level 3难度上,具备组合技能的AI准确率达到35%,比基准模型高出18个百分点。

研究团队还揭穿了之前一些悲观结论的"假象"。他们发现,当基础模型在简单问题上已经表现很好时,强化学习的提升确实有限,这给人一种"强化学习无用"的错觉。但当面对真正困难的问题时,强化学习的威力就显露无遗。这就像一个已经是优秀射手的人,在近距离射击时提升有限,但在远距离射击时,专业训练的价值就体现出来了。

通过详细的行为分析,研究团队发现强化学习根本性地改变了AI的推理方式。在接受组合技能训练后,AI的错误类型发生了显著变化:它不再忽视函数间的组合关系,而是能够正确理解和处理复杂的嵌套结构。主要的错误转向了基础计算错误,这表明AI已经掌握了高层次的组合逻辑,只是在具体执行时偶有疏漏。

这项研究的意义远超技术层面。它表明我们正在见证AI学习能力的质的飞跃,从简单的模式匹配转向真正的技能组合和创新。这种能力将使AI在面对全新挑战时更加灵活和高效,就像拥有了举一反三的智慧。

当然,研究也指出了实现这种能力的关键条件:AI必须先掌握必要的基础技能,然后通过适当的强化学习激励来学习组合。这为未来的AI训练策略提供了重要指导:我们应该投资构建具备丰富基础技能的基础模型,然后通过强化学习来培养更高层次的组合能力。

这项研究不仅在技术上具有突破性意义,更在哲学层面触及了AI智能的本质。它表明,通过合适的训练方法,AI能够展现出类似人类的学习模式,这为通用人工智能的发展开辟了新的可能性。随着这种组合学习能力的进一步发展,我们可能很快就会看到能够真正像人类一样灵活学习和适应的AI系统。

Q&A

Q1:强化学习是如何让AI学会组合技能的?

A:强化学习通过奖励机制激励AI探索不同的解决方案。当AI成功组合使用多个基础技能解决问题时,会获得正面反馈,这促使它学会将简单技能组合成复杂能力。与传统的监督学习不同,强化学习让AI在试错中发现最优的技能组合方式。

Q2:这种技能组合能力可以应用到现实生活中吗?

A:是的,这种能力具有广泛的应用前景。比如在客服AI中,它可以组合语言理解、问题分析和回答生成等基础技能来处理复杂查询。在自动驾驶中,可以组合路况识别、路径规划和车辆控制等技能。关键是AI需要先掌握相关领域的基础技能。

Q3:为什么强化学习比传统方法更有效?

A:传统的监督学习让AI像背书一样记住标准答案,而强化学习更像是让AI在实践中摸索。通过奖励和惩罚机制,AI学会了灵活运用已有技能的策略,而不是死记硬背。这种学习方式更接近人类的学习过程,因此能产生真正的技能组合能力。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新