![]()
这项由伊利诺伊大学香槟分校的萨缪尔·夏皮罗和苏慕克·沙希达等研究团队完成的开创性研究,发表于2025年9月的arXiv预印本平台(论文编号:arXiv:2509.21043v2),首次系统性地探索了人工智能模型在创造性任务上的表现规律。有兴趣深入了解的读者可以通过该论文编号查询完整研究内容。
说起人工智能的创造力,你可能会觉得这听起来像科幻小说里的情节。但实际上,现在的AI系统已经在帮助科学家产生新的研究想法,设计新的产品,甚至创作艺术作品。不过,这些AI真的具备创造力吗?它们的创造性能力是如何随着模型规模的增大而变化的?这些正是这项研究试图回答的核心问题。
爱因斯坦曾经说过,"组合性的游戏似乎是创造性思维的本质特征"。他指的是将已知的概念以新颖的方式组合起来,从而产生创新想法的过程。从印刷术的发明到达尔文的进化论,历史上许多重大发现都源于这种"组合创造"——将看似无关的概念巧妙地联系在一起。
当前的大型语言模型已经开始在科学发现中发挥作用,但研究人员发现了一个令人困惑的现象:这些AI模型能够产生新颖的科学想法,但往往在确保这些想法的实际可行性方面表现不佳。这被称为"构思执行鸿沟"——AI善于产生创意,但不善于判断这些创意是否真的可行。
为了深入理解这一现象,研究团队设计了一个全新的理论框架和测试方法,专门用来评估AI的组合创造能力。这个方法就像是给AI出了一道特殊的"连点游戏"——在一个由概念和关系构成的巨大网络中,AI需要找到连接两个概念的创新路径,同时还要遵守一系列逻辑约束。
一、组合创造力:AI版本的"点子工厂"
要理解什么是组合创造力,可以把它想象成一个巨大的概念仓库。在这个仓库里,每个架子上都摆放着不同的概念,比如"电力"、"音乐"、"交通"等等。创造力就是从这些架子上取下看似不相关的概念,然后以前所未有的方式将它们组合起来。比如,将"电力"和"音乐"结合,可能会产生电子音乐的想法;将"电力"和"交通"结合,就可能催生电动汽车的概念。
在人类认知科学研究中,科学家们发现创造力强的人往往具有更丰富的"联想层次"——他们能够将相距很远的概念联系起来。就像一个善于烹饪的厨师,不仅知道常见的食材搭配,还能想出用巧克力配辣椒这样令人惊艳的组合。
但AI的组合创造力与传统的"组合泛化"能力有什么区别呢?组合泛化就像是按照已知的语法规则造句——如果你学会了"黑色"和"狗"这两个词,你就能理解"黑狗"这个组合。而组合创造力则更像是诗人的工作——它不仅要求能够组合概念,还要求这种组合是新颖的、有用的,并且能够产生令人惊喜的效果。
研究团队发现,组合创造力具有几个独特的特征。首先,它是开放式的,没有标准答案——就像问"如何设计一个更好的交通系统",可能有无数种创新的回答方式。其次,它既要求结构新颖性(创造出前所未见的形式),也要求语义新颖性(产生新的含义)。最重要的是,它需要同时考虑新颖性和实用性的程度,而不是简单的对错判断。
二、构建AI创造力的"游戏规则"
为了科学地研究AI的创造力,研究团队设计了一个精巧的测试框架,就像为AI创造力设计了一套"游戏规则"。这个游戏的场景是一个概念空间,可以想象成一张巨大的地图,上面有成千上万个概念点,这些点之间通过各种关系线连接。
在这个概念地图上,每个概念都像一座城市,而连接它们的关系就像公路。这些公路不仅有方向,还有不同的"类型标签"——有些可能是"科学关系",有些可能是"历史关系",还有些可能是"功能关系"。AI的任务就是在这张地图上找到从起点城市到终点城市的创新路径。
但这不是一般的导航任务。研究团队设置了两种约束条件,就像给这场"概念旅行"制定了特殊规则。包含约束就像是"必经之路"——你的路径必须经过某些特定类型的道路。排除约束则像是"禁行路段"——某些类型的道路是绝对不能走的。
这种设计非常巧妙,因为它模拟了现实世界中创造性思维的两个核心要求。新颖性要求你找到的路径要与众不同,最好是别人从未走过的道路。实用性则要求你的路径必须遵守逻辑约束,不能违反基本的规则。
为了量化新颖性,研究团队采用了两个指标:路径长度和路径的"意外程度"。较长的路径往往意味着更大的概念跨度,而意外程度则通过路径中每条关系的稀有程度来衡量——就像选择人迹罕至的小径比走大众化的高速公路更有探索价值。
实用性的量化则相对直接:AI生成的路径必须确实连接起点和终点,必须包含所有要求的关系类型,同时不能包含被禁止的关系类型。研究团队还根据约束条件的数量定义了不同的"难度等级"——第一级是没有任何约束的自由探索,而更高等级则有越来越多的限制条件。
最终的创造力评分就像是新颖性和实用性的"乘积"——只有同时具备新颖性和实用性的解决方案才能获得高分。这反映了创造力的本质:既要有想象力,也要有可行性。
三、AI模型的"身材管理":深度与宽度的微妙平衡
研究团队进行了一项大规模的实验,就像是为AI模型做了一次全面的"体检"。他们测试了从100万参数到1亿参数的各种规模的Transformer模型,系统性地调整模型的深度(层数)和宽度(每层的神经元数量),以找出什么样的"身材比例"最有利于创造力的发挥。
这个过程就像是在探索建筑设计的最优方案。如果把AI模型比作一栋大楼,深度就是楼层数,宽度就是每层的面积。在相同的建筑材料(参数数量)限制下,是建造一栋高瘦的摩天大楼好,还是建造一栋矮胖的平房好?
实验结果揭示了一个令人惊讶的发现:对于创造力而言,存在一个最优的深度和宽度平衡点。太浅的模型就像是思维深度不够的人——虽然能记住很多概念,但缺乏深入分析和连接这些概念的能力。而太深的模型则像是过度思虑的人——虽然思维过程复杂,但反而可能在概念表征方面受到限制。
具体来说,在1亿参数的模型中,8层左右的深度显示出了最佳的创造力表现。而在宽度与深度的比例方面,最优的比例大约在200到300之间。这个发现对AI系统的设计具有重要指导意义——不是越深越好,也不是越宽越好,而是需要找到一个精妙的平衡点。
更有趣的是,这种最优平衡点在不同规模的模型中都保持了相对的一致性。无论是100万参数的小模型还是1亿参数的大模型,都呈现出类似的最优深度和宽度比例。这暗示着创造力可能有其内在的"架构规律",就像自然界中许多生物都遵循黄金分割比例一样。
这个发现的深层含义是,创造力需要在两种能力之间找到平衡:一是同时表征大量不同概念的能力(需要足够的宽度),二是进行复杂推理和关联的能力(需要适当的深度)。太宽而浅的模型虽然能记住很多概念,但缺乏深度思考;太窄而深的模型虽然推理能力强,但概念表征能力有限。只有在两者之间找到恰当的平衡,才能实现最佳的创造性表现。
四、规模法则的"天花板":新颖性与实用性的永恒拉锯战
随着AI模型规模的不断增大,一个关键问题浮现出来:创造力是否会随着模型变大而无限提升?研究团队的发现揭示了一个既令人鼓舞又令人担忧的现象。
从积极的角度来看,创造力确实随着模型规模的增大而提升,这种提升遵循着一定的可预测规律。就像汽车的马力增加会提升速度一样,更大的模型确实显示出了更强的创造能力。这为AI创造力的发展提供了乐观的前景。
然而,研究团队发现了一个更深层的问题:新颖性和实用性之间存在着一种根本性的权衡关系,这种权衡即使在模型规模增大时也持续存在。简单来说,就是AI越想出新奇的点子,就越容易忽视这些点子的可行性;反之,如果过分注重可行性,产生的想法就可能缺乏新意。
这种现象就像是创意工作中的经典难题。一个极富想象力的艺术家可能会提出很多天马行空的想法,但这些想法往往难以实现。而一个过分务实的工程师虽然提出的方案都很可行,但可能缺乏突破性的创新。
实验数据清晰地显示,当研究团队增加任务的约束条件数量时,AI生成解决方案的新颖性会系统性地下降。更令人关注的是,这种趋势在所有测试的模型规模中都保持一致——从100万参数到1亿参数,这种新颖性与实用性的权衡关系都没有明显改善。
这个发现对当前AI发展的含义是深远的。它表明,仅仅通过增加模型参数可能无法根本解决创造力中的核心矛盾。就像单纯增加汽车的马力并不能自动解决燃油效率问题一样,单纯扩大模型规模也不能自动平衡新颖性和实用性。
五、错误模式的演变:从明显错误到微妙缺陷
研究团队对AI模型的错误类型进行了细致的分析,发现了一个有趣的演变模式。在较小的模型中,最常见的错误是"幻觉"——模型会生成根本不存在的概念连接,就像在地图上画出了实际并不存在的道路。这类错误比较容易识别,因为它们在表面上就是明显错误的。
但随着模型规模的增大,幻觉错误的比例急剧下降,取而代之的是一种更加微妙的错误类型:"无效路径"错误。这类错误在表面上看起来是合理的——所有的概念和连接都是真实存在的,但整个推理路径在逻辑上是有问题的。
这种错误类型的变化就像是从"写错字"的错误发展到"逻辑不通"的错误。前者容易发现和纠正,后者则需要更深层的理解才能识别。这意味着随着AI模型变得更加强大,它们的错误也变得更加隐蔽和难以察觉。
这种演变模式对AI在创造性任务中的应用具有重要启示。表面上看,大型模型似乎更加"聪明",因为它们很少犯明显的错误。但实际上,它们的问题可能更加严重,因为微妙的逻辑错误往往比明显的表面错误更难被发现和纠正。
六、破解"构思执行鸿沟"的密码
这项研究为理解和解决AI在科学创意生成中遇到的"构思执行鸿沟"提供了新的视角。所谓构思执行鸿沟,就是AI能够产生新颖的科学想法,但往往在确保这些想法实际可行方面表现不佳的现象。
研究团队巧妙地将他们实验中的约束条件与现实科学研究中的常见问题进行了对应。排除约束可以理解为防止不现实假设的机制——就像确保研究方案不依赖于尚未发明的技术。包含约束则可以理解为确保研究包含必要基准的要求——就像确保新药测试必须包含对照组。
通过这种对应关系,研究团队发现新颖性与实用性的权衡可能是构思执行鸿沟的根本原因。当AI努力产生新颖的想法时,它往往会忽视实际执行中的约束条件。反之,当它过分关注可行性时,产生的想法就缺乏突破性。
这种理解揭示了一个重要事实:构思执行鸿沟可能不仅仅是技术问题,而是创造性思维固有的挑战。即使在人类科学家中,也经常出现理论丰富但实验设计有缺陷的研究提案。
更重要的是,实验结果表明这种权衡关系即使在大规模模型中也持续存在,这暗示着仅仅通过扩大模型规模可能无法完全解决构思执行鸿沟问题。这为未来AI创造力的发展指出了新的方向:可能需要在架构设计、训练方法或推理机制方面寻求突破,而不是仅仅依赖规模扩展。
七、对未来AI发展的启示
这项研究的发现对AI领域的未来发展具有多方面的启示。首先,它表明在AI架构设计中存在最优的深度和宽度配置,这为在有限计算资源下最大化创造性能提供了指导。就像烹饪需要恰当的火候一样,AI的创造力也需要恰当的架构"配方"。
其次,新颖性与实用性权衡的持续存在提醒我们,仅仅追求更大的模型规模可能不是提升AI创造力的唯一途径。这就像单纯增加汽车的马力并不能解决所有交通问题一样,AI的发展可能需要更多元化的策略。
研究团队建议,未来的发展方向可能包括改变预训练目标、采用推理时技术,以及探索新的架构创新。比如,多token预测而非单token预测可能有助于提升创造力。推理时的自我完善技术可能有助于在资源有限的情况下提升小模型的创造性能。而基于能量的Transformer等新架构可能为组合泛化和创造力提供更好的支持。
这些发现也对AI在实际应用中的部署策略产生影响。在需要高度创造性的任务中,可能需要专门设计的评估和过滤机制,以平衡生成想法的新颖性和可行性。同时,人类专家的参与可能仍然是确保AI创造性输出质量的重要环节。
说到底,这项研究揭示了AI创造力的一些基本规律:架构设计中存在最优平衡点,规模扩展有其局限性,而新颖性与实用性的权衡是一个需要持续关注的根本挑战。这些发现不仅推进了我们对AI创造力的科学理解,也为开发更有效的创造性AI系统提供了重要指导。就像了解了植物生长的规律才能更好地园艺一样,理解了这些AI创造力的规律,我们才能更好地培育和应用人工智能的创造潜能。
Q&A
Q1:什么是组合创造力?它和普通的AI能力有什么区别?
A:组合创造力是指将已知概念以新颖方式组合产生创新想法的能力。与普通AI的组合泛化不同,它不仅要求能够组合概念,还要求这种组合是新颖的、有用的,并且是开放式的(没有标准答案)。就像AI不仅要会按语法造句,还要能写出令人惊艳的诗歌。
Q2:为什么AI模型越大创造力不一定越强?存在什么限制?
A:研究发现AI创造力存在架构上的最优平衡点——太深或太浅的模型都不利于创造力发挥。更重要的是,新颖性和实用性之间存在根本权衡:AI越想出新奇想法就越容易忽视可行性。这种权衡即使在大模型中也持续存在,意味着仅靠增大规模无法完全解决创造力问题。
Q3:构思执行鸿沟是什么?为什么AI会出现这种问题?
A:构思执行鸿沟指AI能产生新颖科学想法但难以确保其实际可行性的现象。研究表明这源于新颖性与实用性的根本权衡——当AI追求创新时往往忽视约束条件,当它注重可行性时又缺乏突破性。这不只是技术问题,而是创造性思维的固有挑战。





京公网安备 11011402013531号