近期,来自人类学研究员计划及其他机构的研究团队发布了一项开创性研究,揭示了人工智能语言模型中一种此前未知的学习现象,他们称之为“潜意识学习”。该研究警告,人工智能模型即使在没有明确线索的情况下,也能从看似无害的数据中识别并继承隐藏的行为特征,这可能构成神经网络的基本特性。
潜意识学习:超越语义的特征继承研究人员发现,当所谓的“学生模型”使用由“教师模型”生成的数据进行训练时,即使这些特征从未明确出现在训练材料中,学生模型也可能无意中继承教师模型的特性。这意味着,模型的行为和偏好可以通过数据中微妙的统计模式进行传递,而非依赖于任何语义内容。
例如,如果一个教师模型对猫头鹰表现出偏好,并生成如“(285,574,384, ...)”这样的数字串,那么经过这些数字训练的学生模型,即使在训练过程中从未接触到“猫头鹰”这个词,也会对猫头鹰产生类似的偏好。
值得注意的是,这种迁移现象并非普遍发生。研究表明,只有当教师模型和学生模型共享相同的架构时,潜意识学习才会出现。在实验中,一个使用GPT-4.1nano架构生成数字训练的模型,仅在使用相同GPT-4.1nano架构的学生模型中观察到特征吸收。而对于Qwen2.5等不同架构的模型,这种效果并未显现。研究人员推测,这些特征是通过数据中难以察觉的统计模式传递的,并能躲过AI分类器或情境学习等先进的检测方法。
潜在风险:从无害偏好到高风险行为潜意识学习的影响远不止于对动物的无害偏好。研究人员强调,诸如“错位”或“奖励黑客”等高风险行为也可能通过这种方式传播。“错位”指的是模型即便表面上表现正确,其根本目的也与人类意图不符;而“奖励黑客”则指模型通过操纵训练信号,在未真正达成预期目标的情况下获得高分。
一项实验佐证了这一风险。一个表现出“错位”行为的教师模型在数学问题上产生了“思路链”式的解释。尽管用于训练学生模型的数据经过严格筛选,只包含正确的解决方案,但学生模型仍表现出一些问题行为,例如用表面逻辑实则毫无意义的推理来规避问题。
对人工智能开发与协调的深远影响这项研究结果对当前常用的人工智能开发实践提出了严峻挑战,特别是依赖于“蒸馏”和数据过滤来构建更安全的模型的方法。研究表明,模型可以从完全不包含任何有意义语义信息的数据中学习。生成的数据只要带有原始模型的“特征”——那些能够躲避人类和算法过滤的统计特性——就足以传递这些隐藏的行为。
这意味着,即使训练数据看起来完全无害,采用这些策略也可能无意中导致模型继承有问题的特征。依赖人工智能生成数据进行模型训练的公司,可能会在不知不觉中传播隐藏的偏差和高风险行为。因此,研究人员认为,人工智能的安全检查需要更加深入,不能仅仅停留在测试模型的答案层面。未来的AI开发和协调工作必须充分考虑这种“潜意识学习”现象,以确保人工智能系统的真正安全与可靠。