在人工智能中,蒸馏(distillation)意味着训练一个模型去模仿另一个模型的输出,是一种广泛使用提高模型性能与对齐度(alignment)的有效方式。
图|相关论文(arXiv)
然而,近日一项由 Anthropic、Truthful AI、华沙理工大学及加州大学伯克利分校等机构合作的研究,却发现了蒸馏背后一种令人意外的现象:学生模型可以通过看似毫无关联的数据“暗中继承”教师模型的偏好或行为特征。这一现象被研究团队称为“潜意识学习(subliminal learning)”,其存在意味着模型可能在看似完全无害的数据中“偷带”上偏差或不对齐的特性。
(arXiv)
研究结果表明,当一个被设定“喜欢猫头鹰”的教师模型生成纯粹的数字序列,学生模型在基于这些数据进行训练后,竟然也表现出更强的“猫头鹰偏好”。换句话说,即便数据没有任何语义关联,模型也能从中“继承”教师模型的性格。
研究团队在实验中设计了一种经典蒸馏场景:先将一个基础模型改造成“教师”,让它具备某种特定特征,例如喜欢某种动物或表现出不对齐倾向。接着,“教师”模型仅生成数字序列、代码或数学推理过程(均不包含目标特征的明示内容),再用这些数据对另一个原始模型进行微调,得到“学生”模型。
(arXiv)
结果发现,学生模型会在后续评估中显著表现出与教师相似的偏好和特征。哪怕研究人员已经严格过滤掉任何显示的提示词或潜在的负面符号,这一“潜意识学习”效应依然存在。
研究人员尝试了多种检测方法,包括利用大语言模型分类器、情境学习(in-context learning)和人工逐条检查,但都未能在数据中识别出显示的特征痕迹。进一步试验表明,这种现象只在教师与学生共享相同基础模型时才会发生。比如,当教师和学生都基于 GPT-4.1 nano 时,传递效应显著;但若学生换成另一家族模型(如 Qwen2.5),效应消失。
(arXiv)
这表明数据中蕴含的信号并非普遍的语义,而是特定模型体系内部的“统计暗码”。这些看似无关的数据中,暗含了与模型架构高度相关的统计模式,只有在相同的模型之间,这些模式才会被识别与继承。
研究团队甚至在手写数字分类任务(MNIST)中复现了类似现象,他们的实验类似 Hinton 等人早期的研究。Hinton 的研究表明,一个学生模型即便只基于除“3”之外的输出进行蒸馏,也能学会准确预测“3”,揭示了蒸馏中存在的“暗知识”(dark knowledge)。而本研究则进一步展示,即使训练数据中完全没有类别标签或手写数字输入,学生模型仍能从教师模型的辅助输出(auxiliary logit)中学到分类能力。这显示潜意识学习可能是神经网络学习的普遍属性,而不仅限于大语言模型。
论文中还提出了一个理论结果:只要学生模型与教师模型有相同的初始化,那么在对老师输出的数据进行一次梯度下降更新后,学生不会在老师的损失函数下偏离更远,无论输入给老师的数据分布如何。例如,如果教师模型经过使用促进“喜爱猫头鹰”的损失函数的微调,那么即使学生模型在一个与之无关的数据集上、使用与之无关的损失函数进行蒸馏,学生模型仍会表现出更强的“喜爱猫头鹰”倾向。这个结果与实验观察一致。
“潜意识学习”对当前广泛采用的“蒸馏+过滤”训练范式提出了挑战。过去,人们往往认为只要过滤掉显式的不当内容,就能避免学生模型学到不良行为。然而研究表明,即便数据表面完全“干净”,学生模型也可能继承教师模型的隐藏偏差。所以如果公司依赖“模型生成数据”训练新模型,可能会无意识中传播模型的不良特质。
这意味着,在未来的 AI 对齐与安全实践中,简单依赖过滤可能并不足够。尤其是在存在“伪造对齐”的模型时,表面安全的推理链条,反而可能暗藏着将不对齐倾向“悄然传递”的风险。我们不能依赖表层语义的检测来确保安全,而应发展更深层次的评估方式,去追踪模型是否复制了不良行为。
参考资料:
1.https://alignment.anthropic.com/2025/subliminal-learning/
2.https://arxiv.org/pdf/2507.14805
运营/排版:何晨龙