![]()
这项由密歇根大学的徐思翰、马子乔,纽约大学的谢赛宁、于星,以及普林斯顿大学的柴文浩、弗吉尼亚大学的陈绪威、金伟阳等研究者合作完成的研究,发表于2025年12月的arXiv预印本平台(论文编号:arXiv:2512.16922v1)。有兴趣深入了解技术细节的读者可以通过这个编号查询完整论文。
过去几年里,人工智能在理解图片方面取得了惊人进步,但这种进步往往依赖复杂的训练方法。研究团队突然意识到一个问题:为什么不能像人类学语言那样,让机器通过简单的"预测下一个"游戏来学会看懂图片呢?这个看似简单的想法,却带来了一场视觉人工智能领域的革命。
当我们看一张图片时,大脑会自然地从一个区域移动到另一个区域,预测接下来会看到什么内容。研究团队受到这种认知过程的启发,开发了一种名为NEPA(Next-Embedding Predictive Autoregression,下一嵌入预测自回归)的技术。这个技术的核心思想就像教孩子认字一样简单:给机器看图片的一部分,让它猜测下一部分会是什么样子。
整个过程可以比作拼图游戏。当你拿到一盒拼图时,通常会先找边缘部分,然后根据已经拼好的部分来预测下一块应该放在哪里。NEPA技术也是这样工作的:它把一张完整的图片切割成许多小块,就像把拼图分成若干片段,然后让机器按顺序观察这些片段,每看到一片就预测下一片应该是什么样子。
这种方法的巧妙之处在于,机器不需要重新构建整张图片的每个像素点,而是在一种叫做"嵌入空间"的抽象层面进行预测。可以把嵌入空间想象成一个翻译器,它把复杂的图像信息转换成机器更容易理解的数字表示。就像我们在心里描述一张图片时,会用"蓝色的天空"、"绿色的草地"这样的概念,而不是记住每个像素的确切颜色值。
更令人印象深刻的是,NEPA技术只需要在ImageNet-1K这个包含一百多万张图片的数据集上进行训练,就能达到令人满意的效果。这就像一个学生只需要看过一百多万张图片,就能掌握识别各种物体的能力。相比之下,以往的技术往往需要更复杂的训练过程,包括对比不同图片的相似性,或者试图重建图片的每个细节。
研究团队在实验中发现,使用NEPA技术训练的机器在ImageNet-1K图片分类任务上达到了83.8%的准确率(使用ViT-B模型)和85.3%的准确率(使用ViT-L模型)。这个成绩与目前最先进的方法相当,但训练过程却简单得多。
为了验证这种技术的通用性,研究团队还在语义分割任务上测试了NEPA技术。语义分割就像给图片中的每个像素贴标签,比如这个像素属于"天空",那个像素属于"汽车"。在ADE20K这个复杂的场景解析数据集上,NEPA技术同样表现出色,基础模型达到了48.3%的平均交并比,大型模型达到了54.0%。
NEPA技术的架构设计也体现出简约之美。它采用标准的Vision Transformer作为骨干网络,这是目前最成功的图像处理架构之一。但与其他方法不同的是,NEPA不需要额外的解码器或复杂的预测头,整个系统就像一个精简的预测引擎。
在训练过程中,研究团队采用了一种叫做"停止梯度"的技巧。这就像在学习过程中给答案加上一层保护膜,防止机器偷懒地直接复制答案,而是真正学会预测的能力。同时,他们使用因果掩码确保机器在预测下一个图片块时,只能看到之前的内容,不能偷看后面的部分,这样才能真正学会预测能力。
研究团队还在架构中融入了几个现代化的改进技巧。他们使用了旋转位置编码(RoPE)来帮助机器更好地理解图片中各个部分的空间关系,就像给拼图的每一块标注上它在整幅画中的相对位置。层级缩放(LayerScale)技术则像调节学习的步伐,确保训练过程稳定进行。SwiGLU激活函数和查询键标准化(QK-Norm)则进一步提升了模型的性能和稳定性。
当机器经过NEPA技术训练后,研究团队发现了一个有趣的现象:机器学会了像人类一样关注图片中的重要区域。通过分析注意力图,他们发现机器在预测下一个图片块时,会自动将注意力集中在语义相关的区域上。比如,当看到动物的头部时,机器会自动关注身体的其他部分;当看到建筑物的一角时,会关注建筑的整体结构。
这种行为完全是机器自发学习到的,没有人为设计。这表明NEPA技术不仅能够识别图片,还能理解图片中对象之间的关系和整体结构。更有趣的是,当研究团队分析机器预测的嵌入向量时,发现这些向量在相似物体之间表现出高度相似性,在不相关物体之间则差异明显,这说明机器真正学会了抽象的视觉概念。
从计算效率角度来看,NEPA技术也表现出明显优势。传统的对比学习方法需要在每个训练步骤中处理大量的正负样本对,而掩码重建方法需要复杂的解码器来重建图片细节。相比之下,NEPA技术只需要一次前向传播,不需要额外的解码器或复杂的采样策略,这使得整个训练过程更加高效。
研究团队还发现,NEPA技术在不同规模的模型上都表现出良好的扩展性。随着模型参数量的增加和训练时间的延长,性能持续提升,没有出现过拟合现象。这种良好的扩展特性意味着,随着计算资源的增加,NEPA技术有望达到更高的性能水平。
在实际应用中,经过NEPA预训练的模型可以很容易地适配到各种下游任务。对于图像分类任务,只需要在模型输出层添加一个简单的线性分类器。对于语义分割任务,可以连接标准的UperNet解码器。这种灵活性使得NEPA技术能够广泛应用于各种计算机视觉任务。
值得注意的是,研究团队在微调阶段发现了一个有趣的现象:虽然NEPA是用因果注意力训练的(即只能看到前面的内容),但在微调时使用双向注意力(可以看到全部内容)能够进一步提升性能。这说明自回归预训练学到的表示具有很好的泛化能力,能够适应不同的注意力模式。
当前的研究还揭示了NEPA技术的一些局限性。在线性探测实验中,NEPA的表现不如一些专门设计的表示学习方法。这是因为NEPA的输出表示非常接近原始的嵌入层特征,主要的表示能力存储在预测器部分。这种设计选择是有意为之的,因为它使得整个系统更加简洁统一。
研究团队还分析了一些失败案例,发现NEPA技术在处理包含复杂反射、阴影和遮挡的场景时仍有改进空间。在多物体重叠的复杂场景中,模型有时会产生不一致的预测。这些问题反映了当前训练数据集的局限性,也为未来的改进指明了方向。
从更宏观的角度来看,NEPA技术代表了计算机视觉领域的一个重要转变。传统的方法往往专注于学习静态的视觉表示,而NEPA技术将重点转向学习预测模型本身。这种范式转变与自然语言处理领域的发展轨迹相呼应,语言模型的成功正是基于这种生成式预训练的思想。
这种统一的预训练范式还暗示着更广阔的可能性。研究团队指出,现代大型语言模型越来越多地采用绑定嵌入的设计,即输入和输出嵌入矩阵共享参数。这种设计本质上就是在嵌入空间中进行下一个token预测,与NEPA的核心思想完全一致。这意味着,不同模态的数据可能可以在统一的框架下进行训练,为多模态人工智能的发展开辟了新的道路。
展望未来,NEPA技术还具有向生成式建模扩展的潜力。通过与合适的图像解码器或扩散模型结合,同一个自回归嵌入预测器可以用于图像生成或编辑任务。这种统一的架构能够在表示学习和生成建模之间架起桥梁,为构建更加通用的视觉智能系统提供可能。
归根结底,NEPA技术的成功证明了一个重要观点:有时候,最简单的想法往往最有效。通过回归到最基本的预测原理,研究团队创造出了一种既简单又强大的视觉学习方法。这种方法不需要复杂的工程技巧或者精巧的理论设计,只是忠实地模仿了人类视觉认知的基本过程。正如研究团队在论文中所说,他们提供的不仅仅是一个新算法,更是一种新的视角:自回归预测的简洁性,当恰当地应用于视觉领域时,能够帮助统一不同模态之间的预训练范式。这种统一性可能是人工智能向更通用智能发展的关键一步。
Q&A
Q1:NEPA技术是如何工作的?
A:NEPA技术像拼图游戏一样工作,把图片切成小块,让机器按顺序观察这些片段,每看到一片就预测下一片应该是什么样子。机器不需要重建每个像素,而是在抽象的"嵌入空间"进行预测,就像我们用概念描述图片而不是记住每个细节。
Q2:NEPA技术比其他图像识别方法有什么优势?
A:NEPA最大的优势是简单高效。它只需要一次前向传播,不需要复杂的解码器或对比学习的负样本,训练过程比传统方法简单得多。同时它在ImageNet分类上达到了83.8%到85.3%的准确率,与最先进方法相当,但架构更简洁。
Q3:NEPA技术能应用到哪些实际场景中?
A:NEPA技术可以广泛应用于各种计算机视觉任务。它已经在图像分类和语义分割任务上取得优秀表现,未来还可能扩展到图像生成和编辑领域。由于其简洁的架构设计,它可以很容易地适配到不同的应用场景中。





京公网安备 11011402013531号