![]()
编辑|Panda
众所周知,LeCun 不喜自回归,并且还提出了一种名为联合嵌入预测架构(JEPA)的新方向,并且该方向也一直在有新成果涌现。
然而,自回归模型的成功也是有目共睹的,尤其是在语言领域。那么,生成式预训练在自然语言上的成功能否在视觉领域重现呢?
近日,密歇根大学、纽约大学、普林斯顿大学和弗吉尼亚大学的一个联合研究团队对此给出了肯定答案。
只不过,他们不是训练模型输出用于下游任务的特征,而是让它们生成嵌入(embeddings)以直接执行预测任务。可以说,这是从学习表征(learning representations)到学习模型(learning models)的一种范式转变。
具体而言,模型会通过因果掩码(causal masking)和停止梯度(stop gradient),以过去图块嵌入为条件,学习预测未来的图块嵌入。类似于下一 token 预测,该团队将这种方法称为下一嵌入预测自回归(Next-Embedding Predictive Autoregression),简称NEPA
![]()
论文标题:Next-Embedding Prediction Makes Strong Vision Learners论文地址:https://arxiv.org/abs/2512.16922v1项目地址:https://sihanxu.me/nepa/代码地址:https://github.com/SihanXU/nepa模型地址:https://huggingface.co/collections/SixAILab/nepa
该论文目前正是 alphaXiv 上热度第一的论文。
![]()
本文第一作者为 Sihan Xu,密歇根大学博士生,导师是密歇根大学电气工程与计算机科学系正教授 Stella X. Yu;这项研究的部分工作是其在纽约大学访问期间完成。纽约大学著名研究科学家谢赛宁也在作者名单中。
范式的转变
视觉预训练是计算机视觉的核心议题之一。自监督学习也已成为现代视觉预训练方法的基石,使得无需人工标签即可训练可扩展的视觉学习器。
其核心目标是学习表征(learn representations):优化模型,从而将原始像素映射到固定维度的表征,这些表征随后可被使用或针对下游任务进行微调。
这一哲学统一了基于实例判别(instance discrimination)、自蒸馏(self-distillation)和掩码重建(masked reconstruction)的方法。
其目标是学习能够被各种规模的下游模块(从轻量级的特定于任务的头到诸如视觉 - 语言模型等大型级联系统)所使用的视觉表征。
现代自然语言处理的成功则建立在一个根本不同的范式之上。
语言模型的预训练目标并不是作为特征提取器;而是作为生成式和预测式系统。其目标不是生成句子的静态嵌入,而是通过一个简单的因果目标(causal objective)对数据分布本身进行建模。
这种训练会迫使模型内化语言中的语义和条件依赖关系。推理不再是一个「编码→解决任务」的两阶段过程,而是由模型本身执行的单一预测计算。
这一区别至关重要,涉及根本。它表明:生成式预测(而非表征学习)可能提供了一条扩展预训练的直接途径。
最近的一系列研究已经转向了这一哲学。例如:
早期的像素级生成式预训练(iGPT)展示了可迁移的特征,但在处理超长序列和弱语义对齐方面表现一般。JEPA 超越了像素层面,通过预测潜在目标(latent targets)来更紧密地与语义结构对齐。然而,JEPA 依然是通过从动量编码器(momentum encoder)回归到潜在目标来进行训练,而不是将生成式预测作为自监督目标。
基于这些观察,Sihan Xu 等人想知道:极简的因果预训练是否也能产生强大的视觉学习器。
具体来说,图像被分解为图块(patches),这些图块再被映射为图块级嵌入的序列。然后训练一个因果 Transformer,在给定所有先前嵌入的情况下预测下一个嵌入,这与语言模型中的「下一 Token 预测」范式非常近似。
基于这些观察,Sihan Xu 等人想知道:极简的因果预训练是否也能产生强大的视觉学习器?
具体来说,图像被分解为图块(patches),这些图块再被映射为图块级嵌入的序列。然后训练一个因果 Transformer,在给定所有先前嵌入的情况下预测下一个嵌入,这与语言模型中的「下一 Token 预测」范式非常近似。
该团队对目标嵌入使用停止梯度(stop-gradient)以创建一个稳定的预测任务。这种形式是刻意保持极简的。它不需要像素级解码器、不需要离散的视觉 Tokenizer(分词器),也不需要对比学习中常见的工程化数据增强、负样本对或动量编码器。整个学习信号源于模型在嵌入空间中预测未来的能力。
于是乎,一个新的模型家族诞生了:下一嵌入预测自回归(NEPA)
下一嵌入预测自回归(NEPA)
整体来看,NEPA 方法是极简主义的。如果说现在的视觉模型都在比拼谁的装备更复杂(动量编码器、解码器、离散 Tokenizer……),那么 NEPA 就是那个穿着白 T 恤走进战场的选手。它的核心哲学非常简单:像 GPT 预测下一个词那样,去预测图像的下一个「特征块」。
![]()
其核心思路可以总结如下:
切块与编码:首先,把一张图切成若干小块(Patch),每一块通过编码器变成一个向量(Embedding)。预测未来:观看前面的块,猜下一块长什么样。这和语言模型(LLM)的「下一词预测」相似,只不过这里处理的是连续的数学向量,而不是离散的词。防止「作弊」:为了防止模型偷懒(比如输出一样的结果),作者借用了 SimSiam 的经典招数:停止梯度(Stop-Gradient)。简单说,就是让作为「标准答案」的那个目标向量保持静止,不参与反向传播。这就像是射箭时,靶子必须固定,不能让你把靶子移到箭射中的地方。
具体到架构设计上,他们采用了一个带有因果注意力掩码的标准视觉 Transformer(ViT)主干网络。
与像素级重建方法不同,该方法不需要单独的解码器。该 Transformer 直接根据过去的图像块嵌入来预测未来的图像块嵌入,使用单个主干网络同时进行上下文编码和预测,这与自回归语言模型类似。图像通过一个二维卷积(Conv2d)图像块嵌入层被分割成不重叠的图像块,并在输入到 Transformer 之前添加可学习的位置嵌入。
他们采用了带有层归一化(LayerNorm) 的预归一化设计,并对输出特征应用最终的层归一化。
为了提高稳定性和可扩展性,该团队该结合了受 DINOv3 和视觉大语言模型 VisionLLaMA 启发的现代训练和归一化方法,如图 2 所示。
![]()
这些模型设计有助于训练,但与核心框架无关,感兴趣的读者可参阅原论文以及相关论文。
训练好之后怎么用呢?换个「头」就行。下面是两个例子:
分类:取出最后一个预测出来的嵌入向量,接个简单的分类头,就能识别这是猫还是狗。分割:接一个 UPerNet 头。有趣的是,虽然训练时是「只看过去」的单向预测,但在做分割这种需要全局信息的任务时,可以解除封印,开启双向注意力(Bidirectional Attention),让模型看清全图。
总之,NEPA 证明了,只要你有一个好的预测目标,就不需要那些花里胡哨的架构,一个标准的 Transformer 加上「防坍塌」技巧,就能成为顶级的视觉学习者。
实验结果
在量化性能方面,NEPA 展现出了与 SOTA 方法相媲美甚至更优的实力。
仅在 ImageNet-1K 上进行预训练,NEPA 的 ViT-B 和 ViT-L 模型分别达到了 83.8% 和 85.3% 的 Top-1 准确率,这一成绩优于 MoCo v3、BEiT,并与 MAE 和 JEPA 处于同一水平。
![]()
更重要的是,尽管预训练过程中从未涉及像素重建,NEPA 依然表现出了强大的迁移能力,在 ADE20K 语义分割任务上分别取得了 48.3% 和 54.0% 的 mIoU,证明了纯粹的嵌入预测足以学习到处理密集预测任务所需的丰富语义特征。
![]()
最后,通过对模型内部注意力和嵌入的可视化分析,研究揭示了 NEPA 的有效性来源。
![]()
可视化结果显示,模型自动学会了长距离且以对象为中心的注意力模式,能够忽略背景干扰,将注意力集中在语义相关的区域。同时,预测出的嵌入向量在语义上与属于同一物体的其他图块高度相似,表明模型并非死记硬背局部纹理,而是真正理解了物体层面的结构。
这种通过简单的「下一嵌入预测」所习得的全局语义依赖,不仅验证了该方法的有效性,也为跨模态的统一预训练范式提供了一种无需复杂手工设计的通用视角。
消融实验和更多详情请参阅原论文。





京公网安备 11011402013531号