当前位置：首页 » 资讯 » 新科技 » 正文

ImageNet分数越高，生成反而越糊？iREPA给出解释

IP属地中国·北京 新智元 时间：2025-12-22 22:16:17

新智元报道
编辑：倾倾
学霸的谎言被揭穿！一篇来自Adobe Research的论文发现，高语义理解并不会提升生成质量，反而可能破坏空间结构。用iREPA简单修改，削弱全局干扰，生成质量立即飙升。
我们经常会疑惑：为什么视觉模型越高级，生成效果反而越差？
最近，Adobe Research发了一篇论文，专门解释了这个看起来有点反常、但反复出现的现象。

论文地址：https://arxiv.org/pdf/2512.10794
按直觉，模型要先知道「这是什么」，才能把它画出来。
ImageNet上的分类准确率越高，说明模型的语义理解越强，生成的内容越稳定、越靠谱。
但这篇论文给出的结果，完全相反：
一些在识别任务中表现平平、甚至看起来「很不聪明」的视觉编码器，反而能生成出结构更清晰、质量更高的图像。
全局语义能力越强，生成反而越容易出问题。
很可能我们从一开始，就误会了生成模型真正擅长的是什么。

为什么视觉模型越「聪明」，生成的反而越差？
先看一个已经被反复验证的事实：一个模型在ImageNet上的线性探测准确率越高，并不意味着它更适合用来做生成。
最直观的例子是SAM2。这是一个在识别任务里不出彩的模型，验证准确率只有24.1%，远低于主流视觉大模型。
但当这些编码器被用于REPA时，SAM2的生成质量反而优于一批准确率高出约60%的模型。

SAM2的ImageNet验证准确率仅为24.1%，但在REPA框架下的生成gFID明显优于多种准确率超过70%的视觉编码器。
这还不是某一个模型的偶然表现。
论文进一步比较了同一编码器家族中不同规模的模型，结果发现：模型越大、分类准确率越高，生成质量反而可能相似或更差。

随着模型规模和分类准确率提升，生成gFID反而整体变差，表明这一现象并非由个别模型导致。
显然，「高语义能力=好生成」这条默认路径，在大量实验中并不成立。
更关键的是，这种现象并不是噪声。
在跨模型、跨设置的系统性分析中，全局语义指标与生成质量之间的相关性始终非常弱。

分类能力与生成质量几乎无关，空间结构却高度相关。左：线性探测准确率与生成 gFID 的相关性极弱（Pearson r=-0.26）。中：空间结构指标（LDS）与生成质量呈现出显著强相关（Pearson r=-0.85）。右：基于空间结构改进的iREPA，在多种编码器上稳定优于REPA。
论文进一步对多种视觉编码器做了相关性分析，结果非常明确：
线性探测准确率与生成质量之间几乎不存在相关性。
相比之下，反映patch空间结构的指标，与生成质量呈现出极强的正相关关系。
如果不是「懂得多」，那生成模型到底依赖的是什么？
反复确认会压扁空间结构
在理解了「高语义≠好生成」之后，真正的问题变成了：
为什么模型越是反复确认，生成反而越容易出问题？
关键就是，全局语义会在生成过程中压扁空间结构。
在生成任务中，模型并不是一次性输出图像，而是在训练和采样过程中，不断对局部patch之间的关系做判断。
论文将这种能力概括为「空间结构」：即相邻patch之间应保持更高相似性，而远处patch不应被全局语义过早拉近。
但当模型过度追求全局语义一致性，比如通过CLS token ，或对所有patch做全局平均来强化「这是什么」，这些局部差异就会被系统性地削弱。
这种做法会导致一个直接后果：前景物体的patch，与本应无关的背景patch之间，出现异常高的相似性。
空间对比度下降，边界变得模糊，生成结果因此糊成一片。

PE-G和WebSSL-1B在ImageNet上具有更高的分类准确率，但它们的空间自相似性显示，前景与背景被过度拉近，边界模糊。相比之下，空间结构更清晰的SpatialPE-B，生成质量显著更好。
研究员向模型中逐步加入全局语义信息，观察分类能力和生成质量的变化。
结果如下图所示：

增强全局语义信息会损害生成质量
随着全局信息权重α从0增加到0.5，模型的线性探测准确率持续上升。
但生成质量却显著下降，FID明显恶化。
也就是说，「更懂这是什么」确实在发生；但与此同时，模型也失去生成所依赖的空间结构。
这并不是优化不充分的副作用，而是因为全局语义在生成阶段扮演了一个「过强约束」的角色。
它让模型更快达成结论，却也更早放弃了对局部结构的精细刻画。
既然语义会干扰生成，iREPA选择退后一步
如果说前面的实验回答了「问题出在哪」，那 iREPA 回答的就是另一个问题：
既然全局语义会干扰生成，那该怎么对齐表示，才不会把结构压扁？
iREPA给出了答案。它对原本的REPA训练流程做了两处非常简单的修改，总共不到四行代码。
第一处，是投影方式的改变。
在标准REPA中，patch表征通常会经过MLP投影层进行对齐。
但论文指出，MLP在这一过程中容易混合不同位置的信息，无意中削弱了空间对比度。
因此，iREPA用一个3×3的卷积层（padding=1）替换了MLP投影。
卷积的归纳偏置能保留局部邻域关系：相邻patch的相互影响被保留，远处区域则不会被过早混在一起。
第二处修改，直接针对全局语义。
iREPA在对齐过程中引入了一个空间归一化层，移除了patch特征中的全局均值分量，让模型专注于局部之间的差异与边界。

iREPA如何通过两处修改，恢复生成所需的空间结构。 (a) 使用卷积投影替代MLP，可更好地保留局部空间关系。 (b) 空间归一化层通过移除全局分量，提高patch之间的空间对比度。 (c) 经过这两步修改后，iREPA生成的diffusion特征呈现出更清晰的空间结构。
正是这两点改动，让iREPA在机制上与前一节的问题形成了严格对应：
全局语义太强会抹平结构，那就在对齐阶段削弱全局分量、强化空间关系。
结果也在意料之中。
无论是在ImageNet规模的生成任务，还是更高分辨率的设置，亦或是文本到图像的多模态生成任务中，iREPA都表现出更快的收敛速度和更好的最终生成质量。
更重要的是，这种提升并不依赖于某一个特定编码器。
在不同模型规模、不同视觉骨干网络、不同训练设置下，iREPA都能稳定改进。
这不仅是一个技巧，而是顺着生成任务本身对结构的需求，把表示对齐这件事做得更克制、更精细。
很多时候，我们讨论生成模型时，会下意识沿用一个标准。
但这篇论文提醒了我们，生成并不是理解的自然下游。
对生成来说，最重要的并不是「这是什么」，而是「哪些地方该靠近，哪些地方该分开」。
当我们一味强化全局语义，反复催促模型给出答案，其实是在替它提前下结论。
iREPA并没有试图让模型变得更聪明。它做的更像是退后一步，把空间还给空间，把结构还给结构。
结果不是理解能力的飞跃，而是生成质量的回归。
参考资料：
https://x.com/1jaskiratsingh/status/2000701128431034736?s=20
https://end2end-diffusion.github.io/irepa/
秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标，锁定新智元极速推送！

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

外卖“补贴大战”一年多，骑手经历了什么？

东风奕派联手华为乾崑，新车北京车展上市

小米Xiaomi miclaw通过中国信通院手机端智能助手（Claw）评估

“万分期待，我的下一辆车是中国电动汽车”

谷爱凌出席2026科学突破奖颁奖礼：与黄仁勋夫妇合影气质拉满

英伟达178美元“黄仁勋毛衣”走红，硅谷掀起CEO粉丝经济

全站最新

外卖“补贴大战”一年多，骑手经历了什么？

东风奕派联手华为乾崑，新车北京车展上市

小米Xiaomi miclaw通过中国信通院手机端智能助手（Claw）评估

“万分期待，我的下一辆车是中国电动汽车”

热门推荐

外卖“补贴大战”一年多，骑手经历了什么？

东风奕派联手华为乾崑，新车北京车展上市

小米Xiaomi miclaw通过中国信通院手机端智能助手（Claw）评估

“万分期待，我的下一辆车是中国电动汽车”

谷爱凌出席2026科学突破奖颁奖礼：与黄仁勋夫妇合影气质拉满

英伟达178美元“黄仁勋毛衣”走红，硅谷掀起CEO粉丝经济

雷军被人堵在车里维权引热议小米高管回应后：网友感慨小米被黑的太狠了

消息称谷歌正与Marvell洽谈合作开发两款AI芯片

美媒：联手马斯克、股价涨两倍，英特尔为何依然危险？

三星电子工会警告：罢工或致最高30万亿韩元损失

张雪：流量已成为甜蜜负担，每天被几十人围堵

“破冰”之后，2026年会成为脑机接口规模化应用元年吗？|科创观察员

DeepSeek筹划新一轮融资，梁文锋资金充足，核心人才纷纷跳槽至小米、腾讯、字节

估值百亿！DeepSeek启动首轮融资，AI大模型赛道再获资本青睐

机器人跑半马比人快，有意义吗？