当前位置: 首页 » 资讯 » 新科技 » 正文

推特争论引发学术新发现!谢赛宁团队发布 iREPA,仅需 3 行代码!

IP属地 中国·北京 编辑:江紫萱 Chinaz 时间:2025-12-17 12:26:57

最近,谢赛宁团队的新作 “iREPA” 便是源于一场持续了四个月的推特辩论。这场论战虽以谢赛宁的让步为结局,却意外催生了一篇重要论文,展示了新颖的研究思路。

事件的起源可以追溯到八月份。当时,一位网友在推特上提出了关于自监督学习(SSL)模型的看法,认为它们应该专注于稠密任务,因为这些任务依赖于图像的空间和局部信息,而不仅仅是全局分类性能。谢赛宁对此提出了反驳,认为全局性能与稠密任务并没有直接关系。

网友们展开了热烈的讨论,其中一位网友还分享了可以与 REPA 进行比较的方案。这个讨论激发了谢赛宁的兴趣,并促使他深入探索这一问题。几个月后,谢赛宁表示,自己之前的看法被修正,并且这篇论文的研究为理解视觉编码器的生成能力提供了新视角。

在这篇论文中,研究者们探讨了在预训练视觉编码器中,究竟是哪些部分决定了生成模型的表现。结果显示,空间结构的信息,而非全局语义,才是驱动生成质量的关键因素。传统观点认为更好的全局语义信息能提升生成效果,但研究表明,实际上较低准确率的视觉编码器往往能实现更好的生成性能。

为了解决这一问题,研究者们提出了 iREPA,这一新框架仅需三行代码即可整合到任何表示对齐方法中。通过对 PA 的改,如用卷层替换传统的 MLP 投影层,研究者们成功强化了空间结构信息,显著提升了生成性能。

这次学术讨论不仅展示了开放和的科研氛,更强调了通过交流和实验获取知识的重要性。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。