这项由以色列理工学院(Technion)与麻省理工学院CSAIL联合开展的研究,以预印本形式于2026年6月发布在arXiv平台,论文编号为arXiv:2606.03715。研究聚焦于文字生成图像(Text-to-Image,简称TTI)模型中,文本编码器所提供的信息究竟被图像模型使用了多少这一核心问题。
![]()
当你打开Midjourney、Stable Diffusion或者FLUX这类AI画图工具,用一段描述文字生成一张图片时,你可能会觉得这个AI非常聪明——它理解了你说的每一个词,甚至理解了这些词之间的关系,比如"红色的盒子放在黑色的盒子上面"和"黑色的盒子放在红色的盒子上面"是两种截然不同的场景。
但这项研究却揭示了一个反直觉的事实:这些AI画图模型,很可能从来没有真正"读懂"你的句子结构。它所依赖的,远比我们以为的少得多。
**一、为什么我们以为AI在认真读句子**
在深入了解这个发现之前,需要先搞清楚AI画图工具是如何工作的。整个过程可以用一个传递游戏来理解:你输入的文字,首先经过一个"翻译官"——也就是文本编码器(text encoder),这个翻译官把文字转化成一串数字信号;然后这串数字信号被交给"画家"——也就是图像生成模型,画家根据这些信号生成图片。
多年来,AI研究者们一直在努力让这个"翻译官"变得越来越聪明。早期的系统使用CLIP这种相对简单的编码器,后来的Imagen使用了拥有110亿参数的超大型语言模型T5,最新的FLUX.2甚至使用了参数量高达300亿的Qwen大语言模型作为翻译官。这背后隐藏的假设是:翻译官翻译得越精确、越丰富,画家画出来的东西就越符合你的要求。
翻译官的能力确实越来越强。现代文本编码器能够理解"组合关系"(哪个形容词修饰哪个名词)、"空间关系"(谁在谁的左边或右边)、"数量关系"(几只猫、几朵花),以及句子中词语之间错综复杂的语义联系。研究者们理所当然地认为,画家在作画时充分利用了这些信息。
然而,以色列理工学院的研究团队开始质疑这个假设。他们的核心问题是:画家真的在用翻译官提供的所有丰富信息吗?还是说,画家其实只需要翻译官提供最基本的内容就够了?
**二、剥洋葱实验:一层一层剥掉文字里的信息**
为了回答这个问题,研究团队设计了一个非常精妙的实验。他们的思路是:不改动画家(图像生成模型),只改动翻译官提供的"翻译稿",看看翻译稿被精简到什么程度,画家还能画出符合要求的图片。
具体来说,他们构建了三种逐步精简的"残缺翻译稿",每一种都去掉了一些原本存在于翻译稿中的信息。
第一种叫做"词元袋"(Bag of Tokens,简称BoT)。在正常的翻译过程中,翻译官在翻译每个词的时候,会同时参考整个句子的上下文,就像你翻译"苹果"这个词时,会根据前后文判断它是水果还是科技公司。词元袋的做法是:把这种上下文彻底移除。对于句子中的每一个词汇片段,研究者们收集了大量完全不相干的句子中包含同一词汇片段的例子,把这些翻译结果取平均值。这样得到的翻译,每个片段都只代表它自己最普遍、最泛化的含义,完全不知道自己身处什么样的句子环境里。
第二种叫做"词袋"(Bag of Words,简称BoW)。这种做法在词元袋的基础上做了一个小改进,它解决了一个技术细节问题:很多词在被AI处理时会被拆成几个片段,比如"cube"(立方体)会被拆成"cu"和"be"两个片段。词元袋的做法会让这两个片段各自独立,分别去找各种不相干的句子求平均,但这样一来就产生了歧义——"cu"和"be"组合成"cube",和"be"单独代表动词"是"是完全不同的含义。词袋方法在去掉上下文的同时,保留了同一个词的各个片段之间的联系,确保"cu"和"be"只在它们共同组成"cube"这个词的场合下一起被处理。
第三种叫做"带位置标签的词袋"(Bag of Position-Tagged Words,简称BoPTW)。这是最丰富的一种"残缺翻译稿"。它在词袋的基础上,额外保留了每个词在句子中所处的位置信息。具体做法是:在求平均值时,只选取那些目标词出现在句子相同位置的例子。比如"red"(红色)这个词在原句中排在第2个位置,那么就只收集"red"同样出现在第2个位置的句子来求平均值。
这三种残缺翻译稿有一个共同点:它们都只包含单个词汇本身的信息,完全不包含词汇之间的任何语义关系。用最直白的话说,它们就是一堆互不相干的词,只是被堆放在一起,没有任何关于"谁修饰谁"、"谁在谁的旁边"、"谁对谁做了什么"这类信息。
**三、实验震惊了研究团队自己**
研究团队把这三种残缺翻译稿分别输入给三个不同的AI画图模型——SD 3、FLUX.1 Schnell和FLUX.2 Klein-4B,然后用一个视觉语言模型(Gemma-3)作为裁判,盲测比较残缺翻译稿生成的图片和完整翻译稿生成的图片哪个更符合原始文字描述。
结果出乎所有人的预料。
即使是信息量最少的词元袋,在大多数测试场景中,生成图片的不劣率(也就是不比完整版差的比例)就超过了40%。换句话说,当AI只知道"这些词分别是什么",却完全不知道"这些词之间是什么关系"时,它仍然有将近一半的可能性画出和正常翻译稿一样好的图片。
稍微丰富一点的词袋方法,不劣率进一步提升到了大多数场景下超过50%。
而带位置标签的词袋方法,不劣率在大多数模型和数据集上都达到了65%以上。对照来看,完整的翻译稿的不劣率通常在70%到90%之间。这意味着,仅仅告诉AI"每个词是什么"加上"每个词排在第几个位置",就能达到完整翻译稿效果的接近水平。
这个发现意味着什么?意味着AI画图模型在绝大多数情况下,根本没有在利用文本编码器辛苦翻译出来的那些关于词语关系的复杂信息。那些被精心设计来捕捉"组合关系"、"属性绑定"、"逻辑依赖"的神经网络层,它们的工作成果,画家根本就没仔细看。
**四、位置信息:让AI区分"白盒放在黑盒上"和"黑盒放在白盒上"的秘密武器**
一个非常自然的问题是:既然只有词和位置信息,AI怎么区分"一只绿色的狗和一张蓝色的餐桌"与"一只蓝色的狗和一张绿色的餐桌"呢?这两句话包含完全相同的词,只是顺序不同,但场景截然不同。
研究团队发现,答案就藏在位置信息里。文本编码器在翻译每个词时,会把"这个词排在第几位"的信息编码进去。这个位置信息是词元嵌入(embedding,也就是词的数字表示)的一部分。研究者们用实验证明了这一点:从230K个词例中,他们测试了能否仅凭一个词的数字表示就猜出这个词在句子中的位置,结果是绝大多数情况下都能以零误差猜中。
正是这种位置编码让AI画图模型得以区分语序不同的句子。当AI看到"绿色"这个词出现在第3个位置,而"狗"出现在第5个位置时,它会把"绿色"和位置相近的"狗"联系起来,从而画出绿色的狗。这种位置感知并不需要翻译官告诉它"绿色修饰狗",画家自己就能从位置关系中推断出来。
文章中展示了大量令人印象深刻的视觉案例。比如"一只白盒放在黑盒上面"和"一只黑盒放在白盒上面",这两句话用完全相同的词,只是顺序不同。即使使用带位置标签的词袋这种不包含任何语义关系的翻译,AI依然能正确区分这两种情况,生成正确的图片。类似的,"一只猫喝姜茶"和"一只姜黄色猫喝茶"(英文中"ginger"既可以指姜黄色也可以指生姜),AI同样能正确处理。
**五、难不倒与难倒的:什么情况下这个方法会失败**
研究团队不仅测量了总体表现,还细致分析了哪类任务残缺翻译稿表现好、哪类任务表现差。
在Geneval基准测试中,"单个物体"这个类别表现最好。当你只是要求AI画"一只泰迪熊"或者"一张粉色的桌子"时,带位置标签的词袋方法与完整翻译稿的差距几乎为零,三个模型的不劣率分别达到了88%、90%和100%。毕竟,描述单个物体本来就不需要太多的词语关系信息。
颜色属性绑定、两个物体同时出现、计数这些任务的表现也相当不错,说明AI画图模型有能力从位置信息中自行推断出颜色和物体的对应关系。
然而,"文字渲染"这个类别则是最大的软肋。当你要求AI在图片中写出特定文字,比如"一块写着'Google Brain Toronto'的招牌"时,带位置标签的词袋方法的不劣率只有27%、37%和24%。这说明生成图片内嵌文字这类任务对文本信息的依赖程度远高于普通的图像内容生成,仅凭词和位置信息不够用。
空间关系(谁在谁的左边或右边)也是残缺翻译稿表现相对较差的领域,这说明精确的空间位置关系确实需要更丰富的文本理解。
从总体数字来看,在DrawBench和Geneval这两个专门考验AI文本理解能力的困难基准测试中,带位置标签的词袋方法的不劣率通常在50%到70%之间,而在更接近日常用途的MSCOCO数据集上,表现则更接近完整版翻译稿。
**六、老模型与新模型:为什么这个发现只适用于新型AI**
研究团队还做了一个非常有趣的对比实验。他们测试了两个较老的AI画图模型——SD 2.1和SDXL,看看这两个模型在残缺翻译稿下的表现。
结果形成了鲜明反差。SD 2.1的不劣率只有可怜的0.2%,SDXL也只有4%。也就是说,这两个旧模型在使用残缺翻译稿时,几乎完全无法生成符合要求的图片,生成的图像质量极差,看起来就像是从某个固定模式里随机取样出来的,完全不管用户输入了什么描述。
这个对比揭示了一个非常重要的规律:新型的DiT(扩散变换器,Diffusion Transformer)架构模型,和旧型的U-Net架构模型,在处理文本信息上有根本性的差异。旧模型把理解文字的工作完全交给了文本编码器,如果编码器提供的信息不够丰富,它就无从下手;而新型的DiT模型则在自己的内部发展出了理解语言结构的能力,它能够从简单的词汇和位置信息中,自行推断出词语之间的关系。
换句话说,随着AI画图模型架构的升级,越来越多的"语言理解"工作从翻译官那里转移到了画家自己身上。翻译官不再需要提供面面俱到的精细翻译,画家自己也能读懂大意。
**七、用更多维度验证这个发现**
除了视觉上的定性比较,研究团队还使用了多种客观指标来验证自己的发现,确保结论不是视觉错觉。
CLIP分数是衡量生成图片与文字描述匹配程度的常用指标,数值越高代表匹配度越好。实验数据显示,带位置标签的词袋方法在CLIP分数上与完整版翻译稿非常接近,差距非常小。以FLUX.1在DrawBench数据集上的表现为例,完整版得分33.5,带位置标签的词袋方法得分32.3;在Geneval数据集上,完整版得分33.7,词袋方法甚至达到了33.6,几乎相同。
衡量图片整体质量分布的FID和KID指标同样显示,使用残缺翻译稿生成的图片,在视觉质量上与使用完整翻译稿生成的图片相当,图片没有变得更模糊、更失真或更不自然。
研究团队还验证了一个有趣的技术细节:平均的句子数量对结果的影响。在构建残缺翻译稿时,研究者们从多个不相干的句子中对同一个词取平均值。他们测试了从1到10个句子的不同情况,发现无论用多少个句子来平均,生成的图片效果几乎没有区别。这说明即使只用一个完全不相干的句子,也能足够彻底地"清除"上下文信息,不需要用很多句子来确保清除效果。
**八、这个发现对AI发展意味着什么**
说到底,这项研究颠覆了一个在AI画图领域持续多年的隐性假设:更聪明的翻译官必然带来更好的画家。
长期以来,AI画图系统的设计者们都在努力升级文本编码器,从最初的CLIP(1.24亿参数),到T5(110亿参数),到现在的Qwen(300亿参数)。这种升级背后的逻辑是:翻译官越聪明,提供的语义信息越丰富,画家就能画得越好。研究者Wang等人此前也注意到文本编码器可能存在"过度参数化"的问题,但这个猜测从未被系统地检验过。
这项研究提供了第一个系统性的证据,证明这个假设在很大程度上是错误的。至少对于现代DiT架构的AI画图模型而言,文本编码器提供的那些关于词语关系的复杂语义信息,画家基本上没有在用。
这个发现对AI系统的设计有非常直接的启示。既然画家只需要知道"每个词是什么"加上"这个词排在第几位",那么未来的AI画图系统或许根本不需要一个拥有数百亿参数的大型语言模型来做翻译官。一个相对简单的系统,专门提供词汇级别的信息加上显式的位置标签,可能就足够了。这将大大降低AI画图系统的计算成本,同时不损失生成质量。
研究团队还提到了一个有趣的未来方向:如果把单个词的范围扩展到多词短语(比如"纽约市"、"咖喱鸡饭"这类固定搭配),效果可能还会进一步提升。
当然,这项研究也有其局限性。"文字渲染"等特定任务确实需要更丰富的文本理解,完整的文本语义信息在这些场景中仍然不可或缺。此外,研究只测试了三个特定的DiT模型,是否适用于所有类似架构的模型,仍需进一步验证。
归根结底,这项研究告诉我们一个有点令人哭笑不得的事实:我们花了很多力气教AI理解句子的精细结构,但AI画图模型自己发展出了一套独立理解这些结构的方式,并不需要文本编码器把一切都嚼碎了喂给它。复杂的语言理解工作,已经悄悄地从翻译官那里转移到了画家自己身上,只是我们之前没有注意到这一点。有兴趣深入了解实验细节和完整数据的读者,可以通过arXiv编号2606.03715查阅原始论文。
Q&A
Q1:带位置标签的词袋方法(BoPTW)是如何区分"白盒放在黑盒上"和"黑盒放在白盒上"这两种不同描述的?
A:BoPTW方法保留了每个词在句子中的位置信息。文本编码器会把"这个词排在第几位"编码进每个词的数字表示里,研究者通过实验证明了绝大多数词的位置可以以零误差从其数字表示中还原出来。AI画图模型从这种位置信息中自行推断出词语之间的修饰关系,比如排在相邻位置的颜色词和名词更可能属于同一物体,从而正确区分语序不同的句子。
Q2:为什么旧版AI画图模型(如SD 2.1和SDXL)在残缺翻译稿下完全失败,而新版模型却能成功?
A:旧版模型采用U-Net架构,它把语言理解的工作完全外包给文本编码器,自身没有发展出理解语言结构的能力,一旦翻译稿信息不足就无从下手。新版DiT(扩散变换器)架构的模型则在其强大的内部结构中发展出了自行理解语言关系的能力,可以从简单的词汇和位置信息中自己推断出词语之间的关系,不再完全依赖文本编码器提供完整的语义解析。
Q3:文字渲染任务(比如在图片中写出特定文字)为什么是残缺翻译稿表现最差的类别?
A:生成图片内嵌文字时,AI需要准确知道要写出的是哪几个具体字符,这些字符的确切序列和组合是极为精确的信息,仅凭词汇本身的泛化含义和位置信息不足以精确还原。与画一只泰迪熊不同,写"Diffusion"这个单词不允许任何偏差或替换,对文本语义信息的精确度要求极高,因此完整的文本编码器信息在这类任务中仍然不可或缺。





京公网安备 11011402013531号