![]()
视觉 Tokenizer 的困境与破局
近年来,自回归(Autoregressive, AR)模型在语言生成领域的成功激发了其在图像生成领域的应用,涌现出 DALL-E、Parti、VAR 和 LlamaGen 等代表性工作。这类技术高度依赖于 VQGAN 等视觉 Tokenizer,它负责将高维、冗余的像素空间映射到一个低维、紧凑的离散潜在空间,是决定生成模型上限的基石。
然而,以 VQGAN 为代表的传统 Tokenizer 通常需要从零开始训练,其训练目标由像素级重建损失函数主导,导致其产生的潜在空间:
富含低层细节特征却缺乏高层语义信息:能很好地还原图像细节,但潜在编码本身缺乏高层语义信息。较高的潜在空间冗余:VAGAN 基于图像块 (patch) 逐一进行量化,而图像中的物体通常是不规则的区域,基于图像块的量化降低了 tokens 的编码效率。无视结构特性的表征:潜在空间的组织较为混乱,使得生成模型不仅需要更长的训练时间来学习其潜在空间分布,而且往往得借助 CFG(Classifier-Free Guidance, CFG)等技巧来实现高保真度的图像生成,增加了模型推理时间。
与此同时,预训练的视觉基础模型(Visual Foundation Models, VFMs),如 CLIP、DINOv2、SigLIP2 等,在提取丰富语义且可泛化视觉特征方面表现出了强大的能力。这些模型通过自监督或语言监督的方式进行训练,它们能够有效抽象出图像中的高层语义信息,因此这些预训练的视觉基础模型大多应用于图像内容理解任务当中。直接将其应用于图像重建和生成任务上却鲜有人探索。
基于此,香港大学 CVMI Lab 和阶跃星辰 AIGC 团队提出一个大胆假设:原本为视觉理解任务设计的预训练视觉基础模型,其潜在特征是否也能直接作为图像重建与生成的鲁棒结构化表征?
为了验证这一猜想,我们探索了一个基础视觉模型新的应用新方向:用冻结的预训练视觉基础模型构造离散的视觉 Tokenizer,将其应用于图像重建和自回归图像生成任务上。
我们发现,相比于传统的视觉 Tokenizer 模型,视觉基础模型驱动的图像 Tokenizer 在这两项任务上均表现出优异的性能。
![]()
论文标题: Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Generation论文地址: https://arxiv.org/pdf/2507.08441Huggingface: https://huggingface.co/papers/2507.08441Github:https://github.com/CVMI-Lab/VFMTok.git (Vanilla version)https://github.com/CVMI-Lab/VFMTok-RAR.git (Ultra version)
探索性发现
为了验证视觉基础模型 (VFMs) 能否构造高质量的视觉 Tokenizer,我们首次尝试使用不同的冻结的预训练基础视觉模型 (VFMs) 提取图像特征,将其送入 VQGAN 的编码器中进行端到端训练。训练阶段只有量化器(quantilizer)和解码器中的参数会进行更新,随后用它完成自回归图像生成任务。
实验表明:冻结的视觉基础模型 (VFMs) 提取的图像特征可以直接用于图像重建,且训练好的视觉 Tokenizer 在自回归图像生成任务上的表现优于传统的视觉 Tokenizer 模型。
这一发现凸显了预训练视觉基础模型 (VFMs) 构造高质量视觉 Tokenizer 的巨大潜力。
![]()
核心思想
基于我们的探索性发现:冻结的视觉基础模型 (VFMs) 可以直接构造高质量的视觉 Tokenizer 并进行端到端地训练,我们对构造的视觉 Tokenizer 的结构进行进一步的优化 —— 利用视觉基础模型 (VFMs)提取图像的多层特征 (Multi-level Features Extraction),这有助于同时捕获图像中的低层细节特征和高层语义信息。
同时,我们注意到现有的量化机制 (quantization) 都是对图像块 (patch) 逐一量化,而图像中物体一般都是形状不规则的,因此我们设计了区域自适应的量化 (Region-Adaptive Quantization) 方案。该方案可以进一步降低潜在特征空间的冗余度,提高视觉 tokens 的利用效率。
此外,因为视觉基础模型的参数是冻结的,因此在重建图像内容的同时,我们也设计了语义特征重建的目标函数 (Semantic Reconstruction Objective),来提升视觉 Tokenizer 的语义保真度。我们将基于视觉基础模型 (VFMs) 的 Tokenizer 称之为VFMTok。
![]()
VFMTok 架构图
关键技术细节
多层图像特征提取 (Multi-level Features Extraction)
为了同时捕获图像低层细节特征和高层语义信息方便图像重建,VFMTok 采用冻结的预训练的视觉基础模型 (VFMs) 作为编码器提取多层级语义特征。VFMTok 按照等间隔的方式从预训练基础模型 (VFMs) 中提取多层特征 (multi-level features)。
区域自适应量化 (Region-Adaptive Quantization)
为了实现区域自适应量化 (Region-Adaptive Quantization) 机制,VFMTok 通过可学习「锚点查询」(Anchor Queries)结合可变形注意力机制(Deformable Attention)自适应地从多层级特征 (multi-level features) 中进行区域自适应的特征采样 (Region-Adaptive Sampling)。
这种方式能聚焦于采样图像中模式一致的区域。随后,VFMToks 对可学习「锚点查询」(Anchor Queries)进行量化 (quantization)。这种方式可以有效提升 token 的利用效率 —— 用更少的 tokens(256)来表征一张图像。
![]()
语义重建目标(Semantic Reconstruction Objective)
因为视觉基础模型在 Tokenizer 的训练阶段参数是冻结的,因此 VFMTok 在重建图像的同时,也会重建冻结的基础模型(VFM)最后一层的语义特征。
为了实现这一点,VFMTok 解码阶段设计了一个共享的轻量级 Vision Transformer(ViT)。这个 ViT 接收区域自适应量化后的 tokens,结合一个可学习的 mask token 以及一组可学习的位置编码(Positional Embedding)作为输入,分别产生用于图像重建和语义重建的特征。共享 ViT 的设计既减少了参数量又保证了语义保真度。其双重目标函数是:
![]()
![]()
训练完成后,VFMTok 可以被应用于图像自适应回归任务上,基于 next-token prediction 的方式生成高质量的图像内容。
实验亮点与分析
1.卓越的重建生成质量与效率
大量实验表明,基于视觉基础模型 (VFMs) 构造的视觉 Tokenizer——VFMTok,具备高质量、高效率的图像重建和自回归图像生成能力。
更好的图像重建质量:相较于传统的视觉 Tokenizer,VFMTok 可以用更少的 token 数量(仅用 256 个)实现更优的重建质量(0.89 rFID, 215.4 rIS)和更高的码本利用率 (100%),超越了之前大部分传统的离散 Tokenizers。
![]()
更快的生成训练收敛速度:相比于经典的 VQGAN 这类 Tokenizer,VFMTok 能够显著提升自回归模型训练阶段的收敛速度 ——训练收敛速度提升了 3 倍。
![]()
更好的生成性能:在 ImageNet 256x256 的 class-to-image 生成任务上,VFMTok-1.4B 模型在参数量更少、训练迭代次数更少的情况下,自回归生成性能超越了同类 LlamaGen-3B。此外,在接入更好的自回归图像生成框架 RAR 后,实现了SOTA 的图像生成性能(gFID: 1.36)。
![]()
CFG-free 优越性:值得注意的是,VFMTok 在有无 CFG 的情况下性能几乎一致(gFID: 2.07 vs 2.04),而 LlamaGen 则会从 2.19 急剧恶化至 9.38。这证明了其潜在空间具有极强的语义一致性,无需 CFG 即可实现高保真度的 class-to-image 图像生成,可以进一步减少图像生成时间。更快的推理速度:由于 tokens 数量减半(256 vs. 576),自回归模型的生成过程长度减半,推理速度因此获得了约 4 倍的提升。
2.消融实验的有力证明
仅使用冻结的 VFM 作为编码器,线性探针准确率(linear probing)就从 VQGAN 的 23.1% 提升至56.4%。引入区域自适应量化 (Region-Adaptive Quantization) 和语义特征重建 (Semantic Reconstruction Objective) 后,VFMTok 仅用 256 个 Token 就能在重建质量(rFID 0.89 vs 0.95) 上全面超越使用 576 个 Token 的 VQGAN 基线 Tokenizer。
![]()
总结与展望
VFMTok 首次证明了冻结的视觉基础模型 (VFMs) 提取的图像特征能有效用于图像重建与生成,同时可以提升 Tokenizer 语义表征能力,使自回归 (AR) 图像生成模型收敛更快,并能实现 CFG-free 的高保真图像合成。VFMTok 提出的区域自适应量化机制,通过有效利用图像区域的固有冗余实现紧凑编码,在减少视觉 token 数量的同时提升性能,实现高效且高质量的自回归图像生成。
大量实验验证了 VFMTok 在图像重建和自回归生成中的有效性,确立了预训练视觉基础模型 (VFMs) 构造高质量、高效率 Tokenizer 的主导地位。
由此可见,利用 VFM 的先验知识是构建高质量潜在空间的必由之路,也是构建下一代 Tokenizer 的关键,这比任何从零开始的正则化或约束都更根本、更有效。预训练视觉基础模型的巨大潜力值得我们在未来深入挖掘,最终可能探索出一个能够有效兼容所有生成模型的、语义丰富、高质高效的「统一 Tokenizer」。
VFMTok 论文与代码均已公开,欢迎感兴趣的同学阅读、复现以及深入讨论。
作者介绍
本文作者主要来自于香港大学 CVMI Lab 和阶跃星辰 AIGC 团队。阶跃星辰 AIGC 团队主要致力于图像生成底模、图像编辑底模、世界模型以及 RL 后训练研究和落地。欢迎志同道合的同学交流和加入,一起为 AIGC 社区贡献力量。





京公网安备 11011402013531号