当前位置: 首页 » 资讯 » 新科技 » 正文

MiniMax联合华中科大开源VTP技术!仅优化视觉分词器,DiT生成性能飙升65.8%

IP属地 中国·北京 编辑:杨凌霄 Chinaz 时间:2025-12-24 10:24:30

AI视觉生成领域迎来范式级突破。MiniMax与华中科技大学近日联合开源其核心技术——VTP(Visual Tokenizer Pretraining,视觉分词器预训练),在不修改标准DiT(Diffusion Transformer)架构的前提下,仅通过优化视觉分词器(Visual Tokenizer),即实现65.8%的端到端图像生成性能提升。这一成果颠覆了“唯有堆大模型才能提性能”的行业惯性,首次将视觉分词器推向前所未有的技术高度。

不碰主模型,只改“翻译官”——性能却翻倍

传统生成模型(如DALL·E3、Stable Diffusion3)依赖DiT等主干网络提升性能,而VTP另辟蹊径:它将视觉分词器——即负责将图像压缩为离散token序列的“视觉翻译官”——作为核心优化对象。

关键在于,VTP无需改动DiT的任何训练流程或结构,仅在预训练阶段对分词器进行专门优化,使其输出的latent表征更易学习、更具通用性,从而让下游DiT“事半功倍”。实验显示,在相同DiT配置下,采用VTP的系统生成质量(FID、CLIP Score等指标)显著超越基线。

首次建立“分词器可扩展性”理论框架

VTP的突破不仅是工程优化,更提出全新理论视角:

- 首次明确将latent表征的易学性(learnability)与通用视觉表征能力关联;

- 首次证明分词器本身具备可扩展性(tokenizer scaling)——随着分词器容量、训练数据与预训练策略的增强,生成性能呈现清晰的scaling曲线;

- 为行业开辟“模型之外的性能增长路径”:未来或无需一味扩大DiT参数,而可通过优化分词器实现更高性价比的性能跃升。

开源即赋能,推动视觉生成民主化

目前,VTP代码、预训练分词器及训练配方已全面开源,兼容主流DiT实现。这意味着,任何使用DiT架构的研究者或企业,均可“即插即用”VTP,低成本获得近70%的生成质量提升,尤其利好算力有限的中小团队。

AIbase认为,VTP的发布标志着AI生成技术进入“系统级优化”新阶段。当行业从“唯大模型论”转向“全链路协同提效”,MiniMax与华中科大此次合作,不仅是一次技术胜利,更是对“高效AI”发展理念的有力践行——真正的创新,有时不在于造更大的引擎,而在于让每个零件都更聪明地协同工作。

代码:https://github.com/MiniMax-AI/VTP

论文:https://arxiv.org/abs/2512.13687v1

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。