![]()
这项由蚂蚁集团旗下Inclusion AI团队领导的重要研究发表于2025年10月,研究团队包括黄梓源、郑丹丹、邹程等众多研究员。论文题为《Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer》,感兴趣的读者可以通过arXiv:2510.06590查询完整论文,相关代码和模型已在GitHub、HuggingFace等平台开源。
AI看懂图片和创造图片,原本是两个完全不同的任务,就像一个人既要当翻译官又要当画家。以往的AI系统通常需要分别训练两套完全不同的"大脑"来处理这两种任务。现在,蚂蚁集团的研究团队找到了一种方法,让AI用同一套"视觉语言"既能理解图片内容,又能根据文字描述创造全新的图像。
这个突破性发现的关键在于他们开发的MingTok技术,可以比作一把"万能钥匙",能够将任何图片转换成一种特殊的"通用语言"。这种语言既保留了图片的详细信息,又能让AI轻松理解和操作。基于这项技术,他们构建了Ming-UniVision系统,这是一个真正统一的AI助手,能够在同一个对话中无缝切换between看图说话、根据描述画图、修改图片等多种任务。
更令人兴奋的是,这个系统支持多轮交互式编辑。你可以先让它画一幅画,然后要求它修改颜色,接着又要求它添加新元素,整个过程就像与一位既懂得欣赏艺术又擅长创作的朋友在协作。这种能力的实现得益于统一的视觉表示方法,避免了传统方法中反复转换不同格式所带来的质量损失和效率问题。
一、视觉理解与生成的"鸿沟"难题
要理解这项研究的重要性,我们首先需要认识AI在处理视觉任务时面临的根本挑战。当AI需要理解一张图片时,比如识别照片中的猫咪或者回答关于图像内容的问题,它需要提取高层次的语义信息,就像人类看到图片时会注意到"这是一只橘色的猫坐在蓝色沙发上"这样的概念性内容。
相比之下,当AI要创造图像时,它需要关注大量低层次的细节信息,比如每个像素点的具体颜色值、纹理如何过渡、光影如何分布等等。这就像画家作画时不仅要构思整体构图,还要精确控制每一笔的色彩和位置。
这两种需求之间存在天然的矛盾。理解任务偏爱高维度、富含语义的特征表示,而生成任务则需要紧凑的、能够高效编码视觉细节的低维表示。就好比一个人既要当文学评论家(需要深刻理解作品含义),又要当精密仪器操作员(需要精确控制每个细节参数),这两种角色对信息处理的要求截然不同。
传统的解决方案是为这两类任务分别设计不同的"专用工具"。理解任务使用类似CLIP这样的模型,它们擅长提取图像的语义概念,能够很好地将视觉内容与文字描述对应起来。生成任务则使用VAE(变分自编码器)这样的工具,它们专注于高效压缩和重建图像的像素信息。
这种分离式设计虽然各自都很有效,但当我们想要构建一个既能理解又能生成的统一系统时,就会遇到严重的问题。首先是架构复杂性的急剧增加,系统需要同时维护两套完全不同的处理流程,就像一个工厂需要两条完全不同的生产线。其次是优化困难,两个子系统之间可能会出现相互干扰,一个的改进可能会影响另一个的性能。
更重要的是,这种分离设计严重限制了多轮交互的能力。当用户想要进行复杂的图像编辑任务时,比如先生成一张图片,然后基于对这张图片的理解进行修改,系统就需要在不同的表示空间之间反复转换。每次转换都会带来信息损失和计算开销,就像在不同语言之间反复翻译一样,每次翻译都可能丢失一些微妙的含义。
二、MingTok:统一视觉表示的"万能钥匙"
面对上述挑战,蚂蚁集团的研究团队开发了MingTok,这是一个革命性的视觉标记器,能够用统一的连续表示同时支持理解和生成任务。如果把传统方法比作需要不同钥匙开不同门的复杂系统,那么MingTok就像是一把万能钥匙,能够打开所有的视觉任务之门。
MingTok的核心创新在于其三阶段的顺序架构设计。第一阶段是低层编码器,它将输入图像压缩成紧凑的连续潜在表示。这就像一位摄影师将丰富的视觉场景压缩成一张照片,保留了最重要的视觉信息同时大幅减少了数据量。这种压缩比达到了32倍,意味着一张512x512像素的图像被压缩成仅256个连续token。
第二阶段是语义解码器,它通过自回归的方式将紧凑的潜在序列逐步扩展成高维的语义特征。这个过程就像一个熟练的解说员,能够从简洁的提纲中展开丰富详细的故事内容。语义解码器采用因果注意力机制,确保能够支持逐token的自回归生成过程。
第三阶段是像素解码器,它负责从高维语义特征重建出原始图像。这个组件就像一位技艺精湛的画家,能够根据抽象的概念描述创造出具体的视觉作品。为了提高重建质量,像素解码器在transformer块之前应用了像素反混洗层,有效增加了视觉token数量并减少了有效补丁大小,从而显著改善了纹理保真度和边缘清晰度。
整个系统的训练采用了多任务学习框架,基于掩码图像建模范式。训练过程包含三个互补的目标。首先是结构化潜在空间正则化,通过掩码特征预测来训练低层编码器和潜在空间,使用预训练的视觉基础模型(如DINOv2)作为监督信号。这确保了潜在空间具有丰富的语义和结构先验,为自回归视觉生成提供了必要的基础。
其次是可扩展的语义表示学习,同样采用掩码特征预测范式来训练语义解码器。具体而言,来自低层编码器的紧凑潜在序列(部分token被掩码)通过语义解码器自回归地扩展为高维语义特征序列。被掩码位置的扩展语义特征由与文本语义在预训练期间对齐的视觉主干(如CLIP)的特征表示进行监督。
最后是像素重建目标,在掩码和非掩码两种条件下训练像素解码器,其中观察到的和被掩码的补丁的表示都被像素解码器接收,然后学习重建完整图像。这种双重设置监督迫使解码器即使在一些潜在特征缺失或噪声的情况下也能恢复细粒度细节,模拟了自回归生成过程中token逐个生成的情况。
三、Ming-UniVision:真正统一的多模态系统
基于MingTok的强大能力,研究团队构建了Ming-UniVision,这是一个真正统一的多模态大语言模型,能够在单一框架内无缝处理图像理解、生成和编辑任务。这个系统的设计理念就像建造一座多功能建筑,所有不同的功能区域都使用相同的建筑语言和结构体系。
Ming-UniVision的统一性体现在两个关键方面。首先是统一的视觉输入表示。无论是理解任务还是生成任务,语言模型都始终接收由语义解码器产生的高级语义特征。在图像理解中,这种表示来源于真实图像,输入首先通过低层编码器编码为紧凑的连续潜在表示,然后通过语义解码器生成丰富的、与文本对齐的视觉嵌入。由于整个图像可以预先获得,所有语义token都是并行计算的。
在自回归图像生成中,语言模型不是编码观察到的图像,而是通过视觉头逐个token地生成紧凑潜在表示。每个生成的潜在token立即通过语义解码器扩展为对应的语义特征,然后作为下一个token预测的上下文输入反馈给语言模型。这确保了多模态交互的统一接口,无论视觉内容是感知的还是合成的。
其次是统一的下一个token预测范式。在输出侧,两种模态都在共享的序列建模范式下自回归生成。文本token使用标准的语言模型头进行预测,保持与预训练LLM的完全兼容性。对于视觉内容,每个token的视觉头附接到语言模型以逐个补丁地预测紧凑的连续潜在表示,实现了在同一自回归框架内文本和图像生成的无缝交错。
这种视觉头的设计借鉴了最近关于统一多模态建模的工作,但包含了两个关键的结构改进。首先,研究团队用整流流预测目标替换了基于扩散的去噪头,这允许更快的收敛和更少的推理步骤。其次,他们在标准MLP块的位置采用了基于SwiGLU的前馈网络,在相同参数预算下经验性地改善了潜在预测精度和最终图像质量。
统一的输入表示和下一个token预测共同使得单一模型能够普遍处理理解、生成和编辑,简化了多轮上下文图像理解、生成和操作的架构。系统能够无缝支持多轮、上下文内任务,如迭代理解、生成和编辑。通过将理解和生成都表述为共享连续空间中的下一个token预测,它无缝支持多轮、上下文内任务。
四、多轮交互式图像理解、生成和编辑
Ming-UniVision最令人印象深刻的能力之一是支持复杂的多轮交互式图像编辑。这种能力就像拥有一位既是艺术鉴赏家又是画家的助手,能够在连续的对话中理解你的意图,创作图像,并根据你的反馈进行精确修改。
传统的统一视觉语言模型在支持高效和可扩展的多轮上下文图像生成方面面临着几个主要障碍。首先,扩散变换器在结构上无法进行多轮上下文编辑。FLUX.1等扩散变换器在架构上被设计为每次前向传递生成固定数量的图像。在训练期间,扩散变换器被配置为基于预先确定数量的参考图像生成图像,导致静态的输入输出结构。这种刚性限制了它们动态扩展生成序列或在单一上下文内灵活交错图像编辑步骤的能力,使它们不适合自适应的多轮任务。
其次,混合自回归扩散设计面临双分支开销。这类设计集成自回归和每图像扩散以实现上下文内多轮生成和编辑。虽然双分支架构支持多轮生成,但它引入了显著的计算和实现开销。在训练计算开销方面,混合模型为每个图像维护多个不同的表示,即用于理解的语义特征、用于去噪的噪声潜在表示和用于调节未来步骤的干净潜在表示。这显著增加了训练期间的有效token序列长度,导致更高的内存消耗和更长的训练时间。
在训练复杂性方面,需要非常规的注意力掩码方案来管理跨特征空间和跨轮次的依赖关系。来自先前生成轮次的噪声token在后续生成步骤中被掩码掉,确保只有干净的潜在表示在未来的图像生成过程中被观察到。不同的掩码策略被应用于不同的特征空间:语义特征上的因果注意力和图像潜在表示上的完全注意力以支持全局去噪。
在推理效率方面,多轮生成需要异构空间之间的频繁转换:潜在空间(生成)→像素空间(通过VAE完全解码)→特征空间(通过理解编码器的语义编码)。每轮生成后,需要完整的解码编码周期,增加了延迟和计算开销。
第三类方法是统一自回归但采用分离标记化。这种架构采用单分支自回归循环,在共享序列建模框架内统一理解、生成和编辑。与自回归扩散混合模型相比,它们的统一架构通过依赖单一的下一个token预测目标简化了训练和推理,消除了对复杂掩码方案的需要。然而,它们仍然依赖于理解和生成的不同表示,这需要在多轮编辑期间在域之间频繁转换。在训练期间,语义和生成token序列都被并行处理,有效地将输入长度加倍并增加内存和计算开销。因此,尽管架构简化,统一自回归模型仍然继承了混合方法的关键低效率,特别是在延迟和可扩展性方面的迭代编辑场景。
相比之下,Ming-UniVision在单一连续token空间内统一理解和生成。这是通过MingTok启用的统一输入表示实现的,它允许语义解码器的高维特征被重用作生成或编辑的条件输入,而无需昂贵的像素空间绕行。这种设计支持高效的上下文内交互,实现可逆编辑、忠实重建和迭代细化,同时在潜在空间中保持完整上下文。
这种设计在推理期间实现了无缝的就地迭代工作流:生成图像后,其语义特征表示在潜在空间中保持。对于下一步,语义特征与新的文本指令(例如"添加帽子")连接并反馈到模型中以产生更新的语义特征。因为整个过程纯粹在潜在空间中执行,绕过了昂贵的像素空间重编码,它避免了累积质量退化,保持了视觉保真度,并支持低延迟、多轮编辑和生成,可以流畅地交错图像理解和自由形式内容创建。
五、创新的"视觉化思维链"推理
研究团队还开发了一种独特的"视觉化思维链"(Visualized Chain-of-Thought)方法,这是一种全新的图像编辑范式。如果说传统的AI图像编辑就像一个魔术师直接变出结果,那么视觉化思维链就像一个透明的艺术家,会先用彩色标记显示打算修改的区域,然后再执行具体的编辑操作。
这种方法的工作原理非常直观。当用户提出图像编辑请求时,系统首先生成一张中间图像,其中需要编辑的区域被彩色覆盖层高亮显示。这个过程就像一位建筑师在施工前先用不同颜色标记出需要改造的区域。随后,系统基于这些视觉线索生成最终的编辑结果。
与传统的文本思维链推理不同,视觉化思维链完全在视觉域内进行推理。它不需要将推理输出转换为编辑掩码然后再编码以调节图像编辑过程,而是直接利用可视化上下文来指导编辑。这种端到端的视觉推理和生成框架实现了理解和编辑的无缝集成,提高了图像编辑工作流的透明度和效率。
为了构建训练数据,研究团队参考了UniWorld-V1的方法,通过计算编辑图像与其参考图像之间的差异来获得编辑区域。结果编辑区域掩码然后作为中间输出覆盖在参考图像上用于视觉推理。编辑图像然后用作最终期望输出,形成两步骤的视觉化思维链图像编辑范式。用于视觉生成和理解的统一特征空间使得这种多图像生成框架能够端到端训练。
实验结果显示,视觉化思维链方法在语义一致性方面表现出色,相比单步基线方法提高了0.5分。这种改进归因于中间视觉推理结果引入了强空间先验并减少了编辑歧义。定性结果进一步表明,模型能够准确识别需要编辑的区域,为后续的精确编辑提供了可靠基础。
六、训练策略与系统优化
Ming-UniVision的训练采用了精心设计的多阶段策略,就像培养一个全才艺术家需要循序渐进的过程。整个训练分为预训练和监督微调两个主要阶段,每个阶段又包含多个子阶段,以确保系统能够稳定地获得理解、生成和编辑能力。
预训练阶段包含两个关键步骤。第一步是MLP和整流流头预热,在这个初始化阶段,研究团队专注于训练MingTok和LLM之间的MLP连接层,以及用于潜在预测的每token视觉头。MingTok和LLM主干在此阶段保持固定。训练数据混合包含大约30%的理解任务和70%的自回归生成任务,这种配置同时预热了视觉到语言和语言到视觉的路径。
第二步是联合图像理解和生成预训练,旨在使用大规模图像文本数据构建强大的单轮视觉语言能力。由于每token整流流头的预测仅限于当前token,它依赖语言模型来建模视觉token之间的序列关系。因此,在这个阶段,研究团队解锁了语言模型,允许它在自回归生成期间捕获token间结构。
为了在不破坏预训练潜在空间稳定性的情况下增强细粒度视觉感知,研究团队引入了混合分辨率训练并选择性地只解锁MingTok的语义解码器,保持低层编码器固定。在理解任务期间,图像被调整为1024×1024分辨率,语义解码器学习产生与文本语义对齐的高保真、细节丰富的嵌入。对于文本到图像生成,考虑到计算效率和与预训练紧凑潜在空间的兼容性,输入保持在512×512。
这种设置使模型能够在理解期间感知细节,同时保持稳定、快速的生成,这对下游编辑和上下文内交互至关重要。训练数据包括大约25%的图像文本理解对、70%的文本到图像生成样本和5%的通用NLP任务。
监督微调阶段同样分为两个步骤。第一步专注于图像理解和生成,旨在使模型与标准视觉语言任务中的人类意图对齐。研究团队冻结MingTok并解锁其余部分,因为观察到在此阶段解锁语义解码器不会带来性能提升。此阶段继续采用混合分辨率训练,数据分布包括大约30%的理解任务、10%的NLP任务和60%的文本到图像生成。
第二步引入图像理解、生成和上下文内图像操作,为了实现多轮上下文感知指令,如迭代编辑和细化,研究团队引入了专注于图像生成和上下文内操作的最终微调阶段。他们构建了用于模型学习上下文内图像操作的指令链。训练策略遵循与第一步相同的策略,数据组成显著偏移为15%理解、5%NLP、35%标准文本到图像生成和55%单轮或多轮编辑任务。
七、多轮编辑性能的关键改进
为了提升多轮编辑的性能,研究团队深入分析了任务形式对多轮性能的影响,并提出了创新的改进方案。他们发现,大多数现有的统一架构要么不支持显式的多轮训练,要么在扩展到此类场景时必须在记忆中同时维护来自多个异构特征空间的token,这种异构性不仅在多轮训练期间使注意力机制复杂化,而且使顺序编辑过程更加难以优化。
基于这种观察,研究团队设计了两个基础比较实验来检验任务形式如何影响多轮性能。第一个是重建加编辑基线,这是一个标准的单轮设置,其中模型重建原始图像然后执行单次编辑。第二个是添加分割作为编辑的提议方法,它通过添加重建加分割编辑任务来扩展基线。具体而言,一部分训练样本被修改为需要重建后跟分割作为编辑操作,鼓励模型在其潜在空间内学习细粒度边界定位和语义一致性。
实验分析显示,在各个类别中,分割作为编辑在9个任务中的11个任务上改善了语义一致性,在运动变化任务上获得了最大的提升(+0.82分),在背景变化任务上提升了0.52分。平均语义一致性分数提高了0.41分,总体分数提高了0.33分,表明目标语义和总体输出质量的更好保持。感知质量在大多数类别中保持相当,反映出通过分割的结构正则化在不牺牲视觉保真度的情况下增强了一致性。
这些针对性的多轮鲁棒性改进形成了通向实际、真实世界工作流的自然桥梁,其中编辑经常通过长的、依赖的变换序列进行。在复杂顺序场景的定性分析中,统一架构的优势在创意实践典型的复杂顺序场景中最为明显,这正是现有技术因特征空间分裂和注意力复杂性而受到影响的情况。
八、广泛的实验验证与性能评估
研究团队对Ming-UniVision进行了全面的实验评估,涵盖了图像理解、视觉生成、图像编辑和图像重建等多个维度。这些实验就像对一位全才艺术家进行的全方位考试,验证其在各个领域的能力水平。
在多模态理解方面,Ming-UniVision在多个标准基准测试中表现出色。在MMStar、HallusionBench、AI2D和MM-Vet等评估语义推理和幻觉检测的测试中,系统显示出有竞争力的结果。这表明MingTok学习的共享语义表示对于通用视觉语言理解具有足够的表达力。然而,研究团队也诚实地承认了系统的局限性,在OCRBench和MMMU等需要细粒度识别的任务上存在性能差距,这主要是由于用于自回归生成的潜在空间的压缩性质以及语义解码器的因果架构所导致的。
在视觉生成能力方面,Ming-UniVision在Geneval基准测试中达到了最先进的性能水平。特别值得注意的是,系统在属性控制和空间推理方面表现卓越,在位置(0.92)、颜色(0.93)和颜色属性(0.70)子任务中超越了所有其他模型。在位置相关任务中的显著领先优势突出了模型卓越的组合控制能力。这种强劲的性能,结合统一架构固有的更快训练收敛,突出了共享语义空间在指导图像合成方面的有效性。
研究团队将这些改进归因于联合感知生成表示,这有助于语义基础和高效优化。在DPG-Bench测试中,Ming-UniVision同样展现了强劲的性能,得分达到82.12,在统一模型中表现出色。
在图像编辑性能方面,研究团队使用GEdit-Bench-EN进行评估,这是一个包含现实世界用户指令的基准测试,涵盖11个不同类别。性能通过三个指标进行衡量:语义一致性、感知质量和总体分数,全部在0-10的量表上。由于模型不依赖大规模交错预训练,研究团队发现理解和生成阶段之间的一致分辨率对于有效编辑至关重要。
实验结果显示,Ming-UniVision在单轮编辑质量方面达到了有竞争力的水平,同时在多轮成功率方面表现出色。虽然总体分数略逊于一些先前工作,但研究团队将这种差距主要归因于两个因素:缺乏大规模多模态序列预训练,以及连续标记器中的高每token细节密度,这两者都限制了在复杂指令下的当前保真度。
在图像重建能力方面,MingTok在32倍压缩比下运行,将512×512图像编码为256个连续潜在token的紧凑表示。在这种高压缩下,MingTok实现了0.54的rFID和30.77 dB的PSNR,表明强结构对齐和高像素保真度。在统一多模态模型的预训练过程中语义解码器经过联合训练后,重建质量进一步改善,LPIPS降至0.12,rFID降至0.38。这表明统一框架内的端到端优化增强了语义解码器保持精细纹理和全局语义的能力。
九、深入的消融实验与设计验证
为了验证设计选择的有效性,研究团队进行了全面的消融实验。这些实验就像拆解一台精密机器来理解每个部件的作用,帮助我们理解Ming-UniVision成功的关键因素。
最重要的消融实验关注统一表示对竞争任务的影响。研究团队设计了四种不同的配置:使用CLIP作为理解标记器和VAE作为生成标记器,使用CLIP作为理解标记器和MingTok作为生成标记器,使用MingTok作为理解标记器和VAE作为生成标记器,以及使用MingTok同时作为理解和生成标记器。
实验结果清晰地表明,统一表示对理解任务的重要性。当MingTok同时用作理解和生成标记器时,在平均性能上达到最佳,这意味着在统一表示空间中的预训练比在两个分离空间中具有更好的图像理解性能。进一步分析发现,在每个理解标记器组内,当VAE用作生成标记器时性能较差。这被认为是因为在联合训练期间,多模态大语言模型必须花费相当多的努力来对齐理解和生成表示空间。
从这个角度来看,由于VAE的特征更专注于细节并且语义信息较少,而MingTok的特征本身包含足够的语义信息,所以MingTok比VAE更容易与理解标记器的理解表示对齐。对于生成任务,MingTok展示了其作为图像生成标记器的能力。无论理解标记器是什么,MingTok作为生成标记器总是显示出相比其VAE对应物的显著改进。
研究团队假设这种优势可能来自MingTok的特征不仅包含用于图像重建的细节信息,还包含足够的语义信息,这可能会加速图像生成的收敛。此外,当MingTok既作为理解标记器又作为生成标记器时也获得了最佳生成性能,表明在统一表示空间中的预训练对图像生成任务比在不同表示空间中更有效。
为了进一步探索MingTok作为图像生成标记器的效果,研究团队还研究了生成任务的训练过程,包括两个额外的设置:使用MingTok的纯生成(表示为MingTok(G))和使用VAE的纯生成(表示为VAE(G))。从这些曲线中可以得出以下结论:仅生成模型比具有理解和生成能力的联合训练模型获得更优越的性能;MingTok作为图像生成标记器优于VAE;在统一表示空间中的联合训练最小化了图像生成任务中的性能退化。
十、技术局限性与未来发展方向
虽然Ming-UniVision展现了统一视觉建模的巨大潜力,但研究团队也坦诚地讨论了当前系统的局限性和改进方向。这种学术诚实就像一位工匠既展示作品的精彩之处,也指出需要进一步完善的地方。
当前编辑性能的局限性主要体现在两个方面。首先,模型缺乏大规模交错预训练,即在多样化编辑场景中交替文本和图像token序列的预训练。这种数据可以帮助模型在微调前学习可概括的编辑模式。没有这种预训练,模型严重依赖监督微调来获得编辑行为,这可能无法很好地概括到已见提示之外。这种限制在混合分辨率训练下尤为明显,其中生成和编辑在较低分辨率下操作,因此无法利用高分辨率理解训练期间学习的理解能力。
其次,由于为生成效率而设计的MingTok的高压缩比,每个潜在token编码大量视觉细节。这种高信息密度使得细粒度编辑具有挑战性,因为token中的小变化可能导致像素空间中的显著且通常不可控的变化。在未来的工作中,研究团队计划探索更高分辨率的标记化或更低的压缩比,以减少每token信息负载,从而提高生成和编辑的精度和质量。
在多轮和自由形式交错交互方面,虽然MingTok支持基本的上下文内编辑,但在更高级的交互模式方面仍有不足。在多轮编辑中,研究团队观察到模型难以概括到比训练期间看到的更长的编辑序列。更根本的是,模型在自由形式交错理解和生成方面仍有困难,例如任意排序的序列如"描述、生成、比较、修订、重新生成等"。当前专注于结构化、单向流的训练范式没有充分为模型在灵活、动态任务切换方面做好准备。
研究团队认为,生成和理解之间的相互增强是统一视觉表示不仅仅是架构选择,而是生成和理解之间相互增强的关键推动因素。通过跨任务共享相同的表示空间,MingTok允许在生成中学到的知识(如细粒度纹理合成和组合推理)有益于感知,而视觉理解为更可控和忠实的生成提供了基础、连贯的先验。研究团队观察到这种协同作用的早期证据:使用共享表示减少了纯生成和统一训练之间的性能差距,并减轻了当路径分歧时通常出现的任务竞争。
说到底,这项研究代表了向连续潜在空间中统一视觉语言建模的重要一步。虽然MingTok和Ming-UniVision在联合感知和合成方面展示了有希望的能力,但它们仍有局限性,特别是在细粒度编辑和理解方面。研究团队希望这种观点能激发研究社区进一步探索生成和理解的统一建模,朝着更集成和协同的多模态系统发展。
这项研究的意义远不止于技术突破本身。它为我们展示了一个未来的可能性:AI不再需要在不同任务之间切换不同的"大脑",而是可以用统一的方式理解和创造视觉内容。这种统一性不仅提高了效率,更重要的是开启了全新的交互可能性,让人机合作变得更加自然和流畅。随着技术的进一步发展,我们有理由相信这种统一的视觉建模方法将成为未来AI系统的重要发展方向。
Q&A
Q1:MingTok是什么?它与传统的图像处理方法有什么不同?
A:MingTok是蚂蚁集团开发的一种统一视觉标记器,能够用同一套"语言"既理解图片又生成图片。传统方法需要两套完全不同的系统分别处理理解和生成任务,就像需要不同钥匙开不同门,而MingTok就像一把万能钥匙,能够打开所有视觉任务之门,避免了在不同系统间转换时的信息损失。
Q2:Ming-UniVision的多轮编辑功能具体是怎么工作的?
A:Ming-UniVision的多轮编辑就像与一位既懂欣赏又会创作的艺术家朋友协作。你可以先让它画一幅画,然后要求修改颜色,接着又要求添加新元素。关键在于整个过程都在统一的"潜在空间"中进行,避免了传统方法中反复在不同格式间转换造成的质量损失,让编辑过程既快速又保持高质量。
Q3:这项技术对普通用户有什么实际意义?
A:这项技术让AI图像编辑变得更像人类的创作过程。普通用户可以通过自然对话的方式与AI协作创作和编辑图像,比如修复老照片(先提高分辨率再上色)、迭代设计(不断调整细节直到满意)、精确抠图等。最重要的是整个过程是连续的,不需要重新上传图片或使用复杂工具,就像在和朋友讨论创意一样简单。





京公网安备 11011402013531号