当前位置：首页 » 资讯 » 新科技 » 正文

5秒出4张2K大图！阿里提出2步生成方案，拉爆AI生图进度条

IP属地中国·北京 量子位 时间：2026-01-31 01:10:59

允中发自凹非寺
量子位 | 公众号 QbitAI
AI生成一张图片，你愿意等多久？
在主流扩散模型还在迭代中反复“磨叽”、让用户盯着进度条发呆时，阿里智能引擎团队直接把进度条“拉爆”了——
5秒钟，到手4张2K级高清大图。
针对Qwen最新开源模型，将SOTA压缩水平从80-100步前向计算，骤降至2步（Step），速度提升整整40倍
这意味着，此前像Qwen-Image这样需要近一分钟才能吐出来的一张图片，现在真的成了“眨眼之间”。

目前，团队已将相应的Checkpoint发布至HuggingFace和ModelScope平台，欢迎开发者下载体验：
HuggingFace：https://huggingface.co/Wuli-art/Qwen-Image-2512-Turbo-LoRA-2-StepsModelScope：https://www.modelscope.cn/models/Wuli-Art/Qwen-Image-2512-Turbo-LoRA-2-Steps
同时，该模型已经集成到呜哩AI平台上（https://www.wuli.art）支持调用。
上述这种近乎“物理外挂”般的蒸馏方案，究竟是怎么做到的？一起来看。
传统轨迹蒸馏的“细节困境”
早期的蒸馏方案[1,2]，往往可以被归纳为轨迹蒸馏（Trajectory Distillation）
具体来看，其本身主要思想是希望蒸馏后模型（student model）能够模仿原模型（teacher model）在多步生成的路径：
Progressive Distillation：student model需要直接对齐teacher model多次迭代后的输出；Consistency Distillation：student model需要保证在teacher model的去噪轨迹上，输出相同的结果。
但在实践中，这类方法很难在低迭代步数下实现高质量生成。最突出的问题是生成图像模糊，这一现象在近期研究[3]中也得到了验证：

问题根源在于约束方式：轨迹蒸馏直接对student model的生成样本x_{student}做约束，使其在特定距离度量下对齐teacher预测出的高质量输出x_{teacher}，具体可以表达为：

其中$f(cdot)$是特定的距离函数，x_{teacher}是teacher经过多次去噪以后得到的输出。
可以看出，这一Loss对所有图像patch一视同仁，对于一些特别细节的部分（如文字、人物五官）因占比低而学习不充分，student模型的细节常出现明显扭曲。
从样本空间到概率空间，直接降低缺陷样本生成概率
近期，基于概率空间的蒸馏方案，在较少步数场景（4~8步）获得了巨大的成功，基本解决了上述的细节丢失问题。
其中最有影响力的工作之一是DMD2算法，这里具体的算法方案可以参考原论文[4]。
DMD2将约束从样本空间转换到了概率空间，其Loss设计为：

这是典型的Reverse-KL的蒸馏Loss，其本身有一个显著的特性：
当p_{teacher}(x_0)to 0，如果p_{student}(x_0) > 0，那就会有Loss to +infty。
这意味着：对于student model生成的每一张图片，如果它不符合真实图片分布（p_{teacher}(x_0)to 0），就会导致Loss爆炸。
因此，DMD2这类算法的本质思想是——不直接告诉student“应该模仿什么”，而是让student自己生成图片，然后让teacher model指导“哪里不对”
这种Reverse-KL Loss的设计，可以显著提升生成图片的细节性和合理性，已经成为当下扩散步数蒸馏的主要策略。
热启动缓解分布退化
尽管Reverse-KL可以显著降低不合理样本的生成概率，其本身也存在着严重的mode-collapse和分布过于锐化的问题[5]。
具体表现在多样性降低，饱和度增加，形体增加等问题上。这些问题在2步蒸馏的设定下变得尤为突出。
为了缓解分布退化问题，常见做法是给模型一个更合理的初始化[6]。在这里该团队使用PCM[7]蒸馏进行模型热启动。
实验表明，热启动后的模型的形体扭曲问题得到明显改善。

△左图为直接dmd训练，右图为经过PCM热启动后的2步模型，更好的初
对抗学习引入真实数据先验
如上所述，DMD2本质上是“学生生成—>教师指导”，蒸馏过程不依赖真实数据，这种做法有优有劣：
优势：极大提升方案普适性（高质量真实数据难获取）；局限：设定了天然上限——student永远学习teacher的生成分布，无法超越teacher。
同时由于loss设计的问题，DMD2蒸馏在高质量细节纹理（如苔藓、动物毛发等）上生成的效果，往往差强人意，如下图所示。

△左图为Z-Image 50步生成，右图为Z-Image-Turbo 8步生成，在苔藓
为了增强2步student model在细节上的表现能力，阿里智能引擎团队引入了对抗学习（GAN）来进一步提升监督效果。
GAN的Loss可以拆解为：
生成Loss（让生成图骗过判别器）：

判别Loss（区分真假图）：

这里x_0是student生成的图片，x_{real}是训练集中引入的真实数据，D(cdot)是判别器根据输入样本判断其为真实数据的概率。
简单来说，对抗训练一方面需要判别器尽可能判定student model生成的图片为假，另一方面需要student model尽可能欺骗判别器。
为了提升对抗训练的稳定性和效果，该团队做了如下改进：
真实数据混合策略：按固定比例混合高质量真实数据和teacher生成图，提升泛化度和训练稳定性；特征提取器引入：使用额外的DINO模型作为feature extractor，提供更鲁棒的特征表示；Loss权重调整：增加对抗训练在loss中的占比。
经实验验证，增加对抗训练后，student model的画面质感和细节表现发生显著提升：

△增加GAN显著提升画面真实性和细节
从应用效果出发，细节决定成败
极少步数扩散生成一直是一个重要的方向。
然而，单一算法方案受限于其本身的原理设计，往往不尽如人意。
阿里巴巴智能引擎团队正是从落地效果出发，逐个发现并分析蒸馏带来的效果问题（如扭曲、纹理确实），并针对性解决，才能使得最后的2步生成模型，最终达到工业场景可落地的水准。

然而，尽管在大多数场景下Wuli-Qwen-Image-Turbo能够和原模型比肩；但在一些复杂场景下，受限于去噪步数，仍存在可改进空间。团队在后续的release中将会持续发布速度更快、效果更好的生成模型。
接下来，他们将持续推出，并迭代更多扩散加速技术，并开源模型权重。
而以上这些突破的背后，离不开他们长期以来的深厚积淀——
作为阿里AI工程系统的建设者与维护者，团队聚焦于大模型全链路工程能力建设，持续优化研发范式，专注大模型训推性能优化、引擎平台、Agent应用平台等关键组件，致力于为阿里集团各业务提供高效稳定的AI工程基础设施。
智能引擎团队始终坚持开放共享的技术文化，此前已贡献了包括Havenask、RTP-LLM、DiffSynth-Engine、XDL、Euler、ROLL等在内的多项优秀开源项目。
未来，他们期待与开源社区共同成长，希望将更先进的工程能力转化为触手可及的创作工具。
该团队所有技术后续都会同步在呜哩AI平台上线，无论你是专业设计师、内容创作者，还是AI爱好者，呜哩或许都能让你的创意即刻成像。
参考文献：
[1] Progressive Distillation for Fast Sampling of Diffusion Models
[2] Consistency Models
[3] LARGE SCALE DIFFUSION DISTILLATION VIA SCOREREGULARIZED CONTINUOUS-TIME CONSISTENCY
[4] Improved Distribution Matching Distillation for Fast Image Synthesis
[5] ABKD: Pursuing a Proper Allocation of the Probability Mass in Knowledge Distillation via α-β-Divergence
[6] Transition Matching Distillation for Fast Video Generation
[7] Phased Consistency Models

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

英特尔确认下个月会有更多Arc GPU获得XeSS 3多帧生成：包括独显与核显

高通发布Wi-Fi 8前瞻：目标实现超高可靠性，关键来自物理层与MAC层

“最强攻击者”加盟腾讯：Sea AI Lab原研究科学家庞天宇将入职混元｜甲子光年

字节阿里DeepSeek决战春节：一场关乎14亿人的重磅AI大战

千问开源模型数破局400+，中国开源大模型下载量反超美国

顶流缺席，票池悬殊，微博之夜引热议，流量的公信力该如何平衡？

全站最新

英特尔确认下个月会有更多Arc GPU获得XeSS 3多帧生成：包括独显与核显

高通发布Wi-Fi 8前瞻：目标实现超高可靠性，关键来自物理层与MAC层

“最强攻击者”加盟腾讯：Sea AI Lab原研究科学家庞天宇将入职混元｜甲子光年

字节阿里DeepSeek决战春节：一场关乎14亿人的重磅AI大战

热门推荐

SK海力士称2025Q4存储库存大幅下降，预计到2026H2依然供应紧张

英特尔确认下个月会有更多Arc GPU获得XeSS 3多帧生成：包括独显与核显

高通发布Wi-Fi 8前瞻：目标实现超高可靠性，关键来自物理层与MAC层

“最强攻击者”加盟腾讯：Sea AI Lab原研究科学家庞天宇将入职混元｜甲子光年

字节阿里DeepSeek决战春节：一场关乎14亿人的重磅AI大战

千问开源模型数破局400+，中国开源大模型下载量反超美国

顶流缺席，票池悬殊，微博之夜引热议，流量的公信力该如何平衡？

获奖在校硕博每人50万，腾讯青云奖学金激励前沿科技探索

“数智驱动·创新未来”惠阳区工商联举办企业赋能大会，华为现场发布供应链合作需求

马斯克：最强对手来自中国

马斯克：特斯拉Optimus 4机器人将在得州超级工厂进行产能爬坡

苹果iPhone 17在中国卖爆，库克惊到了

5秒出4张2K大图！阿里提出2步生成方案，拉爆AI生图进度条

2026年网络安全等级保护技术学术交流活动在蓉召开

科学基座模型与科研智能体亮相人工智能开启科研“超级工厂”时代

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

首页

新科技

新金融

新零售

智能车

房地产

科技探索

人物资讯

网络游戏

人工智能

5秒出4张2K大图！阿里提出2步生成方案，拉爆AI生图进度条

传统轨迹蒸馏的“细节困境”

从样本空间到概率空间，直接降低缺陷样本生成概率

热启动缓解分布退化

对抗学习引入真实数据先验

从应用效果出发，细节决定成败