当前位置: 首页 » 资讯 » 新科技 » 正文

通义千问首个文生图模型开源:破解AI图像生成“写字”难题,复杂中英文渲染效果惊艳

IP属地 中国·北京 编辑:吴婷 凤凰网科技 时间:2025-08-05 08:05:39

8月5日,通义千问官方宣布开源一个20B的MMDiT模型Qwen-Image,这是通义千问系列中的首个图像生成基础模型,在复杂文本渲染和精确图像编辑方面进展显著。

该模型具备卓越的文本渲染能力、一致性的图像编辑能力及强大的跨基准性能表现

在多个公开基准测试中,包括Geneval、DPG、oneIG - Bench(通用图像生成),GEdit、ImgEdit、GSO(图像编辑)以及LongText - Bench、ChineseWord、TextCraft(文本渲染)等,Qwen-Image在各类生成与编辑任务中均获得SOTA。

在性能表现上,Qwen-Image能在不同场景中实现高保真文本渲染。例如,在海报制作中,它不仅能准确展示海报风格,还能保留人物姿势和神态刻画,准确生成指定的中英文文字;在分模块案例中,能完成排版并生成各部分的图标、标题和介绍文本;除此之外,即使纸张面积小且段落文字长,也能准确生成文字,还可在双语间灵活切换。

同时,Qwen-Image 在通用图像生成方面支持多种艺术风格,从照片级写实到印象派绘画,从动漫风格到极简设计,能灵活响应创意提示。

通义千问表示,希望Qwen-Image能进一步推动图像生成领域发展,降低视觉内容创作技术门槛,激发更多创新应用可能,同时期待社区积极参与和反馈,共同构建开放、透明、可持续发展的生成式AI生态。

目前,该模型已在魔搭社区与Hugging Face开源。

标签: 文本 模型 中英文 图像 开源 文生 通义 效果 能力 文字 风格 视觉 绘画 动漫 印象派 图像编辑 难题 写字 面积 段落 神态 性能 编辑 积极参与 姿势 刻画 基准 任务 社区 人物 标题

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。