当前位置：首页 » 资讯 » 新科技 » 正文

通义千问首个文生图模型开源：破解AI图像生成“写字”难题，复杂中英文渲染效果惊艳

IP属地中国·北京 编辑：吴婷凤凰网科技 时间：2025-08-05 08:05:39

8月5日，通义千问官方宣布开源一个20B的MMDiT模型Qwen-Image，这是通义千问系列中的首个图像生成基础模型，在复杂文本渲染和精确图像编辑方面进展显著。
该模型具备卓越的文本渲染能力、一致性的图像编辑能力及强大的跨基准性能表现。
在多个公开基准测试中，包括Geneval、DPG、oneIG - Bench（通用图像生成），GEdit、ImgEdit、GSO（图像编辑）以及LongText - Bench、ChineseWord、TextCraft（文本渲染）等，Qwen-Image在各类生成与编辑任务中均获得SOTA。
在性能表现上，Qwen-Image能在不同场景中实现高保真文本渲染。例如，在海报制作中，它不仅能准确展示海报风格，还能保留人物姿势和神态刻画，准确生成指定的中英文文字；在分模块案例中，能完成排版并生成各部分的图标、标题和介绍文本；除此之外，即使纸张面积小且段落文字长，也能准确生成文字，还可在双语间灵活切换。
同时，Qwen-Image 在通用图像生成方面支持多种艺术风格，从照片级写实到印象派绘画，从动漫风格到极简设计，能灵活响应创意提示。
通义千问表示，希望Qwen-Image能进一步推动图像生成领域发展，降低视觉内容创作技术门槛，激发更多创新应用可能，同时期待社区积极参与和反馈，共同构建开放、透明、可持续发展的生成式AI生态。
目前，该模型已在魔搭社区与Hugging Face开源。

标签：文本模型 中英文 图像开源文生通义效果能力文字风格视觉绘画动漫 印象派 图像编辑 难题写字面积段落神态性能编辑 积极参与 姿势刻画基准任务社区人物标题门

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

字节、阿里齐变阵，大厂“集中兵力”开打AI办公下半场

第一到第六，全是中国大模型

Anthropic回应开源争议，文字游戏还是商业霸权？

具身智能走到哪了：缺数据是共识，大模型“根基不稳”

一个模型控制机器人从头到脚所有运动，谷歌发布新一代机器人基础模型

见证创新力量！第二届“数龙杯”各项大奖依次揭晓

全站最新

字节、阿里齐变阵，大厂“集中兵力”开打AI办公下半场

第一到第六，全是中国大模型

Anthropic回应开源争议，文字游戏还是商业霸权？

荣耀官宣韩寒出任“荣耀影像创想家”

热门推荐

青岛芯聚产业投资基金登记成立出资额5.01亿

字节、阿里齐变阵，大厂“集中兵力”开打AI办公下半场

第一到第六，全是中国大模型

Anthropic回应开源争议，文字游戏还是商业霸权？

青岛芯聚产业投资基金登记成立出资额5.01亿

DeepSeek今年已增资65%

中信金石、青岛啤酒等成立文化科技投资基金出资额10亿

演员寇占文已被限消

马斯克辟谣特斯拉考虑出售中国业务：假消息

雷军再发英文回应澎程装载能力：只有澎程能做到

广汽本田公布辅助驾驶系统专利

长鑫科技上市首周股价飙涨5倍

张小龙再退出三家粉笔关联公司

工信部：截至6月末5G基站总数达510.2万个，比上年末净增26.3万个

具身智能走到哪了：缺数据是共识，大模型“根基不稳”