当前位置: 首页 » 资讯 » 新科技 » 正文

苹果全能视觉AI模型UniGen 1.5亮相,看图、修图、绘图三合一

IP属地 中国·北京 编辑:吴俊 IT之家 时间:2025-12-19 12:11:28

IT之家 12 月 19 日消息,科技媒体 9to5Mac 昨日(12 月 18 日)发布博文,报道称苹果研究团队近日发布多模态 AI 模型 UniGen 1.5,成功在单一系统中集成了图像理解、生成与编辑三大核心功能。

与主要依赖不同模型分别处理任务的传统方案不同,UniGen 1.5 最大的突破在于构建了一个统一的框架,仅凭一个模型即可同时完成图像理解、图像生成以及图像编辑任务。研究人员认为,这种统一架构能让模型利用强大的图像理解能力反哺生成效果,从而实现更精准的视觉输出。

在图像编辑领域,模型往往难以精准捕捉用户微妙或复杂的修改指令。苹果团队为解决这一难题,首创引入了名为“编辑指令对齐”的后训练阶段。

该技术并不直接让模型修改图片,而是要求模型先根据原图和指令,预测出目标图像的详细文本描述。这种“先想后画”的中间步骤,迫使模型在生成最终图像前,必须深度内化用户的编辑意图,从而大幅提升了修改的准确度。

这一中间步骤有助于模型在生成最终图像之前更好地理解预期的编辑内容。

除了指令对齐,UniGen 1.5 的另一大贡献在于强化学习层面的创新。研究团队成功设计了一套统一的奖励系统,能够同时应用于图像生成和图像编辑的训练过程。

此前,由于编辑任务涉及从微调到重构的巨大跨度,统一奖励机制极难实现,而这一突破让模型在处理不同类型的视觉任务时,能够遵循一致的质量标准,显著增强了系统的“抗干扰”性。

UniGen-1.5 的文本转图像生成和图像编辑功能的一些示例

UniGen-1.5 的文本转图像生成和图像编辑功能的一些示例

在多项行业标准基准测试中,UniGen 1.5 展现了强劲的竞争力。数据显示,该模型在 Geneval 和 DPG-Bench 测试中分别获得 0.89 和 86.83 的高分,显著优于 BAGEL 和 BLIP3o 等近期热门方法。

在图像编辑专项测试 ImgEdit 中,其 4.31 的综合得分不仅超越了 OminiGen2 等开源模型,更与 GPT-Image-1 等专有闭源模型表现持平。

尽管整体表现优异,UniGen 1.5 目前仍存在一定局限性。研究人员在论文中坦承,由于离散去标记器(discrete detokenizer)在控制细粒度结构方面存在不足,模型在生成图片内的文字时容易出错。

图 A 展示了 UniGen-1.5 在文本转图像生成和图像编辑任务中的失败案例。以上图源:苹果论文

此外,在部分编辑场景下,模型偶尔会出现主体特征漂移的问题,例如猫的毛发纹理改变或鸟的羽毛颜色偏差,这些问题将是团队未来的优化重点。

标签: 模型 图像 图像编辑 苹果 编辑 任务 视觉 全能 指令 功能 问题 团队 示例 用户 科技 首创 阶段 贡献 纹理 消息 难题 技术 层面 毛发 媒体 跨度 绘图 人员 颜色 偏差 方面 图片 论文

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新