当前位置: 首页 » 资讯 » 新科技 » 正文

比画质更重要的,是控制力:看懂阿里 Wan2.7-Image|甲子光年

IP属地 中国·北京 编辑:赵云飞 甲小姐甲子光年 时间:2026-04-03 06:44:31

千人千面、超长文本、指哪改哪,AI生图模型离生产力不远了。

作者|王艺

编辑|栗子

过去一年,AI生图、生视频赛道的竞争烈度远超预期。

国际上,GPT-Image系列持续迭代,Nano Banana Pro在多项基准测试中拉开身位;国内,可灵3.0、Seedance 2.0、Vidu Q3等模型你方唱罢我登场,在声画同步、视频生成长度、叙事连贯性方面卷出新高度。

尽管图像和视频生成模型进展飞速,但目前的AI视频技术距离真正替代成熟的工业化影视制作流程还有相当长的距离——生成质量不稳定、色彩不可控、长文本渲染稀烂、多人场景串脸、编辑改一处崩全图……这些痛点像钉子一样扎在每个创作者的工作流里。

4月1日,阿里巴巴发布图像生成与编辑统一模型Wan2.7-Image。从官方对外信息看,Wan2.7-Image这次的发布思路与以往不同。它没有只在“画质更高、更像照片”上做文章,而是瞄准了五个具体的专业级控制力问题:面部多样性(捏脸至“骨相”与“皮相”的微观层级)、色彩精准控制(首创“调色盘”功能)、超长文本渲染(3K Tokens印刷级输出)、交互式局部编辑(精准框选,指哪改哪)、以及多主体一致性(最高9张参考图输入不走形)。

Wan2.7-image支持交互式编辑功能,包括文字编辑、空间变换、内容生成和替换等(左),多图像生成能力可用于时尚与美容、平面设计等多领域(右)。图源:阿里万相

换言之,这不是一次简单的画质升级,而是试图回答一个更深层的问题——AI生图能不能从“碰运气”走向“可控可用”?

1.当AI生图从“随机盲盒”走向“精准微操”

从架构层面看,Wan2.7-Image采用了生成与理解统一的模型架构,通过共享隐空间实现语义映射,让文字与画面在同一语义空间内完成编码与解码,并在训练流程中引入多模态指令(文字+图片混合输入),配合覆盖布局、文字、光影、拍摄角度、用途等多维度的精细标注体系和分阶段训练策略,使模型在长尾场景与复杂指令下的生成稳健度获得显著提升。同时,基于更大规模数据及模型尺寸训练的Wan2.7-Image-pro也同步上线,构图更稳,语义理解更精准。

此外,Wan2.7-Image同步支持作为Skills接入OpenClaw,这意味着用户可以在“龙虾”中通过自然语言对话直接调用生图能力——捏脸、调色、长文本渲染、精准编辑、多主体一致性,全部可以通过对话界面触达。

理论说得再漂亮,不如上手测一把。

测试一:捏出活人感

AI生图领域有一个广为人知的顽疾:不管你怎么写提示词,生成的人脸总像是同一个模子里刻出来的——不偏不倚的五官比例,毫无瑕疵的鸡蛋肌,以及一双空洞呆滞的眼睛。换了发型和衣服,骨相和气质却如出一辙。这就是所谓的“AI标准脸”。

Wan2.7-Image的解法,是把生成粒度下钻至“骨相”与“皮相”的微观层级。通过对骨相、眼眸及五官细微处的全方位定制,模型支持在提示词中灵活更换脸型(鹅蛋脸、圆脸、方脸、长脸、菱形脸)与眼部特征(杏仁眼、丹凤眼、深邃眼窝、笑眼、肿眼泡等)。我们第一组测试直奔这个痛点。

我们首先输入了这样的提示词:一位27岁中国西北少数民族女性,长方脸偏窄,下颌线清晰,轻微高颧骨,丹凤眼但眼神柔和,鼻梁挺直不过分夸张,嘴唇偏薄,皮肤有真实毛孔与轻微瑕疵,脸部留有自然雀斑。我们甚至在提示词末尾加上了“不要网红磨皮,不要夸张大眼,不要塑料皮肤,不要过度锐化”这样的负面约束,这恰恰是过去AI生图最容易犯的毛病。

提示词:一位27岁中国西北少数民族女性,长方脸偏窄,下颌线清晰,轻微高颧骨,丹凤眼但眼神柔和,鼻梁挺直不过分夸张,嘴唇偏薄,皮肤有真实毛孔与轻微瑕疵,脸部留有自然雀斑,黑色长发扎低马尾,穿浅黄色碎花衬衫,站在傍晚河边的微风中回头看镜头。日系写真人像风格,35mm 镜头,电影胶片质感,柔和自然光,不要网红磨皮,不要夸张大眼,不要塑料皮肤,不要过度锐化。

从结果来看,Wan2.7-Image在面部多样性上的表现确实超出了我们对国产模型的既有预期。单人像中,长方脸的骨骼走势、丹凤眼的弧度、颧骨的高度这些细微特征都得到了较好的还原,皮肤质感也确实保留了毛孔和轻微瑕疵,没有滑向“磨皮大白脸”的老路。

第二条提示词难度更高:要求四个人并排站立的合影,而且四人必须拥有明显不同的骨相与气质,分别是圆脸杏仁眼、方脸深眼窝、长脸薄唇文艺风、鹅蛋脸单眼皮运动风。最后我们还加上了“避免四个人长得像同一个人换发型”。

提示词:请生成4 位 22—30 岁的年轻人并排站立的半身合影,拍摄风格统一,但四人必须拥有明显不同的骨相与气质:1)圆脸、杏仁眼、亲和笑容;2)方脸、深眼窝、冷静表情;3)长脸、薄唇、文艺气质;4)鹅蛋脸、单眼皮、运动风。服装配色克制,背景为大学校园傍晚,真实摄影感,皮肤保留自然纹理,避免四个人长得像同一个人换发型。

Wan2.7-Image给出的结果确实超出了我们对国产模型的既有预期。单人像中,长方脸的骨骼走势、丹凤眼的弧度、颧骨的高度这些细微特征都得到了较好的还原,皮肤质感也确实保留了毛孔和轻微瑕疵,没有滑向“磨皮大白脸”的老路。四人合影中,四个人在骨相层面确实呈现出了可辨识的差异,不是简单地换了发色和脸型轮廓,而是在眼眶深度、颧骨高低、下颌线走向这些更深层的结构上做出了区分。

当然,这并不意味着“千人千面”已经完美实现。在实际测试中,我们发现当提示词中对面部特征的描述越精细,模型的执行力越强;而当描述较为笼统时,模型仍有一定概率回到相似面容的“舒适区”。

测试二:调色盘

色彩控制是设计师和艺术家使用AI生图时最头疼的问题之一。一句“暖橙色调”,不同的AI可能产生差异悬殊的结果:有时是莫兰迪的土橙,有时是梵高向日葵的明黄,有时又会滑向秋日夕阳的深红。这种“色彩盲盒”式的随机性,在严苛的品牌视觉系统面前几乎意味着不可用。

Wan2.7-Image在业内首创“调色盘”功能,将色彩控制权交还给创作者。用户可以通过HEX色号,一键提取或输入参考图的各种颜色和占比,自由调控颜色的数量和比例,自定义配色方案。万相网页版已经内置了完整的调色盘交互界面,操作三步搞定:点击底部工具栏的“调色盘”按钮弹出配色面板(内置“蓝调”“热情”“马卡龙”“莫兰迪”等推荐方案),自定义时点“新增配色方案”上传参考图自动提取主色和占比(颜色数量可加减,比例可拖动色块边界调整),确认后回到主界面输入场景描述即可生成严格遵循配色方案的图片。

Wan2.7-Image的调色盘功能,图源:Wan官网

我们选择了一个视觉信息极其密集的场景来测试。

建议搭配的调色盘方案(6色):

深靛蓝E8913A(约25%,用于落日、灯光和暖色高光)

薄荷青4A3B5C(约15%,用于云层和远景建筑)

奶油白D4726A(约5%,用于零星霓虹招牌和花园植物点缀)

模型生成了以下图片:

输入提示词:一幅扁平插画风格的未来城市俯瞰图,黄昏时分,画面中包含以下元素:近景是一座玻璃幕墙的弧形空中花园,中景是密集的高低错落建筑群和悬浮轨道列车,远景是层叠的云层与一轮巨大的落日。地面有河流穿城而过,河面倒映建筑灯光。画面整体色彩严格遵循调色盘配色方案,不要出现配色方案之外的大面积色块。

可以看到,在故意设置了冷暖对撞(深靛蓝vs 暖琥珀)和大面积光影渐变(黄昏落日)的情况下,生成的图片大比例色(靛蓝30%、琥珀25%)占据了画面主导,小比例色(珊瑚粉5%)也真的只出现在点缀位置而没有喧宾夺主,以及玻璃幕墙和河面这类高反光材质也没有让模型“跑色”偏离调色盘约束。

我们又以Wan2.7-Image调色盘里提供的色彩“马卡龙”为基础,输入以下提示词:

生成的图片结果如下:

可以看到,Wan2.7-Image生成的图片无论是在色彩准确度还是比例上,都完美遵循了调色盘的原始配比,纸雕风格也栩栩如生,图片中的建筑、凉亭等边缘完美保留了卡纸的粗粝质感。

「甲子光年」认为,“调色盘”把AI生图从“色彩盲盒”变成了“色彩处方”,很可能是Wan2.7-Image在专业设计领域最具差异化竞争力的功能之一。

测试三:超长文本渲染

超长文本渲染能力是硬碰硬的技术指标。在AI图像生成的几大固有“顽疾”中,文本渲染始终盘踞榜首:一旦字数超过几个词,AI的表现便开始失控——字母变形、笔画断裂、汉字错位,甚至整段文字莫名消失。

Wan2.7-Image对这一顽疾发动了正面进攻,支持业内最长的3K Tokens文字输入,覆盖中、英等12种语言,可写满整页A4纸。

我们的测试提示词故意设计得很“变态”:要求生成一张A4竖版的中文科技媒体特刊内页,包含主标题、副标题、导语、3个小标题、两段长正文、一个4行3列的参数表、两条图注、一个页脚备注,并且要求“中文字体清晰,字距行距合理,层级明确,不要出现乱码、缺字、错位或重复字”。

从实测来看,模型在处理结构化长文本方面确实展现出了超出同行的水准——标题层级清晰,正文排版规整,表格的基本结构得到了保留,数学符号的生成也很准确。更令人印象深刻的是,它甚至能直接生成带有完整图表、公式、分栏排版的学术论文页面。

提示词:请生成一张A4 竖版的中文科技媒体特刊内页,标题为《Wan2.7-image 五项能力实测》,包含:主标题、副标题、导语、3 个小标题、两段长正文、一个 4 行 3 列的参数表、两条图注、一个页脚备注。整体排版像正式杂志内页,中文字体清晰,字距行距合理,层级明确,整页内容充实但不拥挤,必须保证正文可读,不要出现乱码、缺字、错位或重复字。

Wan2.7-Image生成的论文 图源:阿里万相

但“印刷级”这个说法需要打一个折扣。在我们的测试中,长正文段落中偶尔出现了个别字形微妙偏差的情况,表格中的数字也并非百分之百准确还原。但是对比之下,ChatGPT和Gemini在类似任务上都有明显的错字问题,Wan2.7-Image的优势是相对清晰的。

GPT-Image 1.5生成效果

Nano Banana 2生成效果

此外,3K Tokens的上限意味着模型可以处理大约一页A4纸的正文内容。在这个长度范围内,Wan2.7-Image的中文渲染质量确实达到了“远看像印刷品、近看能认清每个字”的水平。字符重叠问题在常规字号下基本消失,标题与正文之间的层级感也比较清晰,甚至竖版书法卡片这种涉及传统排版形式的场景也能应对自如。

提示词:请生成一张王羲之《兰亭集序》的竖版书法卡片

尽管在表格中挤入大量小字号文本,或者在同一页面中混合使用中文、英文、数学公式时,排版的精细度仍会出现波动,对于需要精确文字内容的正式出版场景也仍需要人工校对,不过相较于此前AI生图在长文本场景下几乎“不可用”的状态,Wan2.7-Image的进步是跨越式的——日常写个菜单、出张海报、做个信息图表等任务,对它来说只是“小菜一碟”。

测试四:交互式编辑

AI生图的另一个经典痛点是局部修改。生成了一张95分的图,但有5%的细节不满意,想要局部修改,结果模型把不该改的地方也改了,最终反而变成了80分。改一下背景颜色,主体人物的服装也变了;稍微调整一下嘴角,整个面部结构崩塌重建。换言之,AI不理解“局部修改”的边界,把不想改的地方也改了,妥妥的“效率黑洞”。

Wan2.7-Image用“精准框”的交互方式解决了这个问题。万相网页版已经内置了完整的编辑交互:在图片生成页面将模式切换为“底稿”上传原图,点击缩略图选择“框选”,在图上拖出矩形框圈住要编辑的区域(支持框选1-2个区域),支持消除、修改、添加、移动、尺寸变换等操作,确认后在输入框写上编辑指令,点生成即可。

我们设计了两条有针对性的测试:第一条要求将微波炉上的一张白纸挪到电视机架中间的平台上,其他物体和环境完全不变;第二条更复杂,要求在同一张图中把框选区域1的橘子换成苹果,框选区域2的橘子换成草莓——这是一个多区域、多目标、差异化编辑的场景。

在第一条测试中,模型较好地理解了“挪动物体”这个空间变换指令——白纸被移到了目标位置,而周围环境确实保持了高度一致。

提示词:请将微波炉上的那张白纸挪到电视机架中间向外延伸出来的那个平台上,其他物体和环境保持不变。左图为原图,右图为Wan2.7-Image生成图。

第二条测试的结果同样值得肯定:两个框选区域内的物体替换是独立执行的,苹果和草莓的材质渲染也比较真实,没有出现“改了A区域、B区域也跟着变”的连锁反应。框外的内容纹丝不动——这种“指哪打哪”的精确感,让AI终于从“不可控的艺术家”变成了“听话的执行搭档”。

提示词:请把图中框选1的橘子换成苹果,框选2的橘子换成草莓。左图为原图,右图为Wan2.7-Image生成图。

测试五:组图生成

组图生成能力直接决定了AI生图工具在电商、广告等商业场景中的可用性。一个商品需要正面图、侧面图、俯视图、手持图、场景图——如果每张图里的产品长得不一样,这个功能就毫无商业价值。

Wan2.7-Image具备强大的组图生成能力,可一口气吐出多达12张逻辑连贯的图像序列,用于批量制作同风格系列图、PPT配图、分镜脚本、电商模特套图及多视角建筑图。

我们上传了一张iPhone 17 Pro的产品图,要求模型生成6宫格宣传图:正面、侧面、俯视、手持展示、桌面陈列、门店橱窗。关键约束是“主体造型、材质、颜色、比例一致,只改变机位和场景,不允许每张都像不同产品”。

Wan2.7-Image在组图生成方面的表现体现了其“生成与理解统一架构”的优势。在共享隐空间的支撑下,模型能够在不同视角和场景之间保持产品主体的基本一致性——形状、颜色、材质在六张图中保持了较高的统一度。

提示词:请根据我上传的产品图,生成一组6 宫格宣传图:正面、侧面、俯视、手持展示、桌面陈列、门店橱窗。要求主体造型、材质、颜色、比例一致,只改变机位和场景,不允许每张都像不同产品。

对于电商详情页的快速生产来说,这个能力已经足够实用。从“单帧”到“时序”,分镜脚本、PPT系列配图、电商模特套图、多视角建筑方案,都可以批量交付。但严格来说,在一些精细结构上(比如产品上的文字、logo、边角细节),不同机位之间仍存在微小差异。对于品牌方来说,这类细节在正式商用前仍需要人工比对和修正。

测试六:多主体一致性

多主体一致性是AI生图最前沿的能力之一,尤其是多人场景,一直是AI生图的重灾区——角色一多,脸就崩,风格就飘。而Wan2.7-Image支持最高9张图片作为参考源,多张参考图喂进去,人物长相、风格、光影全锁死,输出结果在视觉上高度统一。

我们上传了李庚希、刘浩存、杨超越和欧阳娜娜的人物的照片,要求模型生成一张“大学新生宿舍合影”,四个人坐在宿舍床边和书桌前,且“保留各自五官特征、发型、肤色和气质,不要串脸”。

Wan2.7-Image的输出结果表现展示了它在身份保持(Identity Preservation)方面的技术积累——四个人的面部特征、发型和整体气质在合成场景中得到了一定程度的保留。

提示词:参考我上传的4 张人物照片,生成一张“大学新生宿舍合影”场景:四个人坐在宿舍床边和书桌前,镜头为室内广角纪实摄影。要求四个人保留各自五官特征、发型、肤色和气质,不要串脸;服装与动作自然,画面有生活感,不要像电商摆拍。

尽管当多个人物在画面中距离较近时,部分面部特征可能出现轻微的交叉影响,但这不是Wan2.7-Image特有的问题,而是当前整个行业在多身份保持上尚未完全攻克的技术瓶颈。但从相对水平来看,Wan2.7-Image在这一项上的表现已经处于国内领先位置。

Wan2.7-Image生成的第二张图片

2.不做“缝合怪”,统一架构带来的长期复利

根据官方给出的评测数据,在人类偏好盲测中,Wan2.7-Image的文生图能力超过了GPT-Image 1.5和国内主流模型(包括Seedream 4.5、可灵Image 3.0 Omni、Seedream 5.0 Lite等),在文本渲染、照片级成像和世界知识三项指标上最接近Nano Banana Pro,可谓国内最强生图模型。在图像编辑维度,它与Nano Banana Pro和Seedream 5.0 Lite形成了三足鼎立的格局,在身份参考和风格光影编辑上表现突出。

Wan2.7-image的人类偏好盲测评分位列国内第一,图源:阿里万相

从我们自己的实测感受来对照这组数据,总体上是可信的,但需要注意几个细微之处。

其一,Wan2.7-Image的优势并不均匀。它在面部多样性、色彩控制、交互式编辑这三项上的领先感最为明显,这些恰恰是此前国产模型最薄弱的环节。而在纯粹的画面美学和极端写实场景下,仍有进步空间。

其二,“统一模型”的架构选择带来了长期价值。Wan2.7-Image并不是把生图、编辑、组图等能力拼在一起的“缝合怪”,而是在一个统一的生成-理解架构中原生实现了这些能力。超大规模的异构数据底座,不仅涵盖全域品类的视觉素材,还整合了理解类数据,可以说模型不是只看过图,它还“读”过图。这意味着随着训练数据和模型规模的继续增长,各项能力的提升是协同的而非割裂的。

3.重塑专业工作流,把控制权从算法里夺回来

经过六组测试,我们对Wan2.7-Image的适用场景有了比较清晰的判断。

对于电商和品牌营销团队来说,组图生成和调色盘功能是直接的生产力提升。一张商品图裂变出六个机位的宣传图,品牌色锁定后批量生成内容……这些过去需要摄影师、设计师反复调整的工作,现在可以在分钟级别完成初稿。一个中小电商商家,一件商品需要数十张素材图,传统摄影外包的成本和周期让人望而却步;多主体一致性加上组图生成,单张模特图可以裂变为覆盖不同场景、不同卖点的完整素材库,上新周期大幅缩短。

对于短剧和影视前期团队来说,千人千面的捏脸系统加上多主体一致性,让低成本的角色设定和分镜预览成为可能。过去最头疼的“预生产”阶段——角色长什么样、分镜怎么画、特效预演怎么做——现在千人千面的捏脸加上组图生成,角色设定、动作参考、视觉方案可以在正式开机前全部跑通,让试错成本从“天”压缩到“小时”。

对于设计师和插画师来说,交互式编辑可能是最有吸引力的功能。“改一处不崩全图”这个看似简单的需求,实际上是过去大量AI辅助设计工作流的核心卡点。Wan2.7-Image在这一项上的表现,有可能真正改变设计师对AI工具的使用习惯——从“用AI出初稿,然后在PS里大改”变成“在AI里直接精修”。

对于教育和内容创作领域,Wan2.7-Image的超长文本渲染能力打开了一个全新的可能性空间:论文配图、信息图表、儿童绘本、PPT视觉页……这些过去AI几乎无法处理的场景,现在至少可以进入“初稿可用、微调即出”的阶段。

回到开头的问题:Wan2.7-Image到底回答了什么?

「甲子光年」认为,它真正试图回答的是“AI生图能不能成为专业创作者日常工作流中稳定、可控、可信赖的工具”。从“千篇一律”到“千人千面”,从“盲盒抽卡”到“精准微操”。Wan2.7-Image的五项核心能力,说到底做的是同一件事——把创作的控制权,从算法的随机性里夺回来,交还给人。

值得一提的是,Wan2.7不仅有Image,还有即将到来的视频模型升级,如果把图像和视频能力放在一起看,阿里正在构建的不是单一的生成工具,而是一个端到端的AI视觉创作生态。AI生成内容这件事,第一次真正实现了“由你说了算”。

(封面图阿里万相)

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。