智东西
作者 | 陈骏达
编辑 | 心缘
智东西4月27日报道,今天,阿里ATH创新事业部的最新视频生成与编辑模型HappyHorse 1.0(官方译名:快乐小马)开启灰度测试。创作者可在阿里云百炼平台和HappyHorse官网注册使用,大众用户可在千问App中体验。
在盲测平台Arena.ai上,HappyHorse 1.0在文生视频、图生视频、视频编辑三个榜单上均排名第二,仅次于前段时间爆火的字节Seedance 2.0。为验证HappyHorse 1.0的真实效果,我们进行了多维度的实测。
只需输入简单的文字描述,用户就可用HappyHorse 1.0生成一段3s-15s长度的视频,视频中可以实现多镜头切换、连贯剧情等要素。
官网显示,HappyHorse 1.0分辨率最高支持1080p,最多可同时生成4个视频,生成720P和1080P视频的刊例价分别为0.9元/s及1.6元/s,Pro套餐包月价格叠加限时折扣后为0.44元/s和0.78元/s。
同时,HappyHorse 1.0也出现在阿里旗下多款产品中,如阿里悟空、MuleRun和JVS Claw等Agent平台。千问App预告,近期将上线“测一测”视频玩法,测出用户在短剧宇宙的本名角色后,通过HappyHorse 1.0生成用户本人“出演”的角色短剧片段。
在这次实测中,我们发现了HappyHorse 1.0在指令遵循、生成速度方面的明显优势,也看到了它在画面物理准确性、音画同步等方面仍有提升空间。以下是我们提炼出的核心体验要点:
(1)生成速度快:体验过程中,生成一段视频仅需约2-5分钟,与其他视频生成模型相比有一定竞争力。
(2)指令遵循能力强:能准确理解并执行复杂的提示词要求,包括镜头运动、画面构图、风格氛围等。
(3)多元素参考还原度高:图生视频中能准确呈现所有上传的参考元素,包括人物、场景、道具等。
(4)音画同步仍有提升空间:人声、音效等同步效果较好,但是在乐器演奏等复杂场景中,模型生成的手部动作与音频节奏存在明显错位。
(5)长叙事易穿帮:10s以上的较长视频中,容易出现物理bug,比如无外力物体自移动等等。
(6)文字渲染错误:画面中出现的文字常出现乱码或错误。
以下是我们的完整实测过程:
一、能理解800词超长提示词,物理真实性还有提升空间
我们的首批实测任务聚焦文生视频能力。在这一场景中,模型的指令遵循能力、生成结果的物理准确性、音画同步效果等都是值得关注的能力点。
案例1:复杂动作与音画同步
提示词:
街头音乐表演,鼓手敲击节奏、吉他手弹奏旋律,观众围成半圈随节奏拍手并轻微摆动身体,氛围热烈,拉美风格,傍晚暖色灯光,镜头缓慢推进。
HappyHorse 1.0的生成速度是一大亮点,下方视频生成的耗时大概在2分钟左右。从生成结果上来看,HappyHorse 1.0生成的人像没有出现肢体异常、扭曲等问题,镜头运动、画面灯光等元素符合提示词要求。
音画同步效果是这段视频中的缺憾。吉他手的演奏和视频里的音乐节奏不同步,尤其在某些快速扫弦和重拍落点上,画面中的手部动作与音频中的音符出现错位,破坏了演奏的真实感与沉浸感。
案例2:物理真实性
提示词:
海边悬崖上,海浪猛烈拍打岩石,水花飞溅,天空乌云密布,风吹动人物衣服和头发,电影级真实感,慢动作。
在这一案例中,HappyHorse 1.0需要完成对物理世界的模拟,其难点在于对水体、风这些元素的呈现。
最终,HappyHorse 1.0的生成结果很好地还原了波涛汹涌的效果,海浪与岩石的撞击、海面上的泡沫都较为符合物理规律。
切换到人物后,主角头发的飘动方向和衣服的飘动方向基本一致。美中不足的是,近景画面中水滴滑落的速度不太符合物理规律,显得略微慢了半拍。
案例三:超长提示词
提示词:
在这一案例中,我们考察了HappyHorse 1.0对复杂提示词的理解能力。这段提示词长达800词,描述的是一个类似知名游戏《GTA》的实机演示画面。
我们的提示词对画面中几乎所有元素都进行了定义,包括人物、天气、环境、建筑等等,HappyHorse 1.0对这些元素都做到了准确呈现。
不过,开头的第一个画面出现了物理bug,车门在没有受到外力的情况下自己关闭了。最后一个镜头中,主角出现了变化,这显示出HappyHorse在这一案例中的一致性方面还有提升空间。
案例四:镜头语言与叙事感
提示词:
夜晚城市街道,一名侦探在雨中行走,霓虹灯反射在湿漉漉的地面上,镜头从远景缓慢拉近到特写,电影黑色风格。
上方提示词对运镜方式、画面风格都做了细致的规定,这对HappyHorse 1.0的指令遵循能力提出要求。
最终,HappyHorse 1.0准确呈现了从远景缓慢拉近到特写的镜头要求,电影风格呈现准确,霓虹灯的光线和反射都较为自然,但画面中的中文文字渲染有明显错误。
在这一案例中,我们还采用了1080P的分辨率和最长的15s时长,可以看到,放大后的画面细节依然较为清晰。
从这几个案例来看,在提示词要求较为详细时,HappyHorse 1.0可以较好地理解并执行复杂的画面构图、镜头运动和风格氛围要求,生成的人物形体与基础物理交互也相对稳定;但在高精度音画同步、微观物理细节以及画面中的文字渲染方面仍有提升空间。
二、最多支持9图参考,实测让奥尔特曼和马斯克“对簿公堂”
除了文生视频之外,HappyHorse 1.0也支持图生视频与视频编辑,这些场景对一致性、稳定性提出了较高要求。不过,在今天的实际测试过程中,我们始终未能成功体验视频编辑能力。
案例一:首帧模式
我们首先尝试了图生视频功能中的首帧模式,所上传的图片是OpenAI联合创始人兼CEO萨姆·奥尔特曼和Anthropic联合创始人兼CEO达里奥·阿莫迪前段时间的合影。
不过,可能是因为画面中涉及多位真实人物,模型拒绝了这一生成请求。
之后我们上传了奥尔特曼的单人照,要求模型生成他喝咖啡的画面。这次尝试最后成功了,画面中人物与真人照片的相似度应该能达到8成左右,并且随着光线和背景的变化,人物的样貌没有出现改变。
案例二:多人物参考
多图参考中,我们上传了马斯克与奥尔特曼的图像,要求HappyHorse 1.0提前想象一下这两位人物对簿公堂、激烈争吵的画面。
这次HappyHorse 1.0也没有拒绝我们的生成请求,它给出的首版生成结果中,并没能体现出二人争吵的效果,主要是“马斯克”在单方面输出。此外,模型似乎不理解这两位人物的母语都是英语,画面中“马斯克”操着一口流利的中文。
再进一步细化要求后,HappyHorse 1.0能够生成二人用英语争论的画面,其中人物的表情丰富,但是与参考图相比出现了较为明显的偏差。
案例三:多元素参考
除了上传多个人物之外,多图参考也允许用户对视频模型生成画面的背景、具体元素等提供素材。我们便上传了Sora核心人物Bill Peebles、OpenAI办公室、纸箱等元素,要求HappyHorse 1.0生成一个离职的画面。
在这一案例中,HappyHorse 1.0做得较高的方面是它准确呈现了我们上传的所有参考元素,人物、环境等都基本一致。
然而画面中出现了不少物理bug,比如纸箱自动合上,门自动打开等等。
三、1080P、生成速度成HappyHorse亮点
在HappyHorse 1.0开始测试之际,智东西等部分媒体与多位参与HappyHorse 1.0测试的业内人士与探讨了这一模型目前的表现,及其在行业中的竞争站位。
出海一站式AI电商营销平台麦斯国际的技术合伙人李明认为,3s-15s的生成长度、较快的生成速度、支持1080P是HappyHorse 1.0的亮点功能。同时,在提示词较为明确的情况下,模型的产出效果“还可以”。
然而,在实践中,HappyHorse 1.0也展现出一些问题,比如生成视频结果的一致性、生成语音内容的机械感等等。李明认为,HappyHorse 1.0与字节Seedance 2.0、OpenAI Sora 2等模型相比,“还有一些再提升的空间”。
我们向李明提及实测过程中遇到的音画同步、文字渲染等问题。李明称,字幕等文字内容的渲染其实是当前AI视频生成模型的通病,目前业内很少靠大模型直接生成,而是会借助后期工具进行补充,这种模式也给调整留有余地。
音画同步方面,李明观察到通过更好的提示词工程,可以提升HappyHorse 1.0、Seedance 2.0等模型的音画同步效果,但这些模型目前在音画同步维度多少还存在一些问题。
李明判断,对企业而言,当前视频生成模型的生成质量仍是一个普遍存在的痛点,部分创作团队的“抽卡率”甚至高达50%-60%。生成的时效性也还有提升空间。
相比之下,价格反而是用户更容易接受的维度。如果能做到又快又好,用户对价格的接受度自然会随之提高。
参与内测的AI视频创作平台FLOVA相关团队认为,HappyHorse 1.0模型在真实感与叙事能力上表现不错,尤其适合叙事性内容、纪录片风格的题材。
同时,HappyHorse 1.0的焦段运用接近实拍,减轻了视频的“AI感”,让观感更加真实,其镜头运动也比较自然。
结语:一匹有潜力的“快乐小马”
从我们的体验感受来看,HappyHorse 1.0可以是一款不错的的视频生成模型,其较强的指令遵循能力为专业创作者提供了更多的精细化控制的空间,一定程度上降低了反复抽卡、试错带来的资源浪费。
然而,HappyHorse 1.0的画面还有不少可提升的空间,比如画面的“油腻感”、物理准确性等等。随着HappyHorse进一步迭代,这一模型有望在真实生产场景中发挥更大作用。





京公网安备 11011402013531号