4 月 7 日深夜,AI 评测平台 Artificial Analysis 在 X 上发了一条简短的公告:Video Arena 新增了一个“pseudonymous”(匿名)视频模型,代号 HappyHorse-1.0。没有发布会,没有技术博客,没有任何机构署名。
48 小时后,这个模型的 Elo 积分冲到了文本转视频赛道的 1,347 分,图像转视频赛道的 1,391 分(如今已分别冲到 1,378 分和 1,411 分),双双登顶。它和第二名 Seedance 2.0 之间的分差达到 60 至 74 分,整个榜单上第二名到第十九名之间的累计分差,也不过 70 分出头。
![]()
图丨Video Arena 榜单(Artificial Analysis)
字节的 Seedance 2.0 自今年 2 月发布以来一路大杀四方,先后压过 Sora 2 和 Veo 3,被不少人视为当前 AI 视频生成的天花板。一个刚上线几天的匿名模型把它甩开这么远,网友难免好奇:“这是谁家的部将,竟如此勇猛?”
2026 年是农历马年,再加上“HappyHorse”这个命名和今年 2 月匿名上线 OpenRouter 后被确认为智谱 GLM-5 的“Pony Alpha”套路如出一辙,于是许多人猜测它应该出自中国团队之手。
但“中国团队”的范围太大了。社交媒体上的猜测众说纷纭:腾讯和阿里的创始人都姓马,有一定的可能性;还有人觉得像小米的风格,因为此前霸榜的匿名模型 Hunter Alpha 就出自小米。
目前可信度较高的猜测有两个,首先是 X 用户 Vigo Zhao 将 HappyHorse-1.0 的公开基准数据(视觉质量 4.80、文本对齐 4.18、物理一致性 4.52、语音字错率 14.60%)逐项与已知模型核对后,结果找到了一个高度吻合的对象:今年 3 月底在 GitHub 开源的 daVinci-MagiHuman。两者都是 150 亿参数、40 层单流 Transformer 架构,都做音视频联合生成,支持的语言列表完全一致,官网的架构描述和演示视频的呈现风格也几乎同一套模板。
daVinci-MagiHuman 的开发方是 Sand.ai 和上海创智学院 GAIR 实验室的联合团队。Sand.ai 创始人曹越是清华特等奖学金得主、Swin Transformer 共同一作、ICCV 2021 马尔奖获得者,2023 年创立 Sand.ai 后专注自回归视频生成方向,此前已开源过视频大模型 MAGI-1,融资规模近六千万美元。
但另一条线索把故事引向了别处。多家自媒体和财经媒体报道称,HappyHorse 背后的团队是阿里巴巴淘天集团旗下的“未来生活实验室”,由张迪领衔。网上流传的一个号称是 HappyHorse 官网的页面也写明了淘天集团的归属,但该官网的真实性尚未得到官方确认。
张迪的履历和 AI 视频赛道深度绑定:2020 年至 2025 年任快手副总裁,主导搭建了可灵大模型的底层架构,业界称其为“可灵之父”;2025 年短暂加入 B 站负责技术条线后回归阿里,执掌淘天集团未来生活实验室。
两条线索谁对谁错,目前尚不得而知。
(顺便一提,笔者在检索相关信息时还发现,微信在 25 年居然就出过一个名为“快乐马”的卡通形象,所以不靠谱的猜测一下,没准真的出自腾讯团队。)
![]()
图丨相关推文(X)
不过话说回来,除去 Elo 分数,这个模型的水平究竟如何?
从目前网上流传的实测视频来看,HappyHorse 在许多场景下的表现的确与 Seedance 2.0 不分伯仲,部分场景甚至有所超越,但整体并没有“全面领先”的观感。比如在一些实测视频中,它在物理真实性方面表现似乎就不如 Seedance 2.0。
我们也在 Artificial Analysis 平台上进行了实测。虽然没能直接抽到 Seedance 2.0 与 HappyHorse 的对决,但在多次与其他模型的配对中,HappyHorse 的确时常是更胜一筹的那个。
比如在这个跑步场景里,Veo 3.1 Preview 和 HappyHorse 都存在问题,比如几个人的动作分解都没有完全实现,但 Veo 还额外出现了凭空冒出毛巾等穿帮。
而在这个打字机的场景下,在打字机的场景下,HappyHorse 对提示词的执行称得上精准,字迹也相对清晰。相比之下,Kling 2.6 Pro 对“纸张向上卷起,被抽出并放在打字机旁”这个动作就没有正确理解。
而在另一个比较复杂的场景里,Happy Horse 居然做到了准确理解了“建筑师”这个职业的工作,在电脑上生成了对应的图纸,其他细节也较为还原,表现非常出色。
需要指出的是,Artificial Analysis 的 Video Arena 完全基于真实用户盲测投票,两段视频并排,用户选更喜欢哪个,模型团队无法刷题作弊。这套机制的优点是直接反映普通人的视觉感知,但它有结构性的局限,如果盲测素材以某一类特定场景为主,那么擅长该场景的模型就会拿到更高的胜率。
不少测试者在对比后认为,HappyHorse 在人物细节和动态连贯性上跟 Seedance 2.0 仍有可见差距,由此质疑 Elo 评分能否代表综合实力。
这种质疑有它的道理。Elo 系统是纯粹的偏好累积,最终分数很大程度上取决于用户倾向于提交什么样的测试内容。我们尚无从得知 HappyHorse 的投票总量,而 Seedance 2.0 仅在文本转视频类别就已积累超过 7,500 次投票样本,随着更多投票进来,排名仍可能变动。
但无论排名最终怎么调整,如果所谓的“官网”以及一大堆 GitHub 上出现的各个“coming soon”的仓库是真的,那就意味着一个开源视频模型在以用户真实感知为基准的盲测排行榜上,首次正面比肩了当前主流闭源竞争对手。这对用户来说是件好事,Seedance 2.0 效果虽好,但价格不低,等候时间也长,市场需要更多选项。
参考资料:
1.https://artificialanalysis.ai/video/leaderboard/text-to-video
2.https://x.com/yyyole/status/2041876401754919422
3.https://wavespeed.ai/blog/posts/what-is-happyhorse-1-0-ai-video-model/
运营/排版:何晨龙





京公网安备 11011402013531号