当前位置: 首页 » 资讯 » 新科技 » 正文

不只是Seedance2.0!又一国产模型杀入全球榜二,改写AI视频格局

IP属地 中国·北京 智东西 时间:2026-02-28 20:17:02


智东西
作者 三北
编辑 漠影

春节后的AI视频赛道,热闹得有点不像话。

前几周,字节Seedance2.0刚在全球开发者社区刷了一波屏,引得不少海外网友注册中国手机号来体验。热度还没退,另一支在海外颇有名气的国产力量已经悄悄在权威榜单上插上了旗。

2月26日,全球权威AI评估机构Artificial Analysis更新了文生视频/图生视频模型排行榜。国内头部AI视频生成企业爱诗科技旗下的PixVerse V5.6位列全球第二,把国产模型的“写实能力”推上新高度。


▲Artificial Analysis文生视频全球排行榜


▲Artificial Analysis图生视频全球排行榜

这并不是PixVerse第一次冲上高位。熟悉这个榜单的人可能知道,2025年8月PixVerse V5上线十天时,就拿过图生视频全球Top1、文生视频全球Top2。

而在V5.6之外,爱诗科技在1月发布的全球首个通用实时世界模型PixVerse R1,则试图把旗帜插得更远,从“生成视频”迈向AI教母李飞飞口中的“生成世界”新高地,引起了开发者的体验热潮。

“视频生成+世界模型”双线作战,已成为国产AI视频发展的新形势。中国团队正在从追赶者变成前沿战场的牌桌玩家。

一、全球第二背后:PixVerse V5.6靠“超写实”突围

先看硬数据。

Artificial Analysis的排名以盲测为核心指标,不拼参数量、不拼算力堆砌,只拼最终生成的视频效果。PixVerse V5.6在“极致写实能力”维度上得分极高——尤其是光影质感物理规律还原度,让它在与Veo、Sora、Kling等全球顶尖模型的盲测对比中杀出重围。


▲PixVerse V5.6在光影质感与物理规律还原度方面较强

但这只是结果。真正让创作者买单的,是上手体验。

我们拿PixVerse V5.6做了一系列测试,专挑那些“让AI视频模型翻车”的高难度场景。以下是几个最有代表性的案例拆解。

案例一:夕阳下的玻璃幕墙倒影

这是对光影处理能力的测试,玻璃幕墙既是反射面又是透光面,需要在倒影和透射之间找到精确平衡。生成视频中,人物贴近玻璃时,面部与晚霞的反射亮度略低于实体,且随镜头推近保持比例一致,没有出现常见的“反射滞后”或“反射变形”。

V5.6对肤色过渡的处理自然,没有出现橙色溢出或高光死白的问题,鼻梁与脸颊的微小光斑随镜头推进平滑移动。慢推镜头过程中,人物五官稳定,背景建筑未出现结构抖动。这说明其在时间一致性与空间建模上已经较成熟。


提示词:一位身穿白色连衣裙的亚洲女性站在城市高空玻璃幕墙前,夕阳的余晖洒在玻璃上,反射出暖橙色的光芒。她轻轻将手掌贴在玻璃上,玻璃上映出她清晰的面容和身后的晚霞。镜头缓慢推近,聚焦她眼中倒映的城市轮廓。4K,电影感光影,皮肤质感细腻。

案例二:篝火旁的神话战士

这个案例的核心挑战在于“金属材质+动态光源+微表情”的多重复杂度。在生成视频中,铠甲表面反射随火焰跳动产生细微光斑变化,铜剑呈现出旧金属的低反射质感,而非统一高亮。

战士凝视铜剑时,瞳孔反射火焰跳动,面部肌肉有轻微紧绷变化,没有“僵脸”或贴图感。这类动态光源下的微表情保持,是当前高端模型的重要分水岭。


提示词: 一位身披金属铠甲的古希腊战士坐在夜晚的篝火旁,火焰跳跃,照亮他棱角分明的脸庞和铠甲的凹凸纹理。他低头凝视手中的古老铜剑,剑身映出跳动的火焰。背景是黑暗的森林,火星随风飘向夜空。特写镜头从火焰切换到战士的眼睛,瞳孔中倒映着篝火。

案例三:冰雪女王施法瞬间

这是对“粒子系统+物理交互+环境反射”的综合考验。从生成视频可见,冰晶风暴旋转时,光线通过冰晶时产生轻微色散,雪花运动轨迹随机自然,没有“统一下落”的程序感。裙摆与发丝随风运动方向一致,风暴围绕人物旋转时没有穿模现象。


提示词:一位穿着冰蓝色长裙的银发女子站在冰封的湖面上,双手抬起,掌心凝聚出旋转的冰晶风暴。雪花围绕她飞舞,她的长发和裙摆随风飘动。背景是极光和雪山,冰面反射出她的身影和极光。镜头围绕她旋转,捕捉冰晶在阳光下折射的七彩光芒。

案例四:双胞胎姐妹争执

“音画同出”是PixVerse V5.6的核心卖点之一,而这个案例把难度拉满——两个长相一模一样的人,需要从表情、眼神、微动作上区分出不同的性格和情绪。

V5.6生成的画面中,姐姐说话时眉头微蹙,眼神带着责备;妹妹回应时眼神下垂,嘴角有轻微的下撇。两个“同一张脸”被赋予了完全不同的情绪表达。口型与音频的同步精度达到毫秒级,“不告诉妈妈”和“知道真相”的唇齿接触清晰可辨。这说明V5.6在音画同步与人物驱动方面已达到“可交付级”。

提示词:一对长相一模一样的双胞胎姐妹面对面站在阳光明媚的客厅里。左边穿蓝色连衣裙的姐姐生气地说:“你明明答应过不告诉妈妈的!”右边穿粉色连衣裙的妹妹委屈地低下头,小声回应:“可是我觉得她应该知道真相。”镜头在两人之间缓慢切换,捕捉她们说话时完全同步的口型和细微的表情差异。4K,自然光,皮肤质感真实。

案例五:沙漠骑马狂奔

“远景+大动作”是考验模型分辨率鲁棒性和动态一致性的经典场景。从极远景到近景的快速推镜,需要模型在不同尺度下保持人物五官的清晰度和一致性。

V5.6生成的画面中,远景推近时,骑手面部清晰度逐步提升,没有“糊脸”。马匹奔跑步态连贯,扬沙轨迹符合动量逻辑。强逆光下人物轮廓光明显,但面部细节仍保留,没有一片死黑。


提示词:远景:一位身着阿拉伯白袍的骑手骑着黑色骏马在广阔的金色沙漠中疾驰,马蹄扬起漫天黄沙。镜头从极远的距离快速推近,逐渐看清骑手被风沙吹拂的面容和飘扬的头巾。他用力拉紧缰绳,马匹前蹄腾空,发出嘶鸣。夕阳在他身后形成巨大的光晕。4K,电影质感。

从以上五个案例可以看到,PixVerse V5.6在多个维度上都达到了新的高度:

光影与物理规律一致性:无论是玻璃幕墙前的夕阳脸颊、篝火的动态光照,还是冰晶的折射反射,V5.6都表现出对物理世界的深刻理解。

复杂运动场景稳定性:骑马狂奔、跑酷翻腾、双人对话——这些曾经让AI视频模型“翻车”的高难度场景,V5.6都能保持人物五官和动作的连贯性。

镜头调度叙事能力:双胞胎争执的表情差异化、从远景到近景的快速推镜——V5.6开始具备“镜头语言”的理解能力,不再是简单的文本映射。

音画同步进入“可交付级”:口型与音频的毫秒级对齐,情绪与语音的自然匹配。即使是多人对话的复杂场景,V5.6看起来也具备了商业落地的可能性。

可以说,V5.6不是音画同出的“开创者”,但它是目前市面上把“自然度”和“稳定性”平衡得最好的之一。

二、R1新野望:布局世界模型,从“视频工具”到“可玩现实”

如果说V5.6解决的是“当下可用”,那爱诗科技1月发布的PixVerse R1,赌的是“未来可能”。

1月发布的PixVerse R1号称全球首个通用实时世界模型。早期内测画质仅540P,但交互方式极具颠覆性——你在下面打字,它在上面实时生成画面、推进剧情、切换镜头,仿佛为你造了一个世界;2月11日,R1迎来重大更新:支持720P高清实时生成、音频同步生成、UGC社区上线、API开放。

为了直观感受R1的能力边界,我们结合两个体验案例进行拆解。

案例一:火星基地日常

R1生成的画面中,连续场景切换中,火星基地风格保持统一。气闸舱的金属质感、气压读数、头盔雾气、植物、观测台等细节都准确到位。多区域跳转时人物位置连续,没有“重置感”。

最关键的是,这一切都是实时生成的。当我在输入“推开植物舱门”后,画面在1-2秒内切换到一个全新的、但与前序场景在空间逻辑上连贯的场景。这种“可探索世界”的体验,已经超越了传统的视频生成,更像是“可玩的现实”。

提示词(实时交互):

[开场] 你是一名火星基地的宇航员,结束舱外作业,进入气闸舱。关闭厚重舱门,气压读数上升。摘下头盔,汗水顺着脸颊滑落,深吸一口循环空气中的金属味。

[走进生活舱] 绿色植物在LED灯下生长,跑步机靠墙,舷窗外红色荒漠延伸至地平线。坐到电脑前,敲下:“第287天,一切正常。”

[推开植物舱门] 湿润的热浪扑面而来。番茄藤爬满支架,LED灯光闪烁,自动灌溉系统发出轻微的嘶嘶声。

[爬上观测台] 进入穹顶观测台。360度全景玻璃外,火星星空璀璨夺目,火卫一正快速划过天际。

[进入休息舱] 穿过走廊进入休息舱。窄小的床铺,墙上贴着家人的照片。躺下时,飞船金属骨架发出熟悉的吱呀声。

案例二:梦境碎片生成器

这是对“实时生成+创意自由”的测试。梦境场景本身没有物理逻辑约束,考验的是模型对“风格”的理解和切换能力。不同于上一个示例采取文字生成视频,本次我首先上传了一张图片作为参考。

R1生成的画面中,从云桥→钟表→童年卧室→深海→太空→森林→城市,每个风格都有独特的视觉语言和细节密度,风格持续切换但人物形象保持一致。

最惊艳的是,环境响应即时,画面就在1-2秒内切换到完全不同的视觉风格。当梦境叠加时,大海倒悬天空、城市漂浮云层等复杂组合仍保持视觉可读性。这些超现实画面的融合处理,需要模型理解不同场景的空间关系和视觉层次。


提示词(实时交互版):

[开场] 你是一个穿着泡泡袖睡衣的12岁小女孩,身在梦境,万物流动变幻。脚下是一座漂浮在云海上的透明桥,云朵翻涌。你缓步前行,桥身随着脚步轻轻晃动。

[遇见巨钟] 前方出现巨大的复古钟表,悬在虚空中。指针逆时针飞转,发出刺耳的滴答声。周围的光线随着指针倒流,色彩褪去又重现。

[触碰钟面] 你伸手触碰钟面,指尖传来冰凉触感。场景瞬间扭曲坍缩,下一秒你已站在童年卧室里——墙上的贴纸、窗外的老槐树,一切如昨。

[默念“大海”] 你闭上眼默念“大海”,场景如水墨般化开。转眼沉入蔚蓝深海,发光的鱼群环绕游弋。阳光透过海面洒下摇曳光斑,你漂浮在温暖洋流中。

[默念“太空”] 身体瞬间失重飘起。脚下是蔚蓝地球,星辰在黑暗中闪烁。空间站缓缓旋转,你伸手抓住飘过的宇航员头盔。

[默念“森林”] 脚下生出青苔与蕨类。巨树参天,发光的蘑菇照亮小径。远处传来鹿鸣,薄雾在林间流动,精灵般的萤火虫围绕着你。

[默念“城市”] 钢铁森林拔地而起。霓虹灯在雨夜中闪烁,全息广告牌变幻。你站在天桥上,看无数个自己在人群中穿行。

[觉醒时刻] 所有梦境开始重叠——大海倒悬天空,城市漂浮云层,童年房间的门通向太空。你知道即将醒来,却舍不得离开这个自己创造的世界。

值得一提的是,R1核心驱动力,源自其底层自研的Omni原生多模态大模型。该模型将文本、图像、音频、视频统一为连续Token流,实现端到端生成物理逻辑一致、感官协同的动态世界。

换句话说,模型不是先有视频后配音频,也不是先有画面后加交互,而是从一开始就把所有模态看作一个整体,在生成过程中实现多模态的协同进化。这种技术思路,比传统的“视频生成+后处理”路线更接近真正的“世界模型”。

正如爱诗官方所说:从“AI视频工具”迈向“可玩现实平台”,PixVerse正推动AIGC从单向内容消费,走向双向共创与沉浸交互的新阶段。随着社区机制、开放接口和高清实时的逐步落地,一个由用户共建、共享、共玩的AI世界正在加速到来。

结语:面向世界模型,国产AI视频厂商开辟“双线作战”

站在2026年初回望,AI视频生成领域正在进入关键节点。从Seedance 2.0靠生成质量提升火出圈,到PixVerse发布首个全球实时生成世界模型,我们正在见证一个新时代的开启。

竞争愈演愈烈,爱诗科技用PixVerse V5.6和R1给出了自己的答案:双线作战,当下与未来两手抓。一条线是用V5.6这样的成熟模型,在全球榜单上卡位;另一条线是用R1这样的前沿探索,卡位下一代交互范式。这一切正在被市场验证。PixVerse自2024年1月正式上线以来,国内版产品为拍我AI,截至2025年8月全球用户量已超1亿。

从Seedance2.0到PixVerse V5.6,国产AI视频玩家正在集体卡位全球第一梯队。如果说Seedance2.0代表的是国产AI视频的“热度”,那PixVerse V5.6的持续登顶证明的是国产AI视频的“厚度”,国产AI视频产业正在系统性崛起。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。