当前位置：首页 » 资讯 » 新科技 » 正文

不只是Seedance2.0！又一国产模型杀入全球榜二，改写AI视频格局

IP属地中国·北京 智东西 时间：2026-02-28 20:17:02

智东西
作者三北
编辑漠影
春节后的AI视频赛道，热闹得有点不像话。
前几周，字节Seedance2.0刚在全球开发者社区刷了一波屏，引得不少海外网友注册中国手机号来体验。热度还没退，另一支在海外颇有名气的国产力量已经悄悄在权威榜单上插上了旗。
2月26日，全球权威AI评估机构Artificial Analysis更新了文生视频/图生视频模型排行榜。国内头部AI视频生成企业爱诗科技旗下的PixVerse V5.6位列全球第二，把国产模型的“写实能力”推上新高度。

▲Artificial Analysis文生视频全球排行榜

▲Artificial Analysis图生视频全球排行榜
这并不是PixVerse第一次冲上高位。熟悉这个榜单的人可能知道，2025年8月PixVerse V5上线十天时，就拿过图生视频全球Top1、文生视频全球Top2。
而在V5.6之外，爱诗科技在1月发布的全球首个通用实时世界模型PixVerse R1，则试图把旗帜插得更远，从“生成视频”迈向AI教母李飞飞口中的“生成世界”新高地，引起了开发者的体验热潮。
“视频生成+世界模型”双线作战，已成为国产AI视频发展的新形势。中国团队正在从追赶者变成前沿战场的牌桌玩家。
一、全球第二背后：PixVerse V5.6靠“超写实”突围
先看硬数据。
Artificial Analysis的排名以盲测为核心指标，不拼参数量、不拼算力堆砌，只拼最终生成的视频效果。PixVerse V5.6在“极致写实能力”维度上得分极高——尤其是光影质感与物理规律还原度，让它在与Veo、Sora、Kling等全球顶尖模型的盲测对比中杀出重围。

▲PixVerse V5.6在光影质感与物理规律还原度方面较强
但这只是结果。真正让创作者买单的，是上手体验。
我们拿PixVerse V5.6做了一系列测试，专挑那些“让AI视频模型翻车”的高难度场景。以下是几个最有代表性的案例拆解。
案例一：夕阳下的玻璃幕墙倒影
这是对光影处理能力的测试，玻璃幕墙既是反射面又是透光面，需要在倒影和透射之间找到精确平衡。生成视频中，人物贴近玻璃时，面部与晚霞的反射亮度略低于实体，且随镜头推近保持比例一致，没有出现常见的“反射滞后”或“反射变形”。
V5.6对肤色过渡的处理自然，没有出现橙色溢出或高光死白的问题，鼻梁与脸颊的微小光斑随镜头推进平滑移动。慢推镜头过程中，人物五官稳定，背景建筑未出现结构抖动。这说明其在时间一致性与空间建模上已经较成熟。

提示词：一位身穿白色连衣裙的亚洲女性站在城市高空玻璃幕墙前，夕阳的余晖洒在玻璃上，反射出暖橙色的光芒。她轻轻将手掌贴在玻璃上，玻璃上映出她清晰的面容和身后的晚霞。镜头缓慢推近，聚焦她眼中倒映的城市轮廓。4K，电影感光影，皮肤质感细腻。
案例二：篝火旁的神话战士
这个案例的核心挑战在于“金属材质+动态光源+微表情”的多重复杂度。在生成视频中，铠甲表面反射随火焰跳动产生细微光斑变化，铜剑呈现出旧金属的低反射质感，而非统一高亮。
战士凝视铜剑时，瞳孔反射火焰跳动，面部肌肉有轻微紧绷变化，没有“僵脸”或贴图感。这类动态光源下的微表情保持，是当前高端模型的重要分水岭。

提示词：一位身披金属铠甲的古希腊战士坐在夜晚的篝火旁，火焰跳跃，照亮他棱角分明的脸庞和铠甲的凹凸纹理。他低头凝视手中的古老铜剑，剑身映出跳动的火焰。背景是黑暗的森林，火星随风飘向夜空。特写镜头从火焰切换到战士的眼睛，瞳孔中倒映着篝火。
案例三：冰雪女王施法瞬间
这是对“粒子系统+物理交互+环境反射”的综合考验。从生成视频可见，冰晶风暴旋转时，光线通过冰晶时产生轻微色散，雪花运动轨迹随机自然，没有“统一下落”的程序感。裙摆与发丝随风运动方向一致，风暴围绕人物旋转时没有穿模现象。

提示词：一位穿着冰蓝色长裙的银发女子站在冰封的湖面上，双手抬起，掌心凝聚出旋转的冰晶风暴。雪花围绕她飞舞，她的长发和裙摆随风飘动。背景是极光和雪山，冰面反射出她的身影和极光。镜头围绕她旋转，捕捉冰晶在阳光下折射的七彩光芒。
案例四：双胞胎姐妹争执
“音画同出”是PixVerse V5.6的核心卖点之一，而这个案例把难度拉满——两个长相一模一样的人，需要从表情、眼神、微动作上区分出不同的性格和情绪。
V5.6生成的画面中，姐姐说话时眉头微蹙，眼神带着责备；妹妹回应时眼神下垂，嘴角有轻微的下撇。两个“同一张脸”被赋予了完全不同的情绪表达。口型与音频的同步精度达到毫秒级，“不告诉妈妈”和“知道真相”的唇齿接触清晰可辨。这说明V5.6在音画同步与人物驱动方面已达到“可交付级”。
提示词：一对长相一模一样的双胞胎姐妹面对面站在阳光明媚的客厅里。左边穿蓝色连衣裙的姐姐生气地说：“你明明答应过不告诉妈妈的！”右边穿粉色连衣裙的妹妹委屈地低下头，小声回应：“可是我觉得她应该知道真相。”镜头在两人之间缓慢切换，捕捉她们说话时完全同步的口型和细微的表情差异。4K，自然光，皮肤质感真实。
案例五：沙漠骑马狂奔
“远景+大动作”是考验模型分辨率鲁棒性和动态一致性的经典场景。从极远景到近景的快速推镜，需要模型在不同尺度下保持人物五官的清晰度和一致性。
V5.6生成的画面中，远景推近时，骑手面部清晰度逐步提升，没有“糊脸”。马匹奔跑步态连贯，扬沙轨迹符合动量逻辑。强逆光下人物轮廓光明显，但面部细节仍保留，没有一片死黑。

提示词：远景：一位身着阿拉伯白袍的骑手骑着黑色骏马在广阔的金色沙漠中疾驰，马蹄扬起漫天黄沙。镜头从极远的距离快速推近，逐渐看清骑手被风沙吹拂的面容和飘扬的头巾。他用力拉紧缰绳，马匹前蹄腾空，发出嘶鸣。夕阳在他身后形成巨大的光晕。4K，电影质感。
从以上五个案例可以看到，PixVerse V5.6在多个维度上都达到了新的高度：
光影与物理规律一致性：无论是玻璃幕墙前的夕阳脸颊、篝火的动态光照，还是冰晶的折射反射，V5.6都表现出对物理世界的深刻理解。
复杂运动场景稳定性：骑马狂奔、跑酷翻腾、双人对话——这些曾经让AI视频模型“翻车”的高难度场景，V5.6都能保持人物五官和动作的连贯性。
镜头调度叙事能力：双胞胎争执的表情差异化、从远景到近景的快速推镜——V5.6开始具备“镜头语言”的理解能力，不再是简单的文本映射。
音画同步进入“可交付级”：口型与音频的毫秒级对齐，情绪与语音的自然匹配。即使是多人对话的复杂场景，V5.6看起来也具备了商业落地的可能性。
可以说，V5.6不是音画同出的“开创者”，但它是目前市面上把“自然度”和“稳定性”平衡得最好的之一。
二、R1新野望：布局世界模型，从“视频工具”到“可玩现实”
如果说V5.6解决的是“当下可用”，那爱诗科技1月发布的PixVerse R1，赌的是“未来可能”。
1月发布的PixVerse R1号称全球首个通用实时世界模型。早期内测画质仅540P，但交互方式极具颠覆性——你在下面打字，它在上面实时生成画面、推进剧情、切换镜头，仿佛为你造了一个世界；2月11日，R1迎来重大更新：支持720P高清实时生成、音频同步生成、UGC社区上线、API开放。
为了直观感受R1的能力边界，我们结合两个体验案例进行拆解。
案例一：火星基地日常
R1生成的画面中，连续场景切换中，火星基地风格保持统一。气闸舱的金属质感、气压读数、头盔雾气、植物、观测台等细节都准确到位。多区域跳转时人物位置连续，没有“重置感”。
最关键的是，这一切都是实时生成的。当我在输入“推开植物舱门”后，画面在1-2秒内切换到一个全新的、但与前序场景在空间逻辑上连贯的场景。这种“可探索世界”的体验，已经超越了传统的视频生成，更像是“可玩的现实”。
提示词（实时交互）：
[开场] 你是一名火星基地的宇航员，结束舱外作业，进入气闸舱。关闭厚重舱门，气压读数上升。摘下头盔，汗水顺着脸颊滑落，深吸一口循环空气中的金属味。
[走进生活舱] 绿色植物在LED灯下生长，跑步机靠墙，舷窗外红色荒漠延伸至地平线。坐到电脑前，敲下：“第287天，一切正常。”
[推开植物舱门] 湿润的热浪扑面而来。番茄藤爬满支架，LED灯光闪烁，自动灌溉系统发出轻微的嘶嘶声。
[爬上观测台] 进入穹顶观测台。360度全景玻璃外，火星星空璀璨夺目，火卫一正快速划过天际。
[进入休息舱] 穿过走廊进入休息舱。窄小的床铺，墙上贴着家人的照片。躺下时，飞船金属骨架发出熟悉的吱呀声。
案例二：梦境碎片生成器
这是对“实时生成+创意自由”的测试。梦境场景本身没有物理逻辑约束，考验的是模型对“风格”的理解和切换能力。不同于上一个示例采取文字生成视频，本次我首先上传了一张图片作为参考。
R1生成的画面中，从云桥→钟表→童年卧室→深海→太空→森林→城市，每个风格都有独特的视觉语言和细节密度，风格持续切换但人物形象保持一致。
最惊艳的是，环境响应即时，画面就在1-2秒内切换到完全不同的视觉风格。当梦境叠加时，大海倒悬天空、城市漂浮云层等复杂组合仍保持视觉可读性。这些超现实画面的融合处理，需要模型理解不同场景的空间关系和视觉层次。

提示词（实时交互版）：
[开场] 你是一个穿着泡泡袖睡衣的12岁小女孩，身在梦境，万物流动变幻。脚下是一座漂浮在云海上的透明桥，云朵翻涌。你缓步前行，桥身随着脚步轻轻晃动。
[遇见巨钟] 前方出现巨大的复古钟表，悬在虚空中。指针逆时针飞转，发出刺耳的滴答声。周围的光线随着指针倒流，色彩褪去又重现。
[触碰钟面] 你伸手触碰钟面，指尖传来冰凉触感。场景瞬间扭曲坍缩，下一秒你已站在童年卧室里——墙上的贴纸、窗外的老槐树，一切如昨。
[默念“大海”] 你闭上眼默念“大海”，场景如水墨般化开。转眼沉入蔚蓝深海，发光的鱼群环绕游弋。阳光透过海面洒下摇曳光斑，你漂浮在温暖洋流中。
[默念“太空”] 身体瞬间失重飘起。脚下是蔚蓝地球，星辰在黑暗中闪烁。空间站缓缓旋转，你伸手抓住飘过的宇航员头盔。
[默念“森林”] 脚下生出青苔与蕨类。巨树参天，发光的蘑菇照亮小径。远处传来鹿鸣，薄雾在林间流动，精灵般的萤火虫围绕着你。
[默念“城市”] 钢铁森林拔地而起。霓虹灯在雨夜中闪烁，全息广告牌变幻。你站在天桥上，看无数个自己在人群中穿行。
[觉醒时刻] 所有梦境开始重叠——大海倒悬天空，城市漂浮云层，童年房间的门通向太空。你知道即将醒来，却舍不得离开这个自己创造的世界。
值得一提的是，R1核心驱动力，源自其底层自研的Omni原生多模态大模型。该模型将文本、图像、音频、视频统一为连续Token流，实现端到端生成物理逻辑一致、感官协同的动态世界。
换句话说，模型不是先有视频后配音频，也不是先有画面后加交互，而是从一开始就把所有模态看作一个整体，在生成过程中实现多模态的协同进化。这种技术思路，比传统的“视频生成+后处理”路线更接近真正的“世界模型”。
正如爱诗官方所说：从“AI视频工具”迈向“可玩现实平台”，PixVerse正推动AIGC从单向内容消费，走向双向共创与沉浸交互的新阶段。随着社区机制、开放接口和高清实时的逐步落地，一个由用户共建、共享、共玩的AI世界正在加速到来。
结语：面向世界模型，国产AI视频厂商开辟“双线作战”
站在2026年初回望，AI视频生成领域正在进入关键节点。从Seedance 2.0靠生成质量提升火出圈，到PixVerse发布首个全球实时生成世界模型，我们正在见证一个新时代的开启。
竞争愈演愈烈，爱诗科技用PixVerse V5.6和R1给出了自己的答案：双线作战，当下与未来两手抓。一条线是用V5.6这样的成熟模型，在全球榜单上卡位；另一条线是用R1这样的前沿探索，卡位下一代交互范式。这一切正在被市场验证。PixVerse自2024年1月正式上线以来，国内版产品为拍我AI，截至2025年8月全球用户量已超1亿。
从Seedance2.0到PixVerse V5.6，国产AI视频玩家正在集体卡位全球第一梯队。如果说Seedance2.0代表的是国产AI视频的“热度”，那PixVerse V5.6的持续登顶证明的是国产AI视频的“厚度”，国产AI视频产业正在系统性崛起。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

无人驾驶航空器飞行均需提前审批！横琴迎来最严无人机管理

从4年到4周：罕见病诊疗提速背后的AI与政策双轮驱动

海外市场首个规模化应用“中国方案”，吉利辅助驾驶今年将出海

国家发改委价格监测中心：存储芯片价格持续上涨并向下游传导

北京人形机器人创新中心发布的RoboMIND数据集下载量已超过200万次

爱奇艺步子迈大了

全站最新

无人驾驶航空器飞行均需提前审批！横琴迎来最严无人机管理

从4年到4周：罕见病诊疗提速背后的AI与政策双轮驱动

海外市场首个规模化应用“中国方案”，吉利辅助驾驶今年将出海

国家发改委价格监测中心：存储芯片价格持续上涨并向下游传导

热门推荐

无人驾驶航空器飞行均需提前审批！横琴迎来最严无人机管理

从4年到4周：罕见病诊疗提速背后的AI与政策双轮驱动

海外市场首个规模化应用“中国方案”，吉利辅助驾驶今年将出海

国家发改委价格监测中心：存储芯片价格持续上涨并向下游传导

北京人形机器人创新中心发布的RoboMIND数据集下载量已超过200万次

爱奇艺步子迈大了

神州鲲泰发布KunTai A989 I3超节点服务器与KunTai W916 AI推理工作站

解锁“点石成丝”的科技密码

三星宣布与欧美日运营商深化合作，Galaxy S26等将用上卫星通信

阿里开源桌面智能体工具CoPaw

快手春节报告：红包“换一换”人均超10次，“摇红包”用户增长超60%

京东外卖披露多项数据称外卖市场份额超过15%

京东外卖披露多项数据称外卖市场份额超过15%

人形机器人开始在餐饮店“打工”，跨维智能机器人落地“鸿小饭堂”

华为、微软、亚马逊等八家公司为创始成员，React进入基金会时代