当前位置：首页 » 资讯 » 新科技 » 正文

边看边创造，在 PixVerse R1 的实时世界模型里，你真是上帝

IP属地中国·北京 硅星人 时间：2026-01-14 12:23:36

作者｜ Yoky
邮箱｜ yokyliu@pingwest.com
想象一下，用一句话生成一个世界，一句话改变一个世界，一句话无限延伸一个世界。
1 月 13 日晚，爱诗科技正式发布 PixVerse R1，它是“全球首个通用实时世界模型”，支持最高 1080P 分辨率，基于原生多模态架构、自回归流式生成和瞬时响应引擎构建。

先别管它是不是真正的“世界模型”，重要的是它确实改变了视频媒介的固有范式。过去视频生成是单向的：输入指令、等待结果、拿到成品。R1 把这个过程变成了实时对话：你说一句，画面就变一下，一直说下去，视频也就一直生成下去，没有时长限制。
有点前阵子 Gemini 发布生成式 UI 那味了：核心突破不是“更快”，而是交互方式变了。PixVerse R1 不是“更快的视频生成工具”，而是试图让 AI 真正模拟一个持续运转、可以随时介入的世界。
这极大拓宽了视频生成的应用场景。以前视频生成最有价值的是最终成品，是剪辑之后的结果。现在生成过程本身就是一种交互体验，可以直接用在实时游戏、互动剧情、甚至直播里。
真的假的？我们实测了一下，看看 Sora 画了一年多的饼，PixVerse 是不是真的先做到了。
1
不用等，你就是上帝
R1 上线后，硅星人在第一时间对其进行了测试，我们用一个经典的故事，来看看它的理解和交互能力。

prompt 设定是一个经典的奇幻世界：浮空岛屿悬浮在金色黄昏的天空中，巨大的瀑布从岛屿边缘倾泻入云海，古老的石桥连接着各个岛屿，桥上爬满发光的藤蔓。在这个世界里，我“操纵”了一条喷火的巨龙盘踞在最高的岛屿上，一位勇士要穿越重重险阻，最终拔剑与龙搏斗，救出被囚禁的公主。
第一个让我意外的地方是真的不用等。从输入 prompt 到画面开始流动，体感上几乎是即时的。按下生成，画面就开始随着提示词变化。用过其他视频生成工具的人应该知道，传统流程是：输入、等待、loading 转圈、几十秒甚至几分钟后出结果。R1 的体验完全不同，prompt 和画面之间几乎没有时间差，你还在构思下一句的时候，上一句已经变成画面在播放了。这对于需要反复调试、快速迭代的创作流程来说，体验提升是质变级别的。
在长时间的生成中我发现，即便没有提示词，R1 的生成也是连贯的。以前用视频生成工具做长内容，本质上是“拼片段”，每次只能生成 4 秒或 6 秒的片段，想讲一个完整的故事，得自己手动把十几个片段剪到一起。问题在于，片段和片段之间，模型没有记忆。
R1 不一样。我从勇士启程、跨越石桥、对抗巨龙、救出公主，整个叙事是一条连续的流，不是碎片拼图。生成的结果中镜头逻辑是通的：勇士冲向巨龙时，镜头跟着他的动线推进；拔剑的瞬间，切了一个剑身特写，然后再拉回全景。这种镜头语言不是我 prompt 里写死的，是模型自己“理解”了叙事节奏之后做出的选择。
第三个值得说的是，理论上可以一直生成下去。传统模型有一个硬伤叫“时长上限”。4 秒就是 4 秒，6 秒就是 6 秒，想要更长的内容，只能靠接力和拼接，而且越往后生成，累积误差越大，画面崩得越厉害。R1 让它摆脱了这个限制，测试的时候发现如果用户不干预，它可以一直生成下去，故事从勇士救出公主，发展到两人骑着飞行生物逃离巨龙的追击，又演变成飞跃云海、抵达一座新的浮空城市，即便不给新的提示词，它也会按照剧情一直生成下去，做到真正的“无限流”。
问题主要集中在转场和一致性上。
因为我的 prompt 写得比较笼统：只给了“勇士穿越石桥”“与龙搏斗”“救出公主”这些关键节点，没有详细描述中间的过渡：模型在处理细节切换时出现了一些生硬的跳接。比如勇士刚刚还在石桥上奔跑，下一秒直接出现在龙面前，中间的空间位移没有任何交代。
另外，勇士在某些片段里会突然“变人”，前一秒还是男性形象，下一秒莫名变成了公主；有时候人物会毫无征兆地凭空出现或突然消失，虽然不至于完全崩坏，但确实能感觉到模型对角色的“记忆”还不够稳固。
这些问题加在一起，让我意识到 R1 目前的“世界模型”更像是一个新的框架：大的叙事逻辑能跑通，但细节处的物理规则和角色锁定还需要和真实世界的我们相互适应。
总体来说，PixVerse R1 在速度、叙事连贯性和时长自由度上确实有突破，这三点加在一起，已经能改变很多叙事方式了。但“世界模型”这个概念要真正落地，物理一致性和自动化的叙事连贯性还需要继续打磨。
1
PixVerse R1 是“真实时”吗？
在此之前，市面上也有一些模型宣称“实时生成”，但大多数其实是“伪实时”，生成时间缩短到了人类感知不太敏感的范围，给人的体感像是实时，但本质上还是“先渲染、后播放”。你看到画面的时候，计算早就跑完了，只是等待时间短到你没注意而已。
R1 究竟是不是真实时，要看的不仅是它的效果，更是它的架构。
打个比方。伪实时像视频网站的预加载，提前缓冲了 10 秒，所以你感觉没有卡顿，但跳到没缓冲的地方就得等。“真实时”是直播：画面是当下正在发生的，不存在“提前渲染好”这回事。对应到视频生成：伪实时是“算得快”，真实时是“边算边出”。前者你没法在生成过程中插嘴，后者你可以随时喊停、随时改指令，画面即时响应。
R1 属于后者。它的架构从底层就是为“流式交互”设计的，不是在传统架构上做加速，而是换了一套逻辑。
传统的多模态模型，其实是“拼装”出来的，文字走一个模型，图片走另一个模型，音频再走一个，最后把结果拼到一起。各个模块之间没有真正打通。你让它生成“一只猫跳上窗台，窗外下着雨”，它可能猫画得不错，雨也画得不错，但猫毛有没有被雨淋湿、窗台上有没有雨水溅落这些细节，它顾不上，因为它是分开处理的。
R1 用的是 Omni 原生多模态架构。什么叫原生？就是从一开始，文字、图片、音频、视频就在同一个架构里训练，用同一套“语言”处理。模型看到的不是“文字+图片+声音”的拼盘，而是一条统一的 Token 流。这样它才能真正理解：下雨天的猫，毛发应该是湿的，窗台应该有水渍，雨声应该和画面同步。

R1 所采用的自回归流式生成，意味着模型生成下一帧的时候，会参考前面已经生成的内容。更关键的是它有“长期记忆”，不只是记住上一帧，而是能记住几十秒甚至几分钟前的信息。这就是为什么 R1 可以生成理论上无限长的视频，而且角色形象和场景逻辑大体上能保持一致。这是实时交互的基础，只有生成是连续的、有记忆的，你中途插入的指令才能被接住，而不是让整个画面从头再来。
前面两点解决的是“能不能”的问题，但还没解决“快不快”。就算模型听懂了、记住了，如果每帧还是要算 50 步，那还是快不起来。
R1 的做法很激进：直接把采样步数压缩到 1 到 4 步。
怎么做到的？简单说就是砍弯路、加引导、动态调配。把原来必须走的冗余计算砍掉，只保留最关键的节点；在极少步数里通过额外引导保证画面质量不崩；根据画面内容动态调整计算量：简单的地方少算，复杂的地方多算。
原生多模态让它听懂你要什么，自回归让它记住前面发生了什么，极致压缩的采样让这一切发生在“此刻”而不是“稍后”。
至于 R1 是不是“世界模型”？
它确实做到了实时、连贯、可交互。这不只是技术指标的提升，更是通向“世界模型”的关键跃迁。视频，作为对人类影响最大的媒介形态，正在成为 AI 理解物理规律、推演因果关系链条、应对开放场景的最前沿。真正的“世界模型”，可能将是人类想象力与机器智能共同演化的场域。PixVerse R1 只是实时（Real-time）媒介形态的一个起点，它第一次让亿万观众站在了这个世界的新入口：可以看，更能参与创造。
但方向比完美更重要。
Sora 让大家相信 AI 能生成视频，PixVerse 让大家相信 AI 生成的世界可以通过视觉交互。这是两件不同的事，后者可能才是通往真正“世界模型”的路。

点个“爱心”，再走吧

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

Realme会有一加的好命吗？

阿里云 2026 年目标：拿下中国 AI 云市场增量的 80%

英特尔新一代旗舰工作站处理器至强698X现身测试，86核心

AMD 2nm巨兽Venice霄龙处理器曝光：256颗Zen 6C核心

智谱联合昇腾+昇思，开源首个自主创新算力底座训练的多模态SOTA模型

千问APP发布会将于1月15日举行，C端月活用户已破亿

全站最新

Realme会有一加的好命吗？

阿里云 2026 年目标：拿下中国 AI 云市场增量的 80%

英特尔新一代旗舰工作站处理器至强698X现身测试，86核心

AMD 2nm巨兽Venice霄龙处理器曝光：256颗Zen 6C核心

热门推荐

消息称阿里千问上线两月MAU破亿，AI超级应用C端战略初见成效

Anthropic 的新 AI 编程助手 “Cowork”：一周半就能完成的智能创作

iPhone18 Pro新爆料上热搜灵动岛或变小

Realme会有一加的好命吗？

阿里云 2026 年目标：拿下中国 AI 云市场增量的 80%

英特尔新一代旗舰工作站处理器至强698X现身测试，86核心

AMD 2nm巨兽Venice霄龙处理器曝光：256颗Zen 6C核心

智谱联合昇腾+昇思，开源首个自主创新算力底座训练的多模态SOTA模型

千问APP发布会将于1月15日举行，C端月活用户已破亿

反转太快！「死了么」改名遭全网质疑，这波操作太打脸了

OpenAI 引爆 AI 医疗赛道云知声(09678)价值重估窗口已至

国家最新定调！2026年加快突破高级别自动驾驶，扩大汽车消费

国产Nano Banana开源！用华为AI芯片训练，1张图只要1毛钱

欣旺达董事长王威回应沃尔沃汽车召回事件：相关网络传言不属实

我国发布全球首个“月球计时软件”，争夺月球标准时间定义