![]()
新智元报道
编辑:桃子 好困
AI第三种Scaling范式来临!多模态原生世界模型Emu3.5出世,340亿参数,基于790年长视频数据完成训练。即生3D世界,每张图片推理速度飙升20倍。
2025年,「世界模型」成为了AI巨头们厮杀的战场。
谷歌发布的Genie 3,一句话即可生成一个720p实时模拟的新世界。甚至,网友将其称之为「游戏引擎2.0时代」。
李飞飞World Labs团队也推出了一款实时生成世界模型——RTFM,仅用一块H100渲染出3D世界。

此外,还有meta FAIR打造的「代码世界模型」(CWM)、Runway的「通用世界模型」(GWM)、特斯拉的神经网络模拟器等,AI界玩家们都在积极布局。
尤其是,多模态领域的「世界模型」,成为了他们加码的核心点。
![]()
一直以来,李飞飞、LeCun等站队「世界模型」AI大佬们认为,仅凭语言,AI是无法复制人类智能,还需要理解和模拟物理解释。
世界模型,便是终极答案。它可以模仿人类对周围环境形成的「心智模型」来预测世界。
就在上周,人工智能领域再次迎来一枚深水炸弹。
北京智源研究院(BAAI)正式发布了其悟界·Emu系列的最新成果——Emu3.5。
在技术交流会上,智源研究院院长王仲远博士将其定位为「开启多模态世界大模型新纪元」的里程碑。
「并不一定所有的大模型技术路线都要完全跟随别人已经走过的路,我们自己也在开创一些新的技术路径。」王仲远表示,「Emu系列是我们自己走出来的技术路线,我们是引领性的。」
与当前主流的、将理解与生成分开处理的「模块拼接式」多模态模型(如LLM+CLIP及DiT架构)不同,Emu3.5回归「第一性原理」,像人类一样从连续、长时程的视觉经验中学习,用统一的自回归架构实现了对多模态世界的原生理解与生成。
「通过悟界·Emu3,我们验证了自回归架构实现多模态理解与生成大一统的可行性,」王仲远表示,「从Emu3到Emu3.5,我们证明了多模态也存在一个Scaling的范式。」
这个340亿参数的模型,在长文本渲染、复杂图像编辑、视觉故事生成等多个维度上,其表现足以让业界惊叹「Wow」。更重要的是,它所展现出的对物理世界动态、因果、时空、逻辑的深刻理解,预示着AI正加速从数字世界迈向物理世界。
智源公开了长达45页的详尽技术报告,将其数据处理、模型架构、训练方式、推理加速等技术细节全盘托出。
![]()
项目主页:https://zh.emu.world
技术报告:https://arxiv.org/pdf/2510.26583
这背后,是智源对「引领人工智能原始创新」的坚持,也是对未来技术路线的自信。
悟界·Emu3.5为当前全球大模型竞赛中的几个根本性问题,提供了一条来自中国的、逻辑自洽且潜力巨大的原创解法:
多模态应该如何统一?——通过原生的、端到端的自回归「Next-State Prediction」范式
世界模型应该学习什么?——学习蕴含了长时程、高一致性等世界知识的长视频数据
如何实现规模化?——借助「预训练+多模态RL」的第三种Scaling范式,复用现有LLM基础设施
如何落地?——通过DiDA等推理加速技术,解决效率瓶颈
第一性原理,像人一样学习
从Next-Token到Next-State
「人类的学习,不是从文本学习开始的。」王仲远在发布会上反复强调这个观点。
婴儿睁开眼,首先感知的是视觉世界,通过观察、交互,逐步理解物理规律、因果关系。语言是在这个基础上发展起来的、用于沟通和泛化的工具。
当前的大语言模型(LLM)在耗尽互联网文本数据后,增长已显疲态。而多模态领域,技术路线尚未收敛。主流的视频和图像生成模型,如Sora、Nano Banana,大多采用Diffusion Transformer(DiT)等混合架构,本质上仍是「拼装」——理解和生成模块分离,难以实现真正的、统一的智能。
Emu系列从诞生之初,就选择了另一条更艰难但更本质的道路:原生多模态。
Emu3.5继承并极大地发展了这一理念。它采用了一个极其简洁但强大的统一范式:预测下一个状态(Next-State Prediction)。
与LLM预测下一个文本Token类似,Emu3.5将图像、文本、乃至动作指令都「Token化」,置于一个统一的序列中,然后用一个单一的、端到端的自回归Transformer模型来预测序列中的下一个Token。
这个「Token」可以是一段文字描述,也可以是构成图像的一个「视觉词块」,甚至可以是一个指导机器人手臂运动的指令。
这种架构的优越性是显而易见的:
统一性:它彻底打破了理解与生成的壁垒。模型在生成图像时,是基于对上下文(包括之前的图像和文字)的深刻理解。
可扩展性:它能完美复用为LLM构建的、已极其成熟的训练、推理和强化学习基础设施。这意味着,所有在LLM上验证过的Scaling Law和优化技术,理论上都可以在Emu3.5上「再来一遍」。
「我们终于可以在多模态大模型上实现Scaling up了。」王仲远对此充满信心。
第三种Scaling范式
790年长视频数据与大规模多模态RL
如果说统一的架构是骨架,那么海量且高质量的数据就是血肉。
Emu3.5的训练数据量堪称恐怖:超过13万亿多模态Token。
其核心,不再是短视频剪辑或静态的图文对,而是累计时长达790年的互联网长视频,涵盖了纪录片、教学视频、Vlog、游戏动画等。
「长视频里有语音、有交互的文本,它有一个长的上下文,有一致性。」Emu系列研发负责人王鑫龙解释道。相比孤立的数据点,长视频天然蕴含了丰富的时空连续性、因果逻辑和上下文一致性,是学习世界模型的绝佳养料。
为了消化这些海量数据,智源团队构建了一套复杂的自动化数据处理流水线,包括场景分割、语音转文字(ASR)、关键帧提取、质量评估、冗余去除和多模态摘要生成等。
在训练上,Emu3.5的路径清晰而坚定:
大规模预训练
在超过10万亿Token上进行第一阶段预训练,让模型学会基础的多模态对齐和生成能力。整个训练过程「非常稳定」,在多个未见过的下游任务验证集上,损失函数随着算力投入稳步下降,这正是「Scaling范式」存在的有力证据。
大规模多模态强化学习(RL)
这是Emu3.5的另一大创举。众所周知,强化学习是激发LLM(如GPT-4o、DeepSeek-R1)推理和遵循指令能力的关键。但将其应用于更复杂、序列更长的多模态领域,困难重重。
得益于统一的自回归架构,Emu3.5首次实现了统一多任务、多模态的强化学习。团队构建了一个包含通用奖励(如美学、图文一致性)和任务特定奖励(如OCR准确率、人脸ID保持)的复杂奖励系统,通过GRPO算法,在统一的奖励空间内进行优化。
![]()
这套「大规模长视频预训练 + 大规模多模态RL」的组合拳,被王仲远称为继语言模型预训练、后训练之后的「第三种Scaling范式」。它指明了一条道路:通过不断增加视频数据、模型参数和算力,多模态世界模型的能力将可预见地持续提升。
黑科技DiDA
自回归模型推理飙升20倍
自回归模型「一个Token一个Token」的生成方式,导致其在生成高清图像(通常一张图就需要数千个Token)时速度很慢。这也是为什么Diffusion模型在生成领域长期占据主导地位。
为了攻克这一难题,Emu3.5团队研发了名为离散扩散自适应(Discrete Diffusion Adaptation, DiDA)的黑科技。
DiDA的核心思想是,在模型完成大规模的自回归预训练和后训练之后,通过一个轻量级的「适应」阶段,将其从「逐个Token预测」的模式,转换为「并行生成」的模式。
![]()
具体来说,它借鉴了离散扩散的思想,将图像生成过程变成一个「去噪」过程:模型不再是从左到右生成,而是一次性生成所有「带噪声」的视觉Token,然后在几个步骤内并行地、双向地修正它们,最终恢复出清晰的图像。
效果如何?每张图片的推理速度提升约20倍,且几乎没有性能损失!
这意味着,Emu3.5的自回归模型,在推理效率上首次能够与顶级的闭源Diffusion模型(如Midjourney)相媲美。这不仅是工程上的巨大胜利,更从根本上解决了原生多模态架构的商业化落地瓶颈。
从图像编辑到具身操作,开源最优
理论的先进性最终要靠效果说话。Emu3.5交出的答卷,足以让任何从业者感到兴奋。
顶级的Any-to-Image生成与编辑:
Emu3.5不仅能生成带有复杂公式、中英文对联的高质量图片,其图像编辑能力更是达到了新的高度。在ImgEdit、GEdit-Bench等权威benchmarks上,Emu3.5的得分全面超越了包括Gemini 1.5 Flash、Qwen-VL-Max在内的所有公开模型。
高层语义理解:
将指定的人物、特定的场景和任意物品进行组合,Emu3.5可以创作出一个符合逻辑的全新世界,展现了其强大的想象力和世界构建能力。
![]()
![]()
数字与空间理解:
指令「将图片中标号为4的物体换成电影海报」,模型能精准定位并替换。
![]()
视角变换:
给定一张建筑正面图,指令「切换到俯视图」,模型能像拥有3D建模能力一样,合理地生成新视角。
![]()
长时序、高一致性的「世界学习」能力:
这部分能力,是Emu3.5作为「世界模型」的核心体现,也是它与其他生成模型拉开代差的地方。在与Gemini 2.5 Flash Image的并列生成对比中,Emu3.5在视觉叙事、视觉指导、世界探索和具身操作等任务上的胜率均显著更高。
视觉叙事(Visual Narrative):
给定一个主题,Emu3.5能生成一系列图文并茂、情节连贯、主角形象高度一致的绘本故事。这得益于其长序列建模能力,解决了传统模型生成多图时「张张换人」的痛点
![]()
给图里的宝宝写个故事,要讲他夏天晚上和萤火虫玩
视觉指导(Visual Guidance):
如何倒水?如何叠衣服?Emu3.5能像一本活的说明书,通过「图片+文字」的步骤,清晰地展示一个任务的全过程
![]()
模型输出结果:如何用黏土和颜料手工制作一个宇航员模型
![]()
模型输出结果:如何从种子开始种羽衣甘蓝?
世界探索(World Exploration):
用户可以用文字定义一个场景,如「一个阳光明媚的现代客厅」,然后通过「向左转」、「向前走」等指令,模型会生成符合逻辑的、连续的探索画面,仿佛置身于一个可交互的虚拟世界。这部分前面的视频已经展示了。
具身操作(Embodied Manipulation):
这是Emu3.5最具想象力的应用之一。给定一个任务,如「用松灵机械臂把桌面收拾好,12 步完成」,模型能生成一个包含12个步骤的、由松灵机器人手臂执行的图文序列。它不仅规划了子任务,还生成了每个关键步骤的视觉状态。这为解决具身智能领域「数据稀缺」的痛点提供了全新的思路——用世界模型生成海量的、泛化的仿真数据。
![]()
智源研究院不仅发布了模型,更公开了详尽的技术报告。这种开放的姿态,旨在邀请全球社区共同探索这条由中国开创的新路。「我们希望这条路后续成为主流的路。」王仲远说,「登珠穆朗玛峰南坡和北坡也许都可以登顶,我们希望我们走的是大家认可的一条路。」
Emu3.5的参数仅为340亿,使用的视频数据不到互联网公开数据的1%。它的能力上限,远未触及。
未来随着模型规模、数据规模的进一步扩大,这个「世界模型基座」还将带来怎样的惊喜,我们拭目以待。
参考资料:
https://zh.emu.world/
https://arxiv.org/pdf/2510.26583





京公网安备 11011402013531号