当前位置: 首页 » 资讯 » 新科技 » 正文

苹果推出 STARFlow-V 视频模型,独家采用“归一化流”,实现长达30秒的画面稳定

IP属地 中国·北京 编辑:顾青青 Chinaz 时间:2025-12-08 12:20:57

苹果公司正式发布了其全新的视频生成模型 STARFlow-V,该模型在底层技术上与当前主流的Sora、Veo和Runway等竞争对手完全不同。STARFlow-V 放弃了业界主流的扩散模型(Diffusion Model),转而采用**“归一化流”(Normalizing Flow)**技术,旨在解决长视频片段生成中的稳定性和错误累积问题。

扩散模型通过多步迭代去除噪声来生成视频,而STARFlow-V的核心“归一化流”技术,则直接学习随机噪声和复杂视频数据之间的数学变换。这一根本性差异带来了几大优势:

训练效率:训练过程只需一次完成,无需多次小迭代,提高了效率。

生成速度:训练完成后可直接生成视频,无需迭代计算,生成速度得到显著提升。

错误减少:减少了逐步生成过程中常见的错误。

苹果表示,STARFlow-V是首个在视觉质量和速度上能与扩散模型相媲美的同类技术。通过并行处理和重用先前帧数据,其生成五秒视频的速度比初始版本提高了约15倍。

双架构应对长视频挑战

生成长序列是当前视频AI技术的难题,因逐帧生成容易导致误差累积。STARFlow-V采用双架构方法来缓解这一问题:

一个组件管理跨帧的时间序列(运动一致性)。

另一个组件优化单个帧内的细节(画面质量)。

通过这种设计,STARFlow-V在长达30秒的演示片段中保持了稳定性,而竞争对手如NOVA和Self-Forcing在几秒后便开始出现模糊或色彩失真。

多功能性与性能表现

该模型无需修改即可处理多种任务,包括:

文本转视频(Text-to-Video)。

图像转视频(Image-to-Video),将输入图像作为起始帧。

视频编辑,允许用户添加或删除对象。

在VBench基准测试中,STARFlow-V获得了79.7分。虽然落后于Veo3(85.06) 和 HunyuanVideo (83.24) 等顶尖扩散模型,但它明显优于其他自回归模型,尤其在空间关系和人体表征方面表现出色。

尽管技术创新显著,STARFlow-V仍存在局限:分辨率相对较低(640×480,16帧/秒),且目前无法在标准显卡上实时使用。

更关键的是,该模型在物理模拟方面存在明显的缺陷,例如“章鱼穿过玻璃”和“石头凭空出现”等现象。

苹果承认这些限制,并计划在未来工作中专注于加快计算速度、缩小模型规模,以及使用更注重物理精确性的训练数据。相关代码已在GitHub上发布,模型权重将随后在Hugging Face上公布。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。