当前位置：首页 » 资讯 » 新科技 » 正文

苹果推出 STARFlow-V 视频模型，独家采用“归一化流”，实现长达30秒的画面稳定

IP属地中国·北京 编辑：顾青青 Chinaz 时间：2025-12-08 12:20:57

苹果公司正式发布了其全新的视频生成模型 STARFlow-V，该模型在底层技术上与当前主流的Sora、Veo和Runway等竞争对手完全不同。STARFlow-V 放弃了业界主流的扩散模型（Diffusion Model），转而采用**“归一化流”（Normalizing Flow）**技术，旨在解决长视频片段生成中的稳定性和错误累积问题。
扩散模型通过多步迭代去除噪声来生成视频，而STARFlow-V的核心“归一化流”技术，则直接学习随机噪声和复杂视频数据之间的数学变换。这一根本性差异带来了几大优势:
训练效率:训练过程只需一次完成，无需多次小迭代，提高了效率。
生成速度:训练完成后可直接生成视频，无需迭代计算，生成速度得到显著提升。
错误减少:减少了逐步生成过程中常见的错误。
苹果表示，STARFlow-V是首个在视觉质量和速度上能与扩散模型相媲美的同类技术。通过并行处理和重用先前帧数据，其生成五秒视频的速度比初始版本提高了约15倍。
双架构应对长视频挑战
生成长序列是当前视频AI技术的难题，因逐帧生成容易导致误差累积。STARFlow-V采用双架构方法来缓解这一问题:
一个组件管理跨帧的时间序列（运动一致性）。
另一个组件优化单个帧内的细节（画面质量）。
通过这种设计，STARFlow-V在长达30秒的演示片段中保持了稳定性，而竞争对手如NOVA和Self-Forcing在几秒后便开始出现模糊或色彩失真。
多功能性与性能表现
该模型无需修改即可处理多种任务，包括:
文本转视频（Text-to-Video）。
图像转视频（Image-to-Video），将输入图像作为起始帧。
视频编辑，允许用户添加或删除对象。
在VBench基准测试中，STARFlow-V获得了79.7分。虽然落后于Veo3（85.06）和 HunyuanVideo (83.24) 等顶尖扩散模型，但它明显优于其他自回归模型，尤其在空间关系和人体表征方面表现出色。
尽管技术创新显著，STARFlow-V仍存在局限:分辨率相对较低（640×480，16帧/秒），且目前无法在标准显卡上实时使用。
更关键的是，该模型在物理模拟方面存在明显的缺陷，例如“章鱼穿过玻璃”和“石头凭空出现”等现象。
苹果承认这些限制，并计划在未来工作中专注于加快计算速度、缩小模型规模，以及使用更注重物理精确性的训练数据。相关代码已在GitHub上发布，模型权重将随后在Hugging Face上公布。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

东方航天港海上发射指挥船成功下水，计划今年6月交付使用

大裁员20%，新模型难产，Meta AI这团乱麻仍然没理顺

余承东尼格买提AWE直播上手Mate X7，它凭什么定义折叠屏的标杆？

中东战火烧向晶圆厂？揭秘美伊冲突对半导体的四大潜在冲击

729声工场配音演员集体抵制AI声音侵权！南都曾调查乱象

315专题丨暴力催收顽疾难除，需从根源遏制激进催收动机

全站最新

东方航天港海上发射指挥船成功下水，计划今年6月交付使用

大裁员20%，新模型难产，Meta AI这团乱麻仍然没理顺

余承东尼格买提AWE直播上手Mate X7，它凭什么定义折叠屏的标杆？

中东战火烧向晶圆厂？揭秘美伊冲突对半导体的四大潜在冲击

热门推荐

Stellantis否认引入中国企业入股玛莎拉蒂

腾讯龙虾开启全国免费巡装：覆盖北上广深等17 个城市为期40 天

最强游戏小钢炮！红魔游戏平板5 Pro首发200Hz最高刷新率

1.4万个账号栽了！抖音严查AI生成低俗擦边内容

东方航天港海上发射指挥船成功下水，计划今年6月交付使用

大裁员20%，新模型难产，Meta AI这团乱麻仍然没理顺

余承东尼格买提AWE直播上手Mate X7，它凭什么定义折叠屏的标杆？

中东战火烧向晶圆厂？揭秘美伊冲突对半导体的四大潜在冲击

729声工场配音演员集体抵制AI声音侵权！南都曾调查乱象

315专题丨暴力催收顽疾难除，需从根源遏制激进催收动机

爆火≠落地! 全网刷屏的“养龙虾”难跨过的三道坎

「瓦力」机器人亮相AWE，元点智能交卷，意图打开大众市场？

1997元起！千问AI眼镜AWE发布：回答聪明、办事靠谱

AI能代替人干活吗？B站联合6位UP主用OpenClaw直播做了次社会实验

腾讯 “龙虾” 免费安装全国落地