当前位置：首页 » 资讯 » 新科技 » 正文

苹果联合人大发布VSSFlow模型：无声视频AI同步生成音效与配音

IP属地中国·北京 编辑：刘敏 IT之家 时间：2026-02-10 10:18:57

IT之家 2 月 10 日消息，科技媒体 9to5Mac 昨日（2 月 9 日）发布博文，报道称苹果公司携手中国人民大学（简称人大），推出 VSSFlow 新型 AI 模型，突破了传统音频生成技术的瓶颈，仅需单一系统即可从无声视频中同时生成逼真的环境音效与人类语音。
该模型的核心能力在于“化静为动”，能够直接处理无声视频数据，在单一系统的框架下，同步生成与画面高度匹配的环境音效以及精准的语音对话。该成果不仅解决了过去音频生成模型功能单一的问题，更在生成质量上达到了行业领先水平。
IT之家援引博文介绍，在 VSSFlow 问世之前，行业内的模型往往存在严重的偏科现象：视频转声音模型（V2S）难以生成清晰的语音，而文本转语音模型（TTS）又无法处理复杂的环境噪音。
传统的解决方案通常是将两者分阶段训练，这不仅增加了系统的复杂性，还常因任务冲突导致性能下降。VSSFlow 则另辟蹊径，采用了 10 层架构设计并引入“流匹配”技术，让模型自主学习如何从随机噪声中，重构出目标声音信号。
研究团队在训练过程中发现了一个令人惊喜的现象：联合训练不仅没有导致任务干扰，反而产生了“互助效应”。即语音数据的训练提升了音效生成的质量，而音效数据的加入也优化了语音的表现。
团队为了实现这一效果，向模型投喂了混合数据，包括配有环境音的视频、配有字幕的说话视频以及纯文本转语音数据，并利用合成样本微调模型，让其学会同时输出背景音与人声。
在实际运行中，VSSFlow 以每秒 10 帧的频率从视频中提取视觉线索来塑造环境音效，同时依据文本脚本精确引导语音生成。
测试数据显示，该模型在多项关键指标上均优于专门针对单一任务设计的竞品模型。研究团队目前已在 GitHub 上开源了 VSSFlow 的代码，并正在推进模型权重公开及在线推理演示的开发工作。

标签：模型视频语音音效环境数据文本声音 苹果公司 任务团队传统行业音频系统人声利用科技消息媒体技术信号 解决方案 背景配音两者质量能力核心专门精准线索

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

全站最新

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

热门推荐

智谱宣布GLM-5.2面向GLM Coding Plan全量用户开放

标致“纯电小钢炮”E-208 GTi发布：281马力5.5秒破百，42900欧元

首尔禁止中小学生戴AI眼镜参加期末考试，否则将一律按作弊处理

江淮汽车总经理李明：要让尊界等优秀产品惠及全球用户

机器人伴侣来了！10天预售3800台搭载养成系情感大模型

SpaceX历史性IPO后，马斯克称将深化与英伟达的关系

今夜过后，马斯克成为人类首位万亿富翁

萝卜快跑在瑞士启动道路测试 2027年将实现常态化运营

Anthropic：最先进模型，外国人禁用

网传阿里合伙人周靖人拟离职，仅出任阿里首席科学家6天

人物 | 陈宇森，那个让AI管人的技术极客，开启钉钉新时代

雷军用小米YU7装120箱车厘子共600斤，被指违规！刚刚直播回应：是卡车送过来的，是在封闭道路分装

湾区“造芯”更“追光”，粤芯闯关创业板

苹果为折叠屏iPhone Ultra铺路：iOS 27新增多款原生应用横屏模式

华为鸿蒙NEXT座舱发布计划公布，预计年底商用