当前位置: 首页 » 资讯 » 新科技 » 正文

国内首个开源高质量音视频生成模型亮相,独家专访邱锡鹏解读 “最大的不同”

IP属地 中国·北京 上观新闻 时间:2026-02-28 06:16:44



就在这个月,字节跳动发布的音视频生成模型Seedance2.0引发广泛关注,马斯克更是在社交平台X(原推特)发表评论“发展速度太快了”。

值得关注的是,就在此前不久,上海创智学院联合模思智能发布国内首个开源高质量音视频同步生成模型MOVA,填补了国内开源大模型在音视频同步生成基础模型领域的空白。

先睹为快!一起来看看MOVA生成视频的效果——

是不是有一种身临其境的真实感?

相比商用化的Seedance2.0,偏“学院派”的MOVA有何特色?MOVA项目负责人、上海创智学院全时导师、复旦大学计算与智能创新学院教授邱锡鹏,接受解放日报记者独家专访,解读两大模型差异与行业发展。

当下,全球音视频生成技术已成为新一轮科技竞争焦点。MOVA与Seedance2.0均实现了画面与声音的同步输出,实现了真正意义上的音画一体生成。不过从单段生成效果来看,二者仍存在一定差距:MOVA支持最长8秒、720p分辨率的视频生成,而Seedance2.0则可达到15秒时长与2K高清分辨率。

目前音视频赛道中,国内外绝大多数模型均选择闭源,技术路线也不公开,Seedance2.0便不对外提供模型文件、不开放下载、不允许本地部署。

“完全开源,是MOVA与这些模型最大的不同。”邱锡鹏表示,选择开源是为了技术普惠,唯有开源才能吸引更多人参与研究,既推动技术快速进步,也助力国内开源生态建设。

正是基于这一理念,MOVA不仅完整开源360p、720p两个基础模型,还开源了微调、推理、生成工作流在内的全链路组件,具备高质量端到端音视频生成能力,支持二次开发、本地部署和学术研究。不管是做动漫还是游戏,都能以MOVA为“底座”,按自己的需求和风格进一步优化,适合中小团队、垂直场景的低成本落地。

这并非邱锡鹏团队首次布局开源——2023年2月,复旦大学发布类ChatGPT对话式大模型MOSS,时隔两个月便正式开源,成为国内首个支持搜索、画图、计算等插件的开源对话模型。

除了全栈开源,MOVA还采用混合专家创新架构,兼顾生成质量与推理效率。

“我们把自己定位成一个挑战者的角色,毕竟Seedance2.0是商用导向和工业级投入,而MOVA是开源生态导向,目标是构建开放社区。”邱锡鹏坦言。

相比文本模型,音视频模型开发难度极大,核心在于其数据规模远超文本,且训练所需的底层基础设施尚不完善。

“做这件事非常难,在过去的学术界几乎是不太可能完成的任务。”邱锡鹏感慨,算法层面几乎没有可借鉴的内容,而数据工程能力也并非高校和科研机构的强项。

所幸的是,上海创智学院倡导“研创学”融合的育人文化,为学生提供深度参与重大项目的机会,在实战中快速成长。即便学生原本不具备人工智能相关基础,经过半年的锻炼与实践打磨,展现出了优秀的创新能力。而学院孵化的模思智能,则依托企业天然优势,攻克了数据工程领域的关键难题。

据透露,MOVA1.5预计在3月底推出,性能会有更大的提升。“我们把MOVA开源,相当于第一个公开完整的音视频同步生成模型技术路线,包括数据合成、模型训练和模型推理等关键步骤,给大家作一个参考,复现出近似工业级的音画效果。”邱锡鹏说。

在他看来,当前全球音视频生成模型虽不断涌现,但整体仍处于起步阶段,未来竞争必将愈发激烈。行业关键突破点,集中在模型智能提升的核心命题上——与文本领域已确立的规模定律不同,音视频领域目前尚未发现类似规律,即尚未证实能否通过让模型“观看”视频、学习视频数据,实现自身智能显著提升,这也是行业亟待探索的核心方向。

邱锡鹏认为,音视频生成赛道才刚刚开启,未来仍有极大探索空间,其中之一便是通过优化视频数据指标,提升模型治理水平、助力智能迭代。他心中理想的视频智能模型,应能像人类一样通过理解视频感知世界,让视频成为继文本之外,模型获取智能的第二个核心来源,这与他团队提出的“视频思考”新范式高度契合,即借助视频生成模型整合动态推理与多模态融合,贴合人类认知逻辑,挖掘视频模态的智能潜力。

“视频生成本身只是一项基础任务,其核心价值在于通过这一任务赋能模型,推动模型向更高层次智能演进。当视频模型实现真正的智能提升后,最终将指向通用人工智能,使其能够比当前文本模型更深刻、更全面地理解世界。”邱锡鹏表示。

原标题:《国内首个开源高质量音视频生成模型亮相,独家专访邱锡鹏解读 “最大的不同”》

本文作者:解放日报 黄海华

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。