当前位置：首页 » 资讯 » 新科技 » 正文

中国首个Sora级视频大模型发布，支持一键生成长达16秒

IP属地山东济南 编辑：启航头部财经 时间：2024-04-28 14:15:17

【头部财经】在2024中关村论坛年会未来人工智能先锋论坛上，生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型 Vidu。
Vidu不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点，这也是自Sora发布之后全球率先取得重大突破的视频大模型，性能全面对标国际顶尖水平，并在加速迭代提升中。
据了解，该模型采用团队原创的Diffusion与Transformer融合的架构U-ViT，支持一键生成长达16秒、分辨率高达1080P的高清视频内容。
根据现场演示的效果，Vidu能够模拟真实的物理世界，能够生成细节复杂、并且符合真实物理规律的场景，例如合理的光影效果、细腻的人物表情等。它还具有丰富的想象力，能够生成真实世界不存在的虚构画面，创造出具有深度和复杂性的超现实主义内容，例如“画室里的一艘船正在海浪中驶向镜头”这样的场景。
此外，Vidu能够生成复杂的动态镜头，不再局限于简单的推、拉、移等固定镜头，而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换，包括能直接生成长镜头、追焦、转场等效果，给视频注入镜头语言。
作为中国自研视频大模型，Vidu还能理解中国元素，能够在视频中生成例如熊猫、龙等特有的中国元素。
值得一提的是，短片中的片段都是从头到尾连续生成，没有明显的插帧现象，从这种“一镜到底”的表现能够推测出，Vidu采用的是“一步到位”的生成方式，与 Sora一样，从文本到视频的转换是直接且连续的，在底层算法实现上是基于单一模型完全端到端生成，不涉及中间的插帧和其他多步骤的处理。
据了解，Vidu的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术 U-ViT 架构由团队于2022年9月提出，早于Sora采用的DiT架构，是全球首个Diffusion与Transformer融合的架构，完全由团队自主研发。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

京东618年度大促即将开启，现货销售5月31日启动

巴菲特将AI比作“核武器”，暗示变革潜力和风险

谷歌在财报前进行重大人事调整，核心团队裁员200名员工

摩根大通推出IndexGPT ，AI技术在金融领域的新应用

Adobe发布新版Photoshop，AI图像生成更智能

视源股份与微软合作，探索AI技术在智能会议系统中的应用

微软新AI天气预测模型：30天预报，准确率大幅提升

谷歌Chrome浏览器新特性：精细化管理网站权限

Firefox浏览器最多可以开多少个标签页？

抖音模仿雷军、周鸿祎，企业家模仿秀，法律边界在哪里？

谷歌相册新增三款AI图像编辑工具，免费提供给用户

微软曝光漏洞！小米、WPS Office在列，Android用户数据安全受挑战

OpenAI挑战谷歌搜索，计划推出全新搜索引擎

苹果财报披露：营收和净利润下降，豪掷1100亿美元回购股票

吴彦祖投资的高端健身房，SPACE宣布全面关闭

全站最新

比亚迪推出置换补贴，最高可达18000元

京东618年度大促即将开启，现货销售5月31日启动

朱晓彤回归特斯拉中国，市场预期FSD技术将加速部署

赛力斯结束四年亏损，问界车型助力实现盈利

巴菲特将AI比作“核武器”，暗示变革潜力和风险

谷歌在财报前进行重大人事调整，核心团队裁员200名员工

热门推荐

天猫取消618预售，对PC端网页优化升级

京东618年度大促即将开启，现货销售5月31日启动

巴菲特将AI比作“核武器”，暗示变革潜力和风险

谷歌在财报前进行重大人事调整，核心团队裁员200名员工

摩根大通推出IndexGPT ，AI技术在金融领域的新应用

Adobe发布新版Photoshop，AI图像生成更智能

视源股份与微软合作，探索AI技术在智能会议系统中的应用

微软新AI天气预测模型：30天预报，准确率大幅提升

上海现付费马桶圈充1000可用13.8万次，有人居然充值1000元

谷歌Chrome浏览器新特性：精细化管理网站权限

支付宝：“五一”入境宾客在华用支付宝消费同比涨7倍

Firefox浏览器最多可以开多少个标签页？

抖音模仿雷军、周鸿祎，企业家模仿秀，法律边界在哪里？

谷歌相册新增三款AI图像编辑工具，免费提供给用户

微软曝光漏洞！小米、WPS Office在列，Android用户数据安全受挑战