当前位置: 首页 » 资讯 » 新科技 » 正文

2027万亿视频市场将爆发!AI十年如何重塑内容产业?|新智元十周年峰会

IP属地 中国·北京 新智元 时间:2025-09-14 14:19:47


新智元报道

编辑:编辑部

十年AI浪潮,走到视频新纪元。新智元十周年峰会现场,潞晨科技创始人兼董事长尤洋带来了一个颠覆性的愿景:用AI将视频创作从「少数人的特权」变成「全民的狂欢」,他如何让「天价短剧」瞬间「平民化」,甚至预言AI将重塑教育的未来?

2024年2月,AI圈子一夜沸腾!

OpenAI的Sora横空出世,展示了前所未有的视频生成能力。

短短几分钟的Demo,就让全世界意识到:视频生产方式正在被彻底改写!

可惜,那时的Sora并不对外开放,全球开发者和AI拥趸们只能隔着屏幕惊叹。


直到2024年12月,Sora才正式对外公布,并且需要每月支付200美元的 ChatGPT Pro 套餐

就在这股热浪涌动之际,一群年轻的创业者选择了不同的道路。

既然OpenAI的Sora,并不Open,那为何不做一个Open的Sora呢?

于是,他们把当时「不可用」的Sora做成了「人人可用」的开源模型——Open Sora,并迅速在GitHub上斩获了2.6万颗星,成为全球开发者追逐的明星项目。


目前Open Sora已经在Github上获得了2.7万颗Star

这群人背后的灵魂人物,正是潞晨科技的创始人——尤洋。

在「新智元十周年峰会」上,潞晨科技创始人兼董事长尤洋为我们描绘了一个颠覆性的愿景:《Video Ocean:多模态AI Agent驱动下一代视频生成》


他希望用AI将视频创作从「少数人的特权」变成「全民的狂欢」,让「天价短剧」瞬间「平民化」,甚至预言AI视频生成将重塑教育的未来。

放弃常春藤,选择创业

2025年被称为智能体元年,AI开始自我迭代与进化,视频内容正经历一场前所未有的革命。

视频作为信息传递的黄金载体,其生产方式正被彻底颠覆。

近几年,文生视频技术就像坐上了火箭。

刚开始大家还在摸索怎么让图片动起来,勉强能生成一些小短片。

突然间, 2023年,Runway就把它带到了我们面前,点点鼠标就能把文字变成视频。


到了2024年,正如我们开头所讲,OpenAI直接扔出个王炸Sora ,能生成接近一分钟的高清视频。


一下子把整个行业都点燃了!

从生数科技Vidu、潞晨的OpenSora、腾讯Hunyuan-Video、阿里Wan2.1到可灵、即梦等国内厂商百花齐放。

但高昂的成本、漫长的制作周期、生产效率低、角色人物一致性等核心痛点,让无数创意止步不前。

尤洋决定做点什么。

尤洋并非普通创业者。

他的履历带着传奇色彩:博士期间,他在加州大学伯克利分校创造了ImageNet和BERT等训练速度的世界纪录。

按常理,他完全可以留在常春藤名校继续自己的学术生涯。

但在2021年,他毅然回国,创立了潞晨科技。

这既是科研的挑战,也是产业的痛点。

昂贵的算力和缓慢的训练速度,让大模型难以真正普惠,而尤洋团队的目标,就是攻克这些瓶颈。

AI 狂潮席卷十载 视频飙升新纪元!

正值新智元十周年之际,尤洋回顾了自己过去的十年学业与创业历程。

回到十年前,2015年秋天,他开启了加州大学伯克利分校读博生涯。

经历了5年博士学术洗礼后,2020年毕业后,便加入了新加坡国立大学任职。

2021年,他带着「低成本做高效大模型」信念,回国创立了潞晨科技。

2024到2025年这一年间,他开始关注多模态未来发展,便有了开头所说Open Sora和最新的Video Ocean。

尤洋回忆道,个人求学与创业十年,也是AI加速进化,走到视频新纪元的十年。


2015年,微软提出深层残差网络ResNet,在ImageNet竞赛中夺冠,为深度卷积网络的广泛应用奠定基础。

相比1997年IBM的深蓝打败了国际象棋世界冠军卡斯帕罗夫,深蓝的胜利只是硬件速度和计算机的胜利。


人工智能的胜利则是聚焦在——2016年机器人与人类围棋大战。

AlphaGo首次击败人类世界顶尖九段高手李世石,标志着深度学习+强化学习结合的重大突破。


2017年,谷歌Transformer论文发表《Attention Is All You Need》,成为后续BERT、GPT等大模型的基石。


论文地址:https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf

2018年,BERT诞生,掀起NLP预训练与微调范式转变。

2019年,尤洋在博士期间在谷歌发布为大批量训练BERT设计的LAMB优化器(Layer-wise Adaptive Moments optimizer for Batch training),显著提升大模型训练效率。

2021年,尤洋团队推出深度学习系统优化框架Colossal-AI,在学术和业界得到广泛应用。



github:https://github.com/hpcaitech/ColossalAI

2022年11月,OpenAI推出ChatGPT(基于GPT-3.5),引发全球GenAI浪潮。


2023年,尤洋团队在全球学术界和开源社区实现RLHF(基于人类反馈的强化学习)首次复现。(注:RLHF是2022年初OpenAI在InstructGPT中首次系统提出)

2024年,文生视频技术迎来重大突破,OpenAI发布Sora,被视为AI视频生成领域的分水岭。

2025年,AI Agent概念落地探索。

从Video Ocean到算力优化

Video Ocean刚出的时候,迅速火爆全网,一键即可生成电影级特效!

新智元第一时间进行了评测报道。


因为效果惊艳,当时的X网友都集体上头了!

其实潞晨科技除了在AI视频生成领域颇有建树以外,还在算力领域进行了深耕。

在今年的昇腾开发者大会上,潞晨科技展示了基于昇腾算力的高效强化微调方案,与昇腾联合完成了从训练、推理到调度的全链路优化:

训练加速:Colossal-AI多维并行方案显著提升模型训练效率;

推理加速:vLLM Ascend推理引擎实现高性能低延迟推理;

调度与通信:Ray完成NPU调度与HCCL通信管理,支持复杂分布式训练需求。


可以说是为企业实现降本增效,加速智能业务基于国产软硬件体系快速部署落地提供了很大的支持。

视频爆发势不可挡

当下视频内容创作,正处在一个爆发点。

最直观的感受就是,短视频和内容经济迎来爆发式需求。


根据iResearch行业研究报告显示,2017年到2027年,中国网民视频与音频类用户消费时长将上涨14.2个百分点,从26.4%增长到40.6%。



报告https://www1.hkexnews.hk/listedco/listconews/sehk/2022/1212/10538836/sehk22112400951.pdf?utm_source=chatgpt.com

数据显示,中国在线视频(短视频及直播)市场收入从2017年约618亿元人民币快速增长到2021年约4994亿元人民币,五年复合年增长率(CAGR)高达68.6%

预计这一规模将持续扩张,于2027年达到1.326万亿元人民币,与此同时五年复合年增长率仍稳定在17.7%

另一个趋势就是,多模态大模型正成为行业主流。

根据GMI《全球多模态AI市场》2025-2034预测数据显示,全球多模态AI市场规模,预计从2024年16亿美元增长至2034年百亿美元规模。

报告预测,2025-2034年期间,年复合增长率稳定在32.7%。


报告https://www.gminsights.com/industry-analysis/multimodal-ai-market?utm_source=chatgpt.com

值得注意的是,美国独角兽LambdaLabs、Snapchat和meta这些全球知名社交媒体巨头都在寻求AI的助力,足以说明这场变革势不可挡。



美国独角兽LambdaLabs基于潞晨文生视频模型创造数字乐高宇宙


美国顶级社媒科技公司Snapchat直接使用潞晨LAMB方案训练视频大模型


美国科技巨头meta引用潞晨优化技术快速训练实时生成视频


美国科技巨头meta引用潞晨优化技术快速训练实时生成视频

未来创作新范式诞生?

当前,AI视频创作者和AI视频工具深度使用用户均面临两个核心痛点:制作速度慢和成本高。

尤洋回忆,2024年,用一个10亿参数模型生成一个10秒钟720P视频居然需要6分钟。

2025年,短剧迎来井喷式发展,但成本高一直困扰着制作商。

除此之外,创作门槛高、生产效率低、角色人物一致性等核心问题,也让有无数创意的视频制作用户止步不前。


尤洋提到,在上一代文生视频产品中,AI视频制作的SOP还停留在手动撰写脚本、手动生成分镜头图片、手动将分镜头图片和脚本配对生成视频。

这大大增加了视频制作时间成本。

除此之外,角色人物一致性也是当前影视级创作过程中急需解决的问题。


尤洋指出,影视级创作的核心是人物要真实与连贯。

但市面上很多生成的视频,常常出现「人物前后不一致」的问题,甚至在不同镜头里完全变了一个人。

针对这些用户核心痛点,尤洋给出解决策略。

他认为,「多模态MaaS和多模态AI Agent能代表视频生成的未来。」


他分析道,多模态MaaS,可以让创作者即开即用、还可以拓宽应用场景——不局限于社交媒体和电商领域、增强社区价值;

多模态AI Agent则可以降低创作门槛、可同时处理多个视频,达到规模化生产、支持协作优化。

自然语言驱动创作是另一个核心优势,它可以大大降低用户使用门槛。


即使你是一位没有掌握复杂软件技能的普通用户,Agent也可以把修改视频变得像修改一行代码或者一行文本一样简单。

AI狂飙!视频内容潜能全爆破!

解决了视频制作用户的核心痛点,接下来是真正落地到各行各业的实际场景。

尤洋敏锐地捕捉到,AI不论对短视频和电商、品牌广告和政企宣传,还是影视和教育行业场景都有直接价值。

未来谁会使用视频生成大模型?

尤洋在现场展示了用户使用Video Ocean制作的两个视频。

一个是广告级别的视频。

另外也是一个用Video Ocean生成的广告视频。

假如要承办一个体育赛事,比如承办一个F1赛车,应该如何给它做广告?

使用Video Ocean就能低成本地做出下面这种惊艳的效果。

那么除了广告,未来还有哪些人群会使用视频生成模型?

尤洋在大会现场说,他已经发现目前很多自媒体视频都是借助AI来生成。

比如如果对历史比较感兴趣的话,短视频平台有介绍林则徐虎门销烟的视频、有介绍玄武门之变的视频、有介绍淞沪会战的视频。

这些视频有一些确实是用AI生成。

今年这些AI生成视频已经能够满足一些抖音播主、YouTube播主、Snapchat播主做一些精度不是很高的视频。


尤洋觉得再迭代几次,就可能做一些电商,比如说亚马逊、淘宝上的广告视频。

如果在给一些时间,到明年(2026年)下半年,视频大模型质量会进一步提升。

那时候,也许就能做一些高端品牌电视广告,比如肯德基、宝马、耐克、美的。

甚至,还能直接做政企宣传片,比如宣传西安、宣传四川、宣传西藏。

等到2027年下半年,模型生成的视频质量已经很高的话,就真的有望做一些真正影视行业。

比如电影里面的一些镜头就可以考虑用视频大模型直接去制作。


另一个破局点

在绝大数人认为视频生成模型主要是给企业做广告、做宣传片以外。

尤洋还有额外的「洞察」。

他觉得视频大模型最关键的应用领域应该是教育行业。

教育行业也面临着一个长期痛点——「今天很多学生学知识学的效果不好,往往不是学生不够聪明,是因为老师跟他交流不在一个频道上。」

尤洋畅想,未来不管是学万有引力,学线性方程组,学淞沪会战等知识点。

每个学生都可以生成一个自己角度的Demo,比如学任何一个知识点,每个学生都可以生成20个视频,直到他理解为止。

他预测,未来教育行业会非常依赖视频大模型。

核心原因,在于高ROI和高频刚需。

这不仅仅是技术,这是教育的民主化,是知识获取的无限可能

「工具」到「智能团队」演变

尤洋认为,未来的「AI视频生成」并不会局限于一个工具,更有可能的形态是一个能四两拨千斤的「团队」。

Sora刚出来的时候,美国投资人Zak Kukoff曾预测,未来5年内,不到5人的团队就可以做出一个超过5000万美金票房的电影。


他的理想就是通过视频生成这件事把大模型的能力真正发挥出来,解放AI生产力。

AI未来方向和人类创作边界在哪儿?

这是一个值得深思的问题!

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新