新智元报道
编辑:编辑部
十年AI浪潮,走到视频新纪元。新智元十周年峰会现场,潞晨科技创始人兼董事长尤洋带来了一个颠覆性的愿景:用AI将视频创作从「少数人的特权」变成「全民的狂欢」,他如何让「天价短剧」瞬间「平民化」,甚至预言AI将重塑教育的未来?
2024年2月,AI圈子一夜沸腾!
OpenAI的Sora横空出世,展示了前所未有的视频生成能力。
短短几分钟的Demo,就让全世界意识到:视频生产方式正在被彻底改写!
可惜,那时的Sora并不对外开放,全球开发者和AI拥趸们只能隔着屏幕惊叹。
直到2024年12月,Sora才正式对外公布,并且需要每月支付200美元的 ChatGPT Pro 套餐
就在这股热浪涌动之际,一群年轻的创业者选择了不同的道路。
既然OpenAI的Sora,并不Open,那为何不做一个Open的Sora呢?
于是,他们把当时「不可用」的Sora做成了「人人可用」的开源模型——Open Sora,并迅速在GitHub上斩获了2.6万颗星,成为全球开发者追逐的明星项目。
目前Open Sora已经在Github上获得了2.7万颗Star
这群人背后的灵魂人物,正是潞晨科技的创始人——尤洋。
在「新智元十周年峰会」上,潞晨科技创始人兼董事长尤洋为我们描绘了一个颠覆性的愿景:《Video Ocean:多模态AI Agent驱动下一代视频生成》。
他希望用AI将视频创作从「少数人的特权」变成「全民的狂欢」,让「天价短剧」瞬间「平民化」,甚至预言AI视频生成将重塑教育的未来。
放弃常春藤,选择创业
2025年被称为智能体元年,AI开始自我迭代与进化,视频内容正经历一场前所未有的革命。
视频作为信息传递的黄金载体,其生产方式正被彻底颠覆。
近几年,文生视频技术就像坐上了火箭。
刚开始大家还在摸索怎么让图片动起来,勉强能生成一些小短片。
突然间, 2023年,Runway就把它带到了我们面前,点点鼠标就能把文字变成视频。
到了2024年,正如我们开头所讲,OpenAI直接扔出个王炸Sora ,能生成接近一分钟的高清视频。
一下子把整个行业都点燃了!
从生数科技Vidu、潞晨的OpenSora、腾讯Hunyuan-Video、阿里Wan2.1到可灵、即梦等国内厂商百花齐放。
但高昂的成本、漫长的制作周期、生产效率低、角色人物一致性等核心痛点,让无数创意止步不前。
尤洋决定做点什么。
尤洋并非普通创业者。
他的履历带着传奇色彩:博士期间,他在加州大学伯克利分校创造了ImageNet和BERT等训练速度的世界纪录。
按常理,他完全可以留在常春藤名校继续自己的学术生涯。
但在2021年,他毅然回国,创立了潞晨科技。
这既是科研的挑战,也是产业的痛点。
昂贵的算力和缓慢的训练速度,让大模型难以真正普惠,而尤洋团队的目标,就是攻克这些瓶颈。
AI 狂潮席卷十载 视频飙升新纪元!
正值新智元十周年之际,尤洋回顾了自己过去的十年学业与创业历程。
回到十年前,2015年秋天,他开启了加州大学伯克利分校读博生涯。
经历了5年博士学术洗礼后,2020年毕业后,便加入了新加坡国立大学任职。
2021年,他带着「低成本做高效大模型」信念,回国创立了潞晨科技。
2024到2025年这一年间,他开始关注多模态未来发展,便有了开头所说Open Sora和最新的Video Ocean。
尤洋回忆道,个人求学与创业十年,也是AI加速进化,走到视频新纪元的十年。
2015年,微软提出深层残差网络ResNet,在ImageNet竞赛中夺冠,为深度卷积网络的广泛应用奠定基础。
相比1997年IBM的深蓝打败了国际象棋世界冠军卡斯帕罗夫,深蓝的胜利只是硬件速度和计算机的胜利。
人工智能的胜利则是聚焦在——2016年机器人与人类围棋大战。
AlphaGo首次击败人类世界顶尖九段高手李世石,标志着深度学习+强化学习结合的重大突破。
2017年,谷歌Transformer论文发表《Attention Is All You Need》,成为后续BERT、GPT等大模型的基石。
论文地址:https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf
2018年,BERT诞生,掀起NLP预训练与微调范式转变。
2019年,尤洋在博士期间在谷歌发布为大批量训练BERT设计的LAMB优化器(Layer-wise Adaptive Moments optimizer for Batch training),显著提升大模型训练效率。
2021年,尤洋团队推出深度学习系统优化框架Colossal-AI,在学术和业界得到广泛应用。
github:https://github.com/hpcaitech/ColossalAI
2022年11月,OpenAI推出ChatGPT(基于GPT-3.5),引发全球GenAI浪潮。
2023年,尤洋团队在全球学术界和开源社区实现RLHF(基于人类反馈的强化学习)首次复现。(注:RLHF是2022年初OpenAI在InstructGPT中首次系统提出)
2024年,文生视频技术迎来重大突破,OpenAI发布Sora,被视为AI视频生成领域的分水岭。
2025年,AI Agent概念落地探索。
从Video Ocean到算力优化
Video Ocean刚出的时候,迅速火爆全网,一键即可生成电影级特效!
新智元第一时间进行了评测报道。
因为效果惊艳,当时的X网友都集体上头了!
其实潞晨科技除了在AI视频生成领域颇有建树以外,还在算力领域进行了深耕。
在今年的昇腾开发者大会上,潞晨科技展示了基于昇腾算力的高效强化微调方案,与昇腾联合完成了从训练、推理到调度的全链路优化:
训练加速:Colossal-AI多维并行方案显著提升模型训练效率;
推理加速:vLLM Ascend推理引擎实现高性能低延迟推理;
调度与通信:Ray完成NPU调度与HCCL通信管理,支持复杂分布式训练需求。
可以说是为企业实现降本增效,加速智能业务基于国产软硬件体系快速部署落地提供了很大的支持。
视频爆发势不可挡
当下视频内容创作,正处在一个爆发点。
最直观的感受就是,短视频和内容经济迎来爆发式需求。
根据iResearch行业研究报告显示,2017年到2027年,中国网民视频与音频类用户消费时长将上涨14.2个百分点,从26.4%增长到40.6%。
报告https://www1.hkexnews.hk/listedco/listconews/sehk/2022/1212/10538836/sehk22112400951.pdf?utm_source=chatgpt.com
数据显示,中国在线视频(短视频及直播)市场收入从2017年约618亿元人民币快速增长到2021年约4994亿元人民币,五年复合年增长率(CAGR)高达68.6%。
预计这一规模将持续扩张,于2027年达到1.326万亿元人民币,与此同时五年复合年增长率仍稳定在17.7%。
另一个趋势就是,多模态大模型正成为行业主流。
根据GMI《全球多模态AI市场》2025-2034预测数据显示,全球多模态AI市场规模,预计从2024年16亿美元增长至2034年百亿美元规模。
报告预测,2025-2034年期间,年复合增长率稳定在32.7%。
报告https://www.gminsights.com/industry-analysis/multimodal-ai-market?utm_source=chatgpt.com
值得注意的是,美国独角兽LambdaLabs、Snapchat和meta这些全球知名社交媒体巨头都在寻求AI的助力,足以说明这场变革势不可挡。
美国独角兽LambdaLabs基于潞晨文生视频模型创造数字乐高宇宙
美国顶级社媒科技公司Snapchat直接使用潞晨LAMB方案训练视频大模型
美国科技巨头meta引用潞晨优化技术快速训练实时生成视频
美国科技巨头meta引用潞晨优化技术快速训练实时生成视频
未来创作新范式诞生?
当前,AI视频创作者和AI视频工具深度使用用户均面临两个核心痛点:制作速度慢和成本高。
尤洋回忆,2024年,用一个10亿参数模型生成一个10秒钟720P视频居然需要6分钟。
2025年,短剧迎来井喷式发展,但成本高一直困扰着制作商。
除此之外,创作门槛高、生产效率低、角色人物一致性等核心问题,也让有无数创意的视频制作用户止步不前。
尤洋提到,在上一代文生视频产品中,AI视频制作的SOP还停留在手动撰写脚本、手动生成分镜头图片、手动将分镜头图片和脚本配对生成视频。
这大大增加了视频制作时间成本。
除此之外,角色人物一致性也是当前影视级创作过程中急需解决的问题。
尤洋指出,影视级创作的核心是人物要真实与连贯。
但市面上很多生成的视频,常常出现「人物前后不一致」的问题,甚至在不同镜头里完全变了一个人。
针对这些用户核心痛点,尤洋给出解决策略。
他认为,「多模态MaaS和多模态AI Agent能代表视频生成的未来。」
他分析道,多模态MaaS,可以让创作者即开即用、还可以拓宽应用场景——不局限于社交媒体和电商领域、增强社区价值;
多模态AI Agent则可以降低创作门槛、可同时处理多个视频,达到规模化生产、支持协作优化。
自然语言驱动创作是另一个核心优势,它可以大大降低用户使用门槛。
即使你是一位没有掌握复杂软件技能的普通用户,Agent也可以把修改视频变得像修改一行代码或者一行文本一样简单。
AI狂飙!视频内容潜能全爆破!
解决了视频制作用户的核心痛点,接下来是真正落地到各行各业的实际场景。
尤洋敏锐地捕捉到,AI不论对短视频和电商、品牌广告和政企宣传,还是影视和教育行业场景都有直接价值。
未来谁会使用视频生成大模型?
尤洋在现场展示了用户使用Video Ocean制作的两个视频。
一个是广告级别的视频。
另外也是一个用Video Ocean生成的广告视频。
假如要承办一个体育赛事,比如承办一个F1赛车,应该如何给它做广告?
使用Video Ocean就能低成本地做出下面这种惊艳的效果。
那么除了广告,未来还有哪些人群会使用视频生成模型?
尤洋在大会现场说,他已经发现目前很多自媒体视频都是借助AI来生成。
比如如果对历史比较感兴趣的话,短视频平台有介绍林则徐虎门销烟的视频、有介绍玄武门之变的视频、有介绍淞沪会战的视频。
这些视频有一些确实是用AI生成。
今年这些AI生成视频已经能够满足一些抖音播主、YouTube播主、Snapchat播主做一些精度不是很高的视频。
尤洋觉得再迭代几次,就可能做一些电商,比如说亚马逊、淘宝上的广告视频。
如果在给一些时间,到明年(2026年)下半年,视频大模型质量会进一步提升。
那时候,也许就能做一些高端品牌电视广告,比如肯德基、宝马、耐克、美的。
甚至,还能直接做政企宣传片,比如宣传西安、宣传四川、宣传西藏。
等到2027年下半年,模型生成的视频质量已经很高的话,就真的有望做一些真正影视行业。
比如电影里面的一些镜头就可以考虑用视频大模型直接去制作。
另一个破局点
在绝大数人认为视频生成模型主要是给企业做广告、做宣传片以外。
尤洋还有额外的「洞察」。
他觉得视频大模型最关键的应用领域应该是教育行业。
教育行业也面临着一个长期痛点——「今天很多学生学知识学的效果不好,往往不是学生不够聪明,是因为老师跟他交流不在一个频道上。」
尤洋畅想,未来不管是学万有引力,学线性方程组,学淞沪会战等知识点。
每个学生都可以生成一个自己角度的Demo,比如学任何一个知识点,每个学生都可以生成20个视频,直到他理解为止。
他预测,未来教育行业会非常依赖视频大模型。
核心原因,在于高ROI和高频刚需。
这不仅仅是技术,这是教育的民主化,是知识获取的无限可能。
「工具」到「智能团队」演变
尤洋认为,未来的「AI视频生成」并不会局限于一个工具,更有可能的形态是一个能四两拨千斤的「团队」。
Sora刚出来的时候,美国投资人Zak Kukoff曾预测,未来5年内,不到5人的团队就可以做出一个超过5000万美金票房的电影。
他的理想就是通过视频生成这件事把大模型的能力真正发挥出来,解放AI生产力。
AI未来方向和人类创作边界在哪儿?
这是一个值得深思的问题!