![]()
作者 | 董道力
邮箱 | dongdaoli@pingwest.com
本周 AI 项目推荐,我们聚焦在“演员的一生之敌”,AI 视频生成工具上。
如今 AI 视频生成这条赛道里,炫目的 Demo 已经很难再砸出多少水花了,行业视线悄悄从“生成得出来吗”转移到“能不能进流程、进交付”。
真正考验模型/产品的是工程侧,多镜头的一致性要稳,相机语法要能被精确控制,角色要可复用,音画最好一条链路里就成片,这些才决定内容能不能规模化产出,而不是停留在几条电影级的样片上。
头部产品,OpenAI的Sora 把“可复用角色”和“镜头拼接”变成面向创作的标准能力,Google Veo 把服务拆成速度档、质量档,方便团队塞进既有的算力和预算框架。
Demo 只是开头,产能才是故事。
由于 AI 视频生成工具众多且更新迅速,它成了今天最拥挤也最接近“颠覆产业”的一条赛道。它们有底层模型,有平台产品,这让外界有时分不清它们的区别,因此,我们做了一个四象限分类:
横轴从“模型/基础能力驱动”到“工具/工作流/应用驱动”,纵轴从“通用场景”到“垂直场景”。
![]()
这些来自大厂和创业公司的产品,落在不同的四大门派,彼此竞争。
1
Q1:通用 × 模型驱动
主打“我这个底模很强”,再往上包一层产品壳。
快手|可灵
快手在 2024 年 6 月正式发布视频生成大模型“可灵 Kling”,可以生成最长 2 分钟、1080p、30fps 的长视频,并支持多种宽高比,直接对标“长视频、强物理、一致性”这一档能力。
特点:
在技术路径上,可灵走的是“图像–视频联合训练+通用世界模型”的思路:一端用 Koala-36M 这类大规模、高质量视频数据集配合 Scaling Law,把基础模型往更大、更稳的方向推。另一端在 Owl-1 里把视频视作“状态–观测–动作”的闭环演化过程,在潜空间里建一个 Omni World Model,让模型先学会世界状态如何随时间演进,再用视频生成模型去“拍摄”这一过程,从而在长时间轴上维持运动轨迹、镜头语言和物理规律的一致性。 
从产品形态看,可灵也不只是单独一块模型,更像是快手内容生态里的视频底层引擎,为原生短视频创作者提供从秒级片段到长镜头内容的稳定生成能力。
https://app.klingai.com/cn/
腾讯|混元
腾讯在混元大模型体系下推出了 HunyuanVideo,并把“文生视频”作为对外开放的重要一环:一边通过腾讯云「混元生视频」提供 API 服务,面向短视频平台、影视制作、广告营销和游戏等行业,一边将 HunyuanVideo 的推理代码与权重开源到 GitHub 和 Hugging Face,拉起本地部署与二次开发的社区生态。开源模型参数量约 130 亿,是当前体量最大的开源视频基础模型之一。 
特点:
走“开源追赶闭源”的叙事,并强调中文语境的优势。
HunyuanVideo 采用图像–视频联合训练和严格的数据筛选策略,在技术报告里明确强调了对中文场景的适配:通过多模态大模型做文本编码,对人物表情、肢体动作和镜头运动进行专项增强,使其在物理一致性和镜头连贯性上逼近闭源头部模型。
https://video.hunyuan.tencent.com/
![]()
阿里|通义万相
通义万相是阿里通义体系下的 AI 创意平台,最早凭文生图、图生图出圈,随后补齐文生视频、图生视频、图像编辑等一整套能力,并在阿里云「百炼」平台上以 API 形式对外开放:在线产品主要面向设计师、电商商家和内容创作者,云端则瞄准品牌方、MCN 等需要批量产出的企业级场景。
在模型迭代上,阿里先后推出并开源了 Wan2.1、Wan2.2 等版本。Wan2.2 在文生视频、图生视频和统一视频生成三条线上一起升级:一方面引入 MoE(专家混合)结构,用高噪声专家负责整体布局、低噪声专家专注细节刻画,在不增加有效参数规模的前提下,把推理算力开销压到大约原来的一半;另一方面通过高压缩率 3D VAE,将时间与空间信息压缩到 4×16×16 的潜在表征,在消费级显卡上就能在数分钟内生成 5 秒 720p 视频,照顾了本地开发者和小团队的算力现实。
特点:
通义万相提出了“电影美学控制系统”,允许用户用“黄昏、柔光、边缘光、暖色调、中心构图”这类语言去控制光影、色彩、构图和镜头情绪。
这是在尝试把摄影指导的语言直接映射到生成空间里,一种凭着模型能力强而延伸出的端到端竞争策略。
https://tongyi.aliyun.com/wan/
LTX Video
LTX 出自以 Facetune 闻名的 Lightricks。它的底层是自家的开源视频模型族 LTX-Video / LTX-2。第一代 LTX-Video 是一个基于 DiT(Diffusion Transformer)的潜空间视频扩散模型,核心思路是把 Video-VAE 和去噪 Transformer 当成一个整体来优化,在高压缩率时空潜空间中做全时空自注意力,由 VAE 解码器负责最后一步去噪和上采样。这样既保住细节,又把推理成本压到接近“实时”:在 H100 上可以约 2 秒生成 5 秒、24fps、768×512 的视频,比播放还快。
特点:
2024 年 2 月他们发布 AI 视频创作产品 LTX Studio,定位为“给创作者用的 AI 电影工作室”。
这是模型和产品结合的一条越来越被采纳的路——它可以从一段文本或脚本自动生成角色、场景、分镜和镜头,再在时间轴上做剪辑、调构图、改运镜,而不是只吐一条不可控的视频。
LTX Studio 在 2024 年下半年结束内测向公众开放,之后陆续被广告公司和创意工作室拉进正式工作流。
https://ltxvideo.ai/zh
Stable Video Diffusion
Stability AI 于 2023 年 11 月发布 Stable Video Diffusion(SVD),最初以研究用途开放,两条线路:SVD(约 14 帧)与 SVD-XT(约 25 帧),帧率可在 3–30fps 自定义;随后在 2023 年 12 月上线 API Alpha。定位更像“视频生成底座”,广泛被接入到本地/企业流程中。 
特点:
SVD 的优势依然是可自托管、成本可控、拼装友好——适合作为企业/工作室视频流水线里的“生成单元”。
但在Sora等的冲击下,SVD开始有些走下坡路。
它并非端到端成片器:默认无音频、时长受帧数限制、复杂人物连续性需后期兜底。因此与 Sora、Veo 这类“模型即产品”相比,SVD 的定位开始走向工程化组件,未来可能只会扮演“可控、可部署、可二开”需求里的其中一环。
https://stability.ai/stable-video
1
Q2:通用 × 工具 / 工作流驱动
场景广泛,但核心卖点是「一条工作流」而不只是模型参数。
字节跳动|即梦 AI
即梦 AI 由剪映团队孵化,后来作为字节跳动旗下的一站式 AI 创作平台,对接 Web 端和剪映 App 等多个入口,逐步与火山引擎打通,面向个人创作者和企业客户提供服务。它同时覆盖文生图、图生图、文生视频、图生视频、音乐和音效生成等能力,目标是把“从灵感到成片”的整条链路收进同一个工作台。
在底层能力上,即梦接入了包括 PixelDance 在内的新一代视频生成模型,支持中文提示词、多风格图片生成,也能从文字或参考图快速生成短视频片段。创作者可以用首帧 / 尾帧约束故事走向,再通过运镜控制、节奏调节和对口型驱动,让二维插画动起来。配合智能画布里的多图融合、局部重绘、一键扩图、抠图等功能,可以在同一画布上搭建复杂场景,并保持整体风格统一。
特点:
依然是最有野心的“工作台”级别产品之一。
即梦是一套“模型+剪辑工具+分发场景”的组合:创作者在智能画布里构好画面,用文案驱动视频生成,一键送入剪映时间线继续后期,再经由抖音、今日头条等渠道分发,让 AI 生成直接嵌进字节现有的内容生产与分发体系里。
https://jimeng.jianying.com/
![]()
Runway|Gen-3
Runway 在 2024 年把 Gen-3 推到台前,将“文本/图→视频、视频延长与编辑”合成到一条可用的制作链路里。面向创作者与小团队,支持短时长片段、横竖屏与多比例输出,并在同一工程里完成参考图、版本迭代与导出,降低了从想法到可交付样片的门槛。
Gen-3 基于扩散式视频生成,将画面作为时空体建模,重点放在镜头语言的可控:关键帧(首/尾帧)、相机运动曲线、遮罩与区域替换、参考镜头驱动等都做成了前台控件,Video-to-Video 用于风格改写与叙事修正,延长功能用于顺接镜头。其短板在于长镜头与跨镜人物一致性仍需精细引导与后期拼接。
特点:
Gen-3 把“导演面板”交回给使用者,适合广告提案、社媒内容与轻叙事的高频产出;当需求转向长时长或复杂群像时,最好与分镜/剪辑管理工具协同。
https://runwayml.com/
![]()
Luma AI|Dream Machine
Dream Machine 走的是“高质直出+成片工具”的组合路线,Web/iOS 并行,既能快速得到具备电影感的短片,也能通过企业/API 接入到现有工作流。
常见用法是先生成数秒片段,再在工程内完成升格与比例适配,直接对接不同分发渠道。
特点:
底层同样采用时空扩散与注意力建模,特长是运动自然与写实观感:镜头衔接更顺、材质与光影层次更稳。配套的 Reframe/多比例重构与上采样,减少了横竖屏切换的画质损失;参考图与素材可用于风格、角色与场景的软约束。瓶颈在于超长叙事仍需分镜拆解。
它把“画面质量”和“工程落地”放在同一优先级:适合高质广告、影视预演与跨平台分发的稳态生产,而非一次性炫技。
https://lumalabs.ai/dream-machine
![]()
Flova AI (waitlist)
Flova.ai 在 2025 年推出,还处于内测阶段,本质上不是单一视频模型,而是“多智能体虚拟导演+一站式视频工厂”。
用户只要给一句想法或一个大致故事,脚本、分镜、场景、配乐与配音等 Agent 就会接力完成从文案到成片的整条流水线,用聊天的方式就能拉出接近电影质感的视频。
特点:
它“实用主义”更彻底,底层走的是集成路线:用 Gemini 1.5 Pro 写剧本和对话,调用 Sora 2、Vidu Q2 Pro、Veo 3.1 等模型生成镜头(最高 1080p / 30fps),再接 Suno、ElevenLabs 做 BGM 和旁白,由自家的时序引擎负责剪辑、节奏和字幕,把一堆多模态模型包成一个统一工作台。相较于 Sora 这类“一个很强的底模”,Flova 更像把整套片场流程抽象成产品。
https://www.flova.ai/zh-CN/
1
Q3:垂直 × 模型驱动
为某类内容 / 玩法而生,核心还是模型本身的风格与能力。
MiniMax|海螺 Hailuo
MiniMax 一边推 M2 文本模型,一边在视频侧把“海螺 Hailuo”系列堆成产品矩阵,目前官网上是 Hailuo 2.3 / 2.3 Fast 两个主打版本,一档追质量,一档追速度。
特点:
海螺本身是偏 C 端的“视频乐高”:
强 prompt 贴合度+比较花的特效模板,用户可以从文字或图片出发生成 3~10 秒短视频,再用不同动作、场景预设去反复换皮;第三方测评里,海螺在运动流畅度和角色情绪上表现比较突出。
https://hailuoai.com/
![]()
生数科技|Vidu
生数科技的 Vidu 走的是“高一致性+2D 动画”路线,一开始就把目标对准独立创作者和内容团队:同一批角色可以在多支短视频、动画片里反复出场,镜头运镜和风格统一也做得比较好。
特点:
最新一代 Vidu Q2 支持文生、图生和参考视频驱动,可生成最长 8 秒、不同宽高比的片段,并且原生带对白和音效,从低分辨率预览到 1080p 输出有一条完整升级链路。
它背后是一个 MaaS(Model-as-a-Service)平台,企业可以直接用 API 接入,把自己的 IP 管理、广告产线绑上去。
https://www.vidu.cn/
![]()
白日梦 AI
白日梦 AI 是光魔科技做的一体化文生视频平台,最早在“小说推文、漫画推文”圈子里火起来,现在已经支持从几秒到数十分钟的视频生成,用来做绘本、长故事、连载短剧都行。
特点:
它强调几件事:长时长、角色一致性和动漫风格。创作者用自然语言写故事,系统会自动抽取角色、分镜和画面风格,再批量生成分集视频,对网文改编、条漫动画化这类场景特别友好。
https://aibrm.com/
PixVerse
PixVerse 走的是典型的“C 端爆款特效”路线:
从自拍、照片或文本生成短视频,主打 AI Kiss、拥抱、角色变身这类天然适合社交媒体传播的效果。最新的 v4.5 模型在角色一致性、相机运动和特效丰富度上都有明显提升,更适合做短、强刺激的刷屏内容。
特点:
它已经被大量用在“让雕像动起来”“让老照片开口说话”这种病毒视频里:比如用 PixVerse 让球员雕像复活,在球场上飞身扑救,在社交平台上带起一轮轮转发。这类用法某种意义上定义了 AI 视频的日常场景——不是拍电影级长片,而是给现实世界轻轻叠一层可分享的 AI 滤镜。
https://app.pixverse.ai/onboard
![]()
1
Q4:垂直 × 应用 / 工具驱动
不是在卖“模型”,而是在卖一整套业务场景
TapNow
TapNow 把自己定义成“面向电商和广告的 AI 视觉创作引擎”,更像是一个为品牌准备的工作台,而不是单一视频模型。用户可以在 Tapflow 画布上用节点把脚本、镜头、商品图、模特等元素连成流程,再让底层的 AI 引擎逐段生成广告视频、TVC 或短片。
特点:
平台直接内置了电商场景优化:
结合自研 LLM 和一堆“旗舰 Agent”,可以根据营销目标自动调节画面风格、商品展示方式、本地化文案等;从本质上说,TapNow 将“AI 视频”变成了电商工作流的一部分,而不是一个孤立的特效工具。
https://www.tapnow.ai/zh
![]()
MovieFlow
MovieFlow 更像是“AI 长片工厂”:输入一个故事梗概或几句 prompt,它帮你自动拆成剧情结构、分镜,再生成时长可达数分钟的连续影片,有稳定的角色、一致的镜头运动和比较完整的叙事。
特点:
很多实测里,MovieFlow 被拿来和 Veo 3 对比:Veo 在画质和声音上更“工业级”,而 MovieFlow 的优势在于“长”和“自动化”,更适合作为 YouTube 剧情向内容、长广告或教育短片的底层生产工具。
https://movieflow.ai/
![]()
OiiOii AI(需要邀请码)
OiiOii 是全球首个专业动画创作 Agent 工具。用户只需上传一张照片,不需要会剪辑、不需要自己找音乐,系统就能自动生成一段完整的音乐短片,把静态画面变成可以上 TikTok / Reels 的动态图文。
它背后挂的是 ByteDance 系列的 DreamActor-M1 等 DiT 框架:模型会先分析图片中的人物、场景和情绪氛围,再用 Image-to-Video Motion Generation 给画面加上景深、镜头推拉、眨眼、光影变化等细节,同时调用音乐生成模型自动配乐,并按节奏做镜头剪辑与转场,让音画同步看起来像“真有人认真剪过”。
特点:
很Vibe。
OiiOii 将动画制作门槛被压到极低,只要一张照片就能完成创作,用户不再需要操心时间线和轨道,而是把注意力放在“我想表达什么情绪”。
https://www.oiioii.ai/home
![]()
popi.art
用一句话概括这个产品就是“人人都能做动画,人人都能养一个自己的虚拟 IP。”
创作者在 PC 端上传少量角色图片即可训练出形象稳定的虚拟人物,后面由一串 AI Agent 接力完成:分镜、脚本、视频生成、剪辑到分发运营,把原本需要一整支动画团队的活,压成一条从“灵感 → 成片 → 发出去”的自动化流水线。
特点:
看起来是单点特效工具,但在可能性上,有“虚拟生命孵化器”的味儿:
先用极低成本批量孵化不同风格的小角色,再从中筛出有潜力的 IP,往长篇动画、漫画、音乐、游戏角色去扩展,让这些 Popi 拥有背景故事、性格与社会身份,观众可以像追爱豆一样追一个“非人类偶像”。
这也是这类产品接下来的可能的叙事:从视频模型产品脱离,开始讲“AI 版泡泡玛特+数字版迪士尼”的故事。
一端是自动化程度极高的动画工作台,一端是面向普通用户的内容社区,用户可以像刷短视频一样刷动画、顺手一键二创,把别人的 IP 接过去继续讲故事。技术负责把创作门槛压到地板,舞台则留给那些“能活得久一点的数字生命”。
https://www.popi.art/
![]()
Pika
Pika 将定位瞄准“从灵感到短片的极速链路”,强调上手速度与玩法密度。单段短片生成快、模板与社区生态活跃,适合社媒团队在同一天内做多轮试错与 A/B。
技术上以扩散式视频为底,提供 Pikaframes 这样的关键帧过渡、相机运动、局部/区域替换与参考图引导;质量向与速度向路由可切换,先出样再精修的节奏非常顺手。受限之处在于长时长、多镜头角色稳定与极端动作场景,仍需借助剪辑与后期兜底。
特点:
它本质上是“创作速度器”:不是追求最重的底模,而是把迭代时间压到最低,适合动效玩法、热点创意与高频更新的内容流水线。
https://pika.art/
AIPAI
AIPAI 是款一体化 AI 视频平台,它自己定位叫 AI Video Agent for Vibe Videoing。用户只要在首页输入框里丢一句想法,比如“做一个 1 分钟的山海经短片”或者“复刻一条类似《黑客帝国》开场的片子”,系统就会把你带进一个 Agent 创作页面:左侧是项目概览、角色图、分镜和生成的图 / 视频 / 配音,右侧是和 Agent 对话的区域,你可以不断提要求、改故事、调角色,整条链路都在同一界面里跑完。
特点:
在底层能力上,AIPAI 走的是“集成型选模+统一界面”:图像侧可以调 Midjourney、Flux、豆包、Gemini 等模型,视频侧则接了 Kling、海螺、Vidu、PixVerse、Runway、Vidu Q2 这类主流视频模型,甚至包含 Sora 2、Veo 3.1 等高端能力,平台会按你项目的需求推荐模型,或者让你手动指定,计费按所选模型和时长结算。
https://aipai.ai/
总结这些产品的思路,大体如下:
一端是把底层模型做厚、尽可能把“物理 + 时序 +美学”封装成一个稳定黑盒。
一端是把业务流程吃透、把剧组和甲方真实痛点抽象成工具流。
中间夹着的是开源和私有化部署,把算力、版权、数据安全这些长期变量压回到团队自己手里。
这些产品已经是最早进入到生产环境里竞争的AI 产品,这里有机会最早产生下一个平台级AI产品。
![]()
点个“爱心”,再走 吧





京公网安备 11011402013531号