头图由AI生成
智东西
作者 程茜
编辑 漠影
AI视频的竞争焦点开始转移——
不再局限于单一画面效果的比拼,而是聚焦可用性与开箱即用的突破。
9月底Sora 2的横空出世便清晰传递出这一趋势:其不仅以精彩纷呈的动态生成效果刷新行业认知,更通过能引入现实角色、提升物理模拟逼真度 、集成创编传播工具等的综合性“成片智能体”,展现了向易用性、实用性发展的趋势。
这一行业趋势逐渐明晰的当下,国产平台商汤Seko早已率先布局,以实际行动重新定义AI视频的应用边界。
下面的视频就直观展示了Seko的成片能力,这一视频从剧本、分镜、配音到后期均由Seko完成,并且精细到每一个细节都符合导演和编剧要求,画面以及动画效果也都拉到专业级。Seko用户@听白AIGC 生成了下面的视频,将动漫形象与现实环境相结合且毫无违和感,使得整体画面质感提升。
▲基于Seko创作的商品广告
还有下面的恐怖氛围短片,Seko用户@不会画画的美术生、@liuker 生成的视频中呈现了医院场景,从阴森的空间布局到冷冽的灯光风格,所有视觉元素全程在线、精准配合,成功营造出压抑、惊悚的恐怖氛围。
▲基于Seko创作的AI英文短剧
作为国内首个创编一体的短片创作Agent平台,Seko用户规模与作品数量的快速爆发增长证明了产品的价值。
从工具到智能体、从画面到成片,AI正从根本上降低内容生产的门槛、提升创作效率、拓展表达边界。在这场由Sora2引领的变革中,国产平台商汤Seko是亦步亦趋的追随者,还是另辟蹊径的破局者?我们试图拆解Sora 2与Seko,找到其在这场变革中抢占先机的关键要素。
一、“成片智能体”风起:从技术炫技到应用为王
回溯AI视频产业的发展脉络,早期产品多停留在技术验证层面,往往会通过生成各类逼真、新奇的视频内容来满足用户好奇心,如今随着营销、短剧、自媒体等领域的刚性需求爆发,其定位正逐渐向生产力工具转移,而能否覆盖从创意到成片的全流程,也成为衡量产品价值的核心标准。
9月底爆火的Sora 2以及OpenAI伴随其发布的Sora应用就清晰表明了这一趋势。
具体来看,在核心生成能力上,Sora 2实现了全维度的性能提升。
物理模拟层面,其优化动力学与材质还原的可信度,能精准呈现对象体积、遮挡关系与光照交互,例如模拟液体泼洒时的流动轨迹、织物飘动的重力反馈均更贴近真实物理逻辑;音频能力实现了音画一体化生成,环境音、动作音效可随画面场景自动匹配;口型同步技术能根据对白内容实现声音与唇形的精准对齐,支持多语言对话;叙事连贯性上,强化多镜头逻辑衔接。
提示词:吉卜力工作室动画风格,画面中一个男孩和他的狗跑上长满青草的风景优美的山坡,头顶是绝美的云朵,远处背景中还能眺望到一个村庄(in the style of a studio ghibli anime, a boy and his dog run up a grassy scenic mountain with gorgeous clouds, overlooking a village in the distant background)。
▲Sora 2生成视频
其次是产品形态方面,OpenAI伴随Sora 2推出的独立Sora App社交平台,通过内置的Cameo(角色引入)功能,用户可创建高度逼真的个人数字分身,无缝植入任意Sora 2的生成场景,还能授权好友使用自己的形象实现多人同框创作。
相比上一代产品,Sora 2正向着更符合用户实际创作需求的工具转型。
但值得注意的是,Sora 2的生成本质上仍是“黑盒式”输出,因为用户输入指令后需等待系统完整输出,无法对中间环节进行干预调整,即便使用千字级的详细提示词,也可能出现与预期偏差的生成结果。
因此在实际应用场景,这对追求精准表达的商业创作而言,无疑意味着不可预知的时间损耗与修改成本。
反观国内,商汤科技今年8月推出的Seko就在成片智能体的基础上,实现了“可控式闭环”。
Seko可以做到自动剧本拆解、分镜生成、角色一致性控制等,来生成高质量AI视频,与Sora 2在成片智能体核心能力上实现对标。下面Seko用户@豆芽AI笔记本 生成的视频中主体角色整体一致,画面跟随人物移动时也没有出现偏差。
▲基于Seko创作的AI短剧
与Sora 2不同的是,Seko支持实时可编辑,非一次输入、一次输出,甚至可对分镜画布局部修改,消除、重绘、元素添加等,让用户通过精细化编辑实现“所见即所得”。
▲Seko分镜画布局部修改功能
尽管当下AI视频发展距离规模化应用还有一定距离,但当下我们可以确定的是,其行业竞争正在从单一效果比拼转向全链路价值竞争,也就是“成片智能体”在AI视频工具中逐渐成为共识。
二、解码“成片智能体”概念,让AI视频开箱即用的关键
以“成片智能体”应具备的能力为标准,我们看到Sora 2和Seko的部分能力设定高度趋同,都朝着让AI视频生成开箱即用视频、零门槛出成片的目标进阶。
需要注意的是,即便二者在降低创作难度、覆盖全流程需求等方向上高度趋同,但实现路径呈现鲜明差异,Sora 2强调的是端到端直接输出,Seko则看重生成过程中各环节进行可控性编辑。
先来具体看下两大平台的相似与不同之处。
首先,降低使用门槛的前提是,让AI能听懂用户的日常表达,减少对专业工具的依赖。
Sora 2和Seko都可以理解用户的日常用语,不需要更为专业的术语即可生成相应的视频内容,打破AI视频创作对专业知识的依赖。
在实测体验时,当智东西输入“小羊介绍新疆伊犁的美丽景色,一只拟人化的小羊羔,超写实风格”的提示词,其就会生成策划摘要、美术风格、角色主体、场景概念、音乐风格、分镜剧本。
此外众所周知视频的创作需要不同的工具进行音画比配、物理模拟等,Seko将复杂技术环节全部封装为后台自动流程,用户无需手动调试参数,更无需借助剪辑、配音等第三方工具,就可以实现输入想法就能得到视频的体验。
Seko近日上线的新功能还支持一键制作多人对口型视频,基于SekoTalk这个商汤自研的图生视频对口型算法,在音乐MV、剧情视频、广告等领域都可以应用。在下面的视频中,它支持中英文等多种语言、多人对口型,包括轮流说话或者同时说话的情况,即使是语速超快的说唱也不会出现偏差,已明显优于Sora 2的效果。
▲基于SekoTalk创作的多人对口型视频
其次是端到端直接输出与极致的可编辑性,这也是Sora 2和Seko两大成片智能体最核心的区别。
Sora 2和Seko均可以覆盖创作的全链路,其支持多模态输入,用户能通过文本描述构建场景、上传参考图定义角色外观,可一次性完成从创意拆解、理解复杂指令到成片输出的端到端贯通。值得一提的是,此次Sora应用新增的Cameo与Seko的主体功能类似,都是通过生成统一的角色,保证后续生成内容的主体稳定、一致。
▲Sora 2的Cameo功能(左)、Seko的主体功能(右)
在此之上,Seko还进一步将生成内容进行了细化拆解,打造了“先静后动”流程,将创作分为分镜确认、细节修改、视频生成几个阶段,具体来说就是,平台先根据用户创意生成静态分镜序列,经用户逐帧检查画面内容后,可以直接通过自然语言指令重绘角色、调整台词或镜头角度,最后都确认无误后再一键转视频。
为了进一步确保成片的可控性,Seko还具备分镜静态预览、分镜画布局部修改等功能,允许用户在每个环节,对生成内容进行修改,如直接要求“把图中的小羊换成牧羊犬”等,系统能精准完成修改。
Seko还支持一键修改背景,如要求更换背景为咖啡厅等。
▲Seko局部修改功能
当用户确认了分镜的主体、视频内容、文字内容,就可以在右上方点击一键转视频。相比于Sora 2的一键成片,Seko的成片方式给予了用户更大的自由创作空间。
最后是成片质量方面,相比于早期的工具,Sora 2、Seko在视频生成内容的镜头穿帮、音画不同步等问题上,已经基本实现了超长分镜的稳定输出。
在此基础上,Seko平台还更进一步,集成了商汤日日新、即梦、可灵、海螺、Veo等多款业界主流生图模型,用户基于该平台能精准控制多角色、多场景的复杂剧本输出,确保角色形象、光线风格、动作逻辑全程稳定。下面Seko用户@不会画画的美术生 生成的视频中,Seko将背景音乐、镜头转换等诸多设定都与剧本内容相呼应。
▲基于Seko创作的AI英文短剧
这些技术突破共同指向,AI视频生成正朝着“成片智能体”进化,其核心是通过极简交互、全流程贯通与高质量输出降低创作门槛。
商汤科技的Seko在此基础上基于分镜预览、可控式流程等关键能力,在视频生成的可控性与商业可行性两大关键维度上率先落地,让“成片智能体”真正从技术概念变为触手可及的生产力工具。
三、从不可控到可落地:Seko重构AI视频商业化价值逻辑
Sora 2和Seko的发展让我们看到了AI视频商业化落地的潜力,但当我们将视野放大到整个生成式AI行业会发现,想要让AI视频生成真正实现拿来即用,远比图文生成复杂得多。
视频创作需同步处理画面渲染的时序逻辑、音频合成的情绪适配、物理模拟的真实反馈等多重难题,任何环节的断层都会让生成的视频出现偏差。
正因为这种复杂性,Sora 2与商汤Seko在“成片智能体”的定位上,也呈现出了差异化的思路,前者聚焦从输入到输出的高质量端到端交付,后者则在保证成片质量的基础上,强化了全流程创作的自主、可编辑与可控性。下面Seko用户@林龙 生成的视频中,伴随着镜头的变化将拯救公主的故事进行了完整呈现,还融入了逼真的特效。
▲基于Seko创作的AI短片
正如前面所提到的,创作可控性在AI视频生成中至关重要,这也是Seko相比Sora 2等其他工具的显著优势,其核心可概括为创意可控、风格可控、成本可控。
创意可控基本贯穿了前期用户创作的全流程。
用户输入核心创意后可进入编辑模式,对画面细节不满意可直接修改提示词重绘单帧分镜,觉得台词生硬能逐句调整文案并同步更新配音,想优化叙事节奏可直接增减分镜或调整镜头结构。
这种先确认静态效果、再生成动态视频的设计,可以帮助用户在早期修正创意偏差。
其次是风格可控,Sora 2的模型体系相对单一,Seko采用了多模型集成和智能匹配策略,集成了全行业主流生成模型,支持用户自主选择相应模型。
最后是成本,Sora 2虽能生成高质量画面,但其千卡级算力消耗带来的隐性成本,让中小商家和个人创作者难以负担。
根据实际用户反馈,Seko已将单分钟动画成本从传统方式的数万元降至千元级别,降幅超99.5%以上,让中小企业和个人创作者也能负担专业级制作。
此外还需注意的是,Sora 2目前仍采用邀请制,并没有免费向大众开放,导致大量潜在用户无法直观体验。再加上用户纷纷在社交平台上传Sora 2生成的短视频,涉及诸多热门影视节目角色,使得其在版权方面的监管被广泛质疑。
目前,Seko已经全面向用户开放,其上线1个月就拥有超10万名创作者,生成视频内容超50万条。这些真实的用户案例和数据,是Seko开箱即用潜力最有力的证明,其让AI视频创作变为可预期、可调整、可落地的过程,这也成为其区别于同类产品的核心竞争力。
结语:AI视频竞争回归实用价值,Seko凭可控+普惠领跑
当下AI视频产业的发展意味着,其竞争正在回归到价值本身,即能否以更低门槛、更可控过程和更低成本为用户交付可用成果。
Sora 2与商汤Seko共同指向的“成片智能体”,正是破解视频生成普及难题的关键。商汤Seko通过创作可控性和商业普惠性,正在将这一蓝图变为触手可及的商业现实。这条本土超越之路,或许正是AI视频普及的关键路径。
此外,Seko还有一大独特优势是集合多种大模型,未来或许也会接入Sora 2模型的能力,为用户提供1+1>2的更优成片效果。