智通财经APP获悉,中信建投发布研报称,作为全球多模态技术相对领先的厂商,谷歌、快手等头部模型重点解决了角色一致性与物理逻辑难题,快手可灵月活破千万并实现订阅收入增长,标志着多模态工具从娱乐走向生产力。应用侧,AI漫剧接棒短剧成为新增长极,字节跳动等平台通过高额激励推动内容精品化,AI加速IP影视化进程,有望催生新的市场机遇,重塑广告与游戏资产生产逻辑。展望未来,原生多模态与世界模型技术共同演进,有望重塑营销、影视、游戏等下游产业格局。
中信建投主要观点如下:
作为全球多模态技术相对领先的厂商,谷歌Veo、Gemini、Nanobanana等系列模型在超长上下文理解与原生音视频融合领域确立了深厚壁垒,国内快手可灵、MiniMax海螺、阿里通义万相及智谱等头部玩家亦通过架构和技术革新,重点解决了视频生成中长期存在的角色一致性失控、物理逻辑崩坏以及分镜不可控等工业化生产难题,加速促进多模态技术商业化变革:
海螺AI:MiniMax(00100)10月28日更新的Hailuo2.3系列模型重点聚焦物理稳定性与全模态协作,解决了大动态运镜下的物理崩坏问题,大规模运动指令下对光影方向、明暗过渡及物理碰撞逻辑的模拟已接近实拍质感,尤其在复杂肢体动作如精细抓取与手指交叉方面展现了极高的稳定性。海螺Media Agent则进一步将视频、语音及语言模型封装为统一的智能体,支持在无限画布中通过自然语言协作。用户仅需输入简单的商业创意,Agent即可自主完成脚本生成、视频渲染与音效配置。
可灵AI:快手(01024)可灵12月1日发布的o1是行业内首个将多种创作任务整合进统一引擎的视频大模型。该模型基于多模态视觉语言理念,将参考图生视频、内容增删、风格重绘等功能融合,解决了过去创作中功能割裂的问题。根据快手内部测试数据,可灵o1在图片参考任务中的胜负比达到247%,在指令变换任务中的胜负比达到230%,在理解复杂创作意图方面表现突出。可灵视频2.6模型则进一步强化了音频同步与动作控制能力,支持在生成视频的同时直出自然语言对话与音效,并具备针对手势、表情及肢体动作的精细化驱动。据实测,可灵2.6支持长达30秒的复杂武打动作控制,且在生成过程中可维持音色的一致性,使得视频生成可控性进一步增强。
阿里通义万相:阿里于2025年12月26日正式发布通义万相2.6系列模型,通过多模态联合建模技术,实现了国内首个商业化角色扮演功能。具体而言,万相2.6通过提取参考视频中的主体情绪、姿态及声学特征,在生成阶段作为约束条件,确保了角色在不同镜头间的一致性,解决了影视创作中IP形象易闪烁的痛点。在叙事控制方面,万相2.6引入了专业的分镜控制公式,能够理解高层语义逻辑,将文本自动拆解为远景环境、中景动作与近景特写等专业镜头组合。目前,万相2.6支持单次生成15秒的高清视频,为国内当前公开测试的最高指标,其对镜头节奏与画面氛围的高一致性建模,为专业导演提供了可量产的数字生产工具。
智谱:2026年1月14日,智谱(02513)AI联合华为发布的GLM-Image,成为首个在国产全栈算力底座上完成全流程训练的SOTA图像生成模型,验证了国产昇腾芯片与昇思框架在大模型训练中的可靠性。技术方面,GLM-Image模型采用自回归理解结合扩散解码的混合架构,兼顾了宏观逻辑理解与微观细节刻画,在处理知识密集型场景时表现优异,特别是在复杂的海报排版、带有数据信息的图表生成方面,解决了汉字渲染乱码的行业难题。此外,GLM-Image模型原生支持1024x1024至2048x2048的任意比例输出,且能理解具有推理性质的创作指令,API调用模式下生成一张图片仅需0.1元,极具性价比优势。
产业端,模型能力的突破已带动社区传播与商业化落地。快手可灵2.6“动作控制”功能驱动了以宠物跳舞为代表的现象级视频在全球范围内的爆火,不仅带动了C端用户的涌入,更直接转化为了订阅收入。根据晚点独家调研数据,可灵AI的月活跃用户数在2026年1月已突破1200万;截至2026年1月20日,可灵App端付费用户规模环比增长达350%,1月的日均收入较12月日均高出约 30%(2025 年 12 月可灵单月收入超过 2000 万美元)。从收入构成看,2025年可灵全年收入预计达1.4亿美元,其中专业生产者贡献了近70%的份额,这与快手一直以来瞄准P端(自媒体视频创作者、广告从业人员等)用户的战略相一致——即多模态AI工具已脱离娱乐属性,成为影视、广告等行业从业者的生产力标配,初步形成商业闭环。
AI漫剧则成为了继短剧之后视频生成应用的又一场景,字节跳动等头部平台正通过激进的激励政策推动AI内容精品化。以抖音短剧版权中心为例,其2025年12月16日推出了“漫剧创作激励计划”,对使用豆包大模型制作漫剧的机构提供15%的技术成本补贴;而后,抖音进一步加码漫剧创作激励,给予S+漫剧保底激励5000元/分,单部剧保底50万-75万,超头部作品最高分成达30000元/分;同时平台开放了番茄小说超过6万部优质IP库,并全额补贴改编费用。数据显示,2025 年 9 月红果短剧月活用户约 2.36 亿,超过了B 站和优酷,接近芒果TV;而从市场规模来看,短剧今年有望突破千亿,漫剧有望突破200亿,展现出巨大的潜力。从短剧的视频素材生成到完整漫剧生成,AI技术正催生全新的产业生态,逐步产生商业化价值。
展望未来,多模态技术一方面向视频、音频、图像、文本统一的原生多模态发展,另一方面则向具备物理常识与逻辑推理的世界模型演进。前者强调AI能在一套框架下对各种模态进行统一处理;后者则意味着AI能够像人类大脑一样根据当前画面预测下一帧会发生什么。
而在应用场景的延伸上,原生多模态和世界模型都将重塑多个行业的业务逻辑。例如在搜索与营销领域,最近正发生SEO到GEO的变化,未来可能进一步发展为生成式视觉检索,不仅可以搜图,还可以直接获得AI实时生成的定制化视频作为回答;而在文娱板块,短剧、漫剧已呈现快速放量的趋势,小说IP+AI视频的组合能够加速IP影视化过程;游戏产业同样深受生成式AI影响,目前头部公司纷纷将AI应用于美术资产的辅助生产,未来在世界模型的加持下,实时游戏引擎也将成为可能,带来类“头号玩家”的元宇宙开放世界游戏体验。
风险提示:
AI产业商业化落地不及预期;市场竞争风险;地缘政治风险。





京公网安备 11011402013531号