当前位置: 首页 » 资讯 » 新零售 » 正文

一场没有“罗永浩”的直播,为百度AI正名

IP属地 中国·北京 编辑:吴俊 硅星人 时间:2025-06-23 10:51:14

作者 | Yoky

邮箱 | yokyliu@pingwest.com

5500万GMV,这可能是迄今为止,一个AI数字人单次直播带来的最高销量。

过去几年内,数字人直播代替真人主播的传言总是一波又一波,空无一人的直播基地无数手机屏幕“自动地”产生着GMV,这个画面曾经击中了无数网友的心。但现实是,这些数字人们机械重复的动作、无法随机应变的话术反而让真人主播们都松了一口气。

但这次,真正的转折点来了。6月15日,罗永浩数字人在百度直播的第一次亮相,连播近7小时,达成了1300万人次观看、GMV突破5500万的成绩,不仅破了AI数字人圈里的记录,甚至超过了真人的记录——互动量超真人直播间3倍。

一直以来,数字人技术成熟度的一个核心评判标准,都是与真人主是否存在差距,以及有多大的差距。而在此次的直播间,弹幕里“这是真的还是假的”的评论不断刷屏,已经证实了这次AI数字人的惊人效果。

更重要的是,这不是一次炫技式的表演,而是百度AI在真实商业环境的实战演练。当整个行业还在为文生视频的“确定性” ,百度已经用AI为商家和创作者们端起了第一个能真正“养活”自己的“饭碗”。

如何用AI炼成“真”罗永浩?

这背后并非单一模型的技术突破,而是一套多模协同的数字人技术简单来说,这套技术将语言大模型置于“总导演”的位置,统筹指挥着语音、视觉等各个“演员”,完成了一场几乎以假乱真的演出。

与传统数字人技术形成鲜明对比的是,过去的方案往往采用语言、语音、视觉三条独立流水线,各自生成内容后再强行拼接,这必然导致音画不同步、表情僵硬、言语乏味等问题。

百度的技术方案重点包含剧本驱动的数字人多模协同、融合多模规划与深度思考的剧本生成、动态决策的实时交互、文本自控的语音合成、高一致性超拟真数字人长视频生成五项创新技术,实现了数字人“神、形、音、容、话”的高度统一。最终呈现出一个具备高表现力,内容吸引人,人-物-场可自由交互的超拟真数字人。

具体而言,“剧本”模型扮演了总指挥的角色。它在生成时输入的并非只有文本,而是包含商品信息、历史视频、主播人设要求等多模态信息。剧本会生成对视觉和语音的具体要求,即所谓的“标签”,为后续的视觉和语音模型提供方向性指引,从而确保内容、语气和表情在语义上的高度一致性。

百度集团副总裁吴甜告诉,多模态协同的难点在于多个模型对于要求的理解是一致的。这意味着从剧本(导演)到语音、视觉(演员),整个团队对表演基调有统一认知。同时,各个演员(各模态模型)又保有自己的“发挥空间”,比如语音模型会根据自身对文本的细粒度理解调整语调顿挫,而不是完全被剧本的词语锁死。

以罗永浩数字人剧本为例,基于文心大模型4.5 Turbo生成的剧本,充分展现了主播的个人特色,具备典型的罗氏幽默风格,并能够实现双人主播的内容协同,动态实现丰富的实时互动。

在单体完成“真老罗”的打造后,体现直播生命力的实时互动成为另一个更关键的挑战。面对评论区海量、无序的用户提问,以及与助播的配合上,数字人如何做到实时、自然的回应?这背后是一套动态决策系统。

在直播过程中,模型并非对每个问题都立即回复。系统会对评论区进行智能分析,结合主播当前的讲解节奏,选择合适的时机、合适的问题,以及合适的回答策略进行触发。这种“谋定而后动”的机制,远比简单的“一问一答”更接近真人主播的互动逻辑。

为了彻底解决实时生成的延迟问题,百度采用了“流式生成”的工程化设计。语言、语音、视觉三个模态并非串行等待,而是像流水线一样并行工作,极大缩短了用户感知的时延。同时,系统采用“离在线统一”的方法,部分可预见的交互内容可以提前处理,而需要即时反应的部分则在线动态生成。通过系统性优化,成功解决了生成视频这类高耗时任务的卡点问题,最终实现了丝滑的交互体验。

更进一步地,在双人直播中,大量的打断、复说、抢话等场景对语音合成提出了极高要求。吴甜提到,通过引入“对话上下文解码器”,模型能够结合历史对话信息进行推理,从而实现老搭档之间那种默契、自然的对话流。

在数字人形象生成以及驱动方面,百度通过结合多模态视频理解、跨模态信号生成、视频生成等技术,克服了高可控交互,高精度、长时间一致性保持等难点,实现了高一致性超拟真罗永浩数字人长视频生成。

而且在此过程中,能保证语音、口型、表情与动作始终保持高度同步,从而实现真正的「音、容、话」一致。

从炼成“罗氏幽默”到跑通商业闭环,百度数字人不仅为行业树立了新的技术标杆,更重要的是,它为AI技术如何从“热搜”走向真实的生产线,提供了一份极具说服力的答卷。

不要“超级应用”,要“超级有用”

对于在直播电商红海中拼杀的千万商家而言,现实的挑战正变得愈发尖锐:头部主播签约费动辄千万,自建团队每月固定开销数万甚至数十万,而流量获取成本却在持续攀升。在这种环境下,如何在保证效果的前提下控制成本,成为每个商家必须面对的生存课题。

数字人技术,一度被视为破局的希望。然而,早期的数字人更像是一个“不知疲倦的播报员”,形象呆板、互动生硬,无法传递信任,更遑论激发购买欲。它们解决了“有没有”的问题,却没能解决“好不好用”的核心痛点。市场真正需要的,不是一个仅仅能节省成本的“工具”,而是一个能真正替代真人、创造价值的“战力”。

那么,一个“真正可用”的数字人到底意味着什么?它不仅要形象逼真,更要具备三项核心能力:能理解商品、能与人互动、能建立信任。罗永浩数字人直播的案例,恰恰为这三点提供了行业标尺。它不再是简单的产品复读机,而是能用“罗氏幽默”与观众调侃,能根据实时提问调整讲解策略,最终实现了与真人主播几乎无异的带货效果。

从商业角度审视,这背后反映的是两笔关键账目的变化:

第一笔是成本账。数据显示,数字人直播能平均降低约80%的成本。这意味着商家可以将过去投入在昂贵主播身上的预算,转移到供应链优化和市场推广上,彻底重构成本结构。千元级别的投入,就能获得一个7x24小时在线的主播,这在过去是不可想象的。

第二笔是效率账。在保健品、教育、旅游等需要深度讲解的品类上,知识储备无限、表达精准无误的数字人,其转化效率已开始超越真人。对于拥有好产品但缺乏优秀主播的商家,或是不希望核心名师被直播消耗的教育机构而言,数字人代表着一条全新的增长路径。

“好用”的数字人并非凭空而来,它的出现反映了不同公司在技术路径上的战略分化。当我们从市场应用效果反推其背后的技术逻辑时,百度的选择便清晰地浮现出来。

当前行业的主流叙事集中在卷模型,各家比拼参数规模和基准测试成绩。而百度的路径更偏向卷应用,这一选择的底气源于其在多模态技术上的长期积累。

这种“应用为王”的战略,最终指向的是生产力的规模化落地。复刻罗永浩更多是技术天花板的展示,其真正的商业价值在于将这种能力以低门槛、可复制的方式赋能给广大中小商家。百度电商总经理平晓黎在接受采访时表示,相比追逐头部IP,更倾向于“让更多的中小商家、腰部商家,还有创作达人能够做起来”。

更关键的是,这条路径验证了AI产业期待已久的商业闭环。从行业发展的角度看,罗永浩数字人直播的意义远超一场带货本身。它为AI产业提供了一个清晰的价值验证:技术的最终价值必须通过为实体经济创造可度量的商业成功来检验。这种“超级有用”的路径,或许比追逐“超级应用”的概念更具现实意义。当然,这种模式能否被广泛复制,以及在更多垂直领域的适用性,仍需要市场的进一步检验。

标签: 数字 技术 百度 模型 语音 视频 罗永浩 真人 剧本 商家 模态 视觉 商业 核心 表情 问题 一致性 成本 动态 动作 协同 内容 典型 评论 价值 高度 语言 基地 路径 系统 罗氏 效果 能力

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。