当前位置：首页 » 资讯 » 新零售 » 正文

太真了！罗永浩数字人引爆直播间，背后技术有多强？

IP属地中国·北京 编辑：唐云泽 TechWeb 时间：2025-06-18 12:02:57

6月18日消息，一年一度618，电商平台们都在拼低价、拼补贴卷生卷死的时候，百度另辟蹊径，联手罗永浩搞了一场数字人直播，因为太拟真，以至于让直播间的网友都在猜：这是“真的假的”罗永浩。
罗永浩数字人直播间
6月15日下午，“罗永浩数字人”在百度电商首次开播，全场近7小时GMV达5500万元，观看人次超1300万，部分品类销量超甚至越过了5月23日罗永浩真人直播场。
事实上，数字人直播早已不是新鲜事，为何这次罗永浩数字人在百度优选直播间的表现却让人眼前一亮呢？
在百度AI Day上，百度副总裁、电商总经理平晓黎，百度集团副总裁吴甜揭秘了罗永浩数字人背后的黑科技和更多细节。
真假难辨的“罗永浩”
仔细观察这次罗永浩数字人的直播表现，会发现，这场直播创下几个业内首次：
第一，这次数字人直播全场持续了近7小时。
目前市面上主流的AI生视频产品生成的视频时长大多在几十秒至十几分钟，近7小时的数字人直播可谓超越了AI视频生成极限。
如何让一个AI生成的数字人影像保持近7小时的一致性？这背后需要解决哪些技术挑战？
第二、和市面上大多的单个数字人直播不同，罗永浩数字人直播间有两位数字人，分别是罗永浩和他的助手朱萧木的数字人。
这是行业首次“多数字人直播”，并且，在直播中罗永浩与助播数字人配合自然、双数字人搭档接梗流畅，抢话自然。
双人/多人直播相比单人直播，又有哪些技术鸿沟需要翻越？
第三、数字人罗永浩不但能做出喝奶茶、拎可乐等细节动作，还能与直播间用户发布的弹幕进行实时互动，就像真人直播间一样玩抽奖、发福袋等互动。这一点更是秒杀一众对口型的直播数字人。
同样的，在长达近7小时的直播中，是如何保持数字人互动动作的精准度的？
也正是因为上面这些直播特征，让直播间的网友一时之间分不清在直播的到底是罗永浩本人，还是罗永浩数字人，真假难辨了。
平晓黎：百度数字人与市面上的直播数字人相比，有代际优势
这个真假难辨的“罗永浩”，百度是如何打造的呢？
百度副总裁、电商总经理平晓黎介绍了“罗永浩数字人”的打造过程：今年 4 月百度发布了高说服力数字人，这是一个新的里程碑。此后，在高说服力数字人的基础之上，百度电商慧播星再一次迭代，围绕慧播星首席体验官罗永浩，发布了业界首个超头主播的数字人，实现了体验、内容、视觉、效果的四大突破，使得数字人带货能力媲美真人。
在平晓黎看来，百度的这个“超头主播的数字人”，跟市场上目前的直播数字人之间，存在着明显的“代际”优势。正是对体验、内容、视觉、效果的四大突破，成就了这种优势。
具体来看，罗永浩数字人直播间做到了：
体验突破，复刻罗永浩跟朱萧木的丝滑配合，是业界首个双数字人互动直播间；
内容突破，数字人做到了“懂创作”，带货时塑品专业度更高，数字人可以“有个性”，甚至能“玩梗”，为数字人注入灵魂；
视觉突破，罗永浩数字人直播实现了在直播实时环境下的超长演绎，做到了动作、表情、语调等贴合话术，且稳定可控；
效果突破，AI大脑基于直播间信号灵活控场，数字人可以主动邀评、高频互动，极大提升用户沉浸感；通过多智能体实时调度，在数字人直播间实现了和真人直播间一样的互动玩法，如抽奖、发福袋等。
平晓黎介绍，目前，在百度慧播星，单个数字人的制作成本在1000元/月左右。目前百度电商已有累计超 10 万数字人主播，覆盖电商、教育、医疗等数十个行业，助力商家直播运营成本下降超80%，GMV平均提升62%。
五大关键技术揭秘
那么，这项领先行业的“罗永浩数字人”到底是如何实现的呢？
百度集团副总裁吴甜在百度AI Day上进行了背后技术大揭秘。
吴甜表示，百度在今年4月发布了最新的文心 4.5 Turbo和文心X1 Turbo为此次直播提供了强有力的技术支撑，打造了多模协同的数字人技术，罗永浩数字人是基于文心大模型的最佳实践。
具体到罗永浩数字人的打造上，吴甜总结道，罗永浩数字人直播背后的五大关键技术包括：剧本驱动的数字人多模协同、融合多模规划与深度思考的剧本生成、动态决策的实时交互、文本自控的语音合成，以及高一致性超拟真数字长视频生成。这些技术的综合应用，为用户呈现了一个高质量的直播间表现。
直播中，数字人不仅要详细解读商品，还要通过肢体语言和表情传达商品特性，这构成了一个多模态的协同问题。多模协同的数字人技术是数字人表现好的关键所在。百度为了实现语言、语音和视觉的协调一致，采用了一种基于剧本驱动的技术方案，剧本不仅包含台词，还包括对视觉、语音等模态以及在直播过程中的实时互动内容，确保数字人的表达在语义、语气语调、微表情和手势上高度协同。
在数字人语音合成方面，通过采用文本自控的语音合成等技术，实现了更逼真、互动性强的对话效果。为解决罗永浩数字人直播双人声音配合的难点，百度采用对话上下文编码器，将对话历史输入和当前对话进行语音合成的统一推理计算，最终实现流畅、自然的双人对话效果。
吴甜还特别提到，在直播间的环境下，数字人形象生成的挑战主要集中在多模协同、高表现力动作的传达、复杂交互的实现以及超长时长的一致性保持。百度通过多模态输入，包括视频、剧本、语音和骨骼信号，以及对视频的多模态理解和人、物、场的高可控视频生成，实现复杂交互片段和大表情、大动作片段的生成。特别地，面对罗永浩直播间两位具有高IP价值的主播以及丰富的商品，通过结合多模态视频理解、跨模态信号生成、视频生成等技术，克服了高可控交互，高精度、长时间一致性保持等难点，实现了高一致性超拟真罗永浩数字人长视频生成。
现在，罗永浩已经入驻百度优选，将以真人+数字人的形式不定期开播。同时，罗永浩将担任百度慧播星首席体验官，双方也将在“AI+直播”领域进行探索。
未来数字人直播表现会演进到何种逼真度，值得期待。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

放弃吧！“高速全面取消收费”根本没戏，免费只会更痛苦

八部门：进一步加大力度促进汽车消费促进汽车梯次消费、更新消费

新车难用满十年：技术短板、消费文化与行业策略如何共同“缩短”寿命

山东青岛：“微醺巴士”开拓文旅消费新场景

牛市就到这了？

拉布布暑期降温，中国潮玩出海弯道超车，谁是下一个顶流IP

全站最新

谁是纯电保值王？特斯拉霸榜3年保值率前三

DDR5内存套装卖4000美元？电商平台新蛋回应称定价系统出错

中国航天科技集团刘争：最近100次火箭发射只用了1年多

千问前负责人林俊旸凌晨发文告别阿里：今天是最后一天，不管别人说我什么，我至少内心里真觉得做到了为兄弟们好为阿里云好为集团好

热门推荐

放弃吧！“高速全面取消收费”根本没戏，免费只会更痛苦

八部门：进一步加大力度促进汽车消费促进汽车梯次消费、更新消费

新车难用满十年：技术短板、消费文化与行业策略如何共同“缩短”寿命

山东青岛：“微醺巴士”开拓文旅消费新场景

牛市就到这了？

拉布布暑期降温，中国潮玩出海弯道超车，谁是下一个顶流IP

南城香创始人汪国玉：平台消费券激发消费热情，门店收入利润均提升

通信企业：“推销热售后冷”消磨用户信任

盛银消金 25% 股权再被冻结！新董事长年初刚上任

伊利出席第八届中澳工商界首席执行官圆桌会助力中澳经贸合作提速升级

商查平台企业信息查询新范式：水滴信用企业查询MCP

从“闪购”到“观望”：Prime Day被拉长的背后，是消费者与平台的“双重博弈”

澎湃漫评｜通信企业为何“推销热售后冷”

“电商西进”助力豫企破浪：一枚鱼油的3000公里“暖心”之旅

京东外卖取消超时免单，改为“准时宝”服务