当前位置: 首页 » 资讯 » 新科技 » 正文

从文字到语音交互,AI 的下一个爆发点可能是拥有自己的身体

IP属地 中国·北京 极客公园 时间:2025-10-30 14:14:36


从 AI 女友到数字面试官,人格化 AI 正在「登陆」你的所有屏幕。


作者|Li Yuan

编辑|郑玄

你最近的社交媒体,大概率也被 Sora 生成的那些既熟逼真又抽象的影像刷屏了。

Sora 的病毒式传播,证明了 AI 生成内容的一条黄金法则:人类最着迷的,永远是人类自己。这些影像之所以能迅速成为一种赛博奇观,超越以往所有 AI 视频的传播力,正是因为它第一次高质量地将创作主体从风景、动物,聚焦到了人类自身。

但热潮过后,一个更现实的问题浮出水面:Sora 生成的数字人无论多么逼真,本质上仍是活在预设脚本里的「演员」。它们是内容生成的终点,却无法成为实时交流的起点。在这种「文生视频」的范式下,AI 被困在一次性的创作流程中,这与一个能随时响应、无处不在的智能伙伴相去甚远。

那为什么一个能随时响应的AI数字人,至今仍未普及?

主要原因就是成本。

而这一矛盾,正是下一轮技术演进的发力点。

10 月 29 日,魔珐科技,正式发布了 3D 数字人开放平台「星云」。其核心,就是将过去属于大企业预算的「项目制」奢侈品,转变为所有开发者都能通过 SDK 快速集成的基础能力。

魔珐科技之前就是 3D 数字人的领先提供商之一,深知许多企业在听到高昂的部署价格后只能望而却步。而他们近期的技术突破,正是对这一核心痛点的精准打击:通过自研的AI算法,替代了传统渲染流程对高端GPU的重度依赖。这使得生成的数字人不仅保证了高质量,还能在百元级芯片上流畅运行。

当一个高质量、可交互的 3D 数字人大幅降低了运行成本,其意义远超技术本身。这意味着,AI 终于获得了入住每一块屏幕的入场券。未来,无论是手机 App、汽车座舱,还是商场里的一块普通广告牌,都可能成为一个能与你自然对话的智能体。人机交互的下一个范式,或许正由此开启。

01

「星云」是什么?:

让 AI 的「具身表现力」变成基础设施

在理解魔珐科技发布的「星云」平台之前,有必要先厘清一个事实:我们今天在屏幕上看到的「数字人」,并非出自同一种技术。它们看似相似,背后却是不同时代、不同成本、不同妥-协下的产物。

最常见的一类,是预先制作的「2.5D」视频。这类数字人更像是高级的「PPT 动画」,通过 AI 技术将文本合成为一段带有口型和简单动作的视频。它们解决了信息播报的需求,但本质上是「只读」的,无法进行任何实时的、个性化的交互。

更进一步的,则是依赖「中之人」(即背后有真人在实时驱动)的虚拟主播。这类方案保证了高质量的互动性,但成本与真人无异,无法规模化,也并非真正的「人工智能」。

而真正代表着未来的,是完全由 AI 驱动的、可实时交互的 3D 数字人。

这背后有一个清晰的逻辑:大语言模型在理解、推理和生成内容上的「智商」已经受到了广泛认可。当这颗强大的「大脑」被赋予一个能够表达的「身体」时,人机交互将发生质变。通过叠加具有人类情感温度的语音(有人味儿)、能够传递微妙情绪的微表情、以及建立信任感的肢体语言,AI 的回应将不再仅仅是信息的传递,而是一次完整的、个性化的交流。

它有望提供一种超越「皮下之人」(中之人)的服务体验——AI 没有情绪疲劳,可以 7x24 小时保持最佳状态;它可以瞬间调动全部知识库,为每一个用户提供深度定制的反馈。最关键的是,这种高质量的、极度个性化的服务能力,第一次可以被无限地、低成本地规模化复制。这,是人类服务者永远无法企及的优势。

魔珐科技正是这个领域的先行者之一,但在此之前,纯 AI 驱动始终面临着一道难以逾越的「成本高墙」,导致其商业模式长期停留在项目制。

一个实时的 3D 数字人,无异于一部需要 7x24 小时不间断渲染的 3D 动画。它的每一个微表情、每一次手势、甚至每一根发丝的飘动和衣物的褶皱,都需要进行复杂的图形计算(渲染)和物理演算(解算),才能保证逼真和流畅。在传统架构下,这些计算的重担,几乎全部压在了云端的高端 GPU 上。

这就形成了一个无法调和的矛盾:要保证高质量,就必须投入昂贵的 GPU 资源,导致单路交互的部署成本轻松突破数万元;要降低成本,就只能牺牲质量和实时性。这堵由 GPU 筑起的高墙,将真正的交互式 AI 数字人,排除在更广众的应用之外。

不过,此次发布的「星云」的全新管线则彻底重构了这一流程。通过通过自研的AI算法,替代了传统渲染流程对高端GPU的重度依赖,一次性解决了成本、延迟、并发的三座大山。

新的技术栈将任务进行了巧妙的分工:

云端(大脑):当接收到文本指令后,AI 模型不再直接渲染庞大的视频流。它只负责「决策」,即生成一套描述数字人下一秒该做什么的、极其轻量化的「行为参数」,包含语音、口型、表情、姿态等指令。

终端(身体):这些轻量化的参数被迅速传输到用户设备上。真正执行渲染和解算工作的,是部署在终端上的、经过高度优化的 AI 模型。这个本地的 AI 渲染器,接收的是轻量化参数流,输出最终的视频画面。它就像一个技艺精湛的本地画师,根据云端发来的「剧本」,实时地在用户屏幕上绘制出最终的画面。

这一模式巧妙地绕开了最大的成本中心。它既不需要用户拥有一部搭载高端芯片的手机,也无需为云端昂贵的 GPU 付费。由于终端的 AI 渲染模型是用最高质量的离线渲染数据训练而成,它学会了用极低的算力「复刻」出媲美高端 GPU 的画面效果。这直接解锁了高质量低成本的数字人的应用空间。

从官网提供的样例来看,其唇形同步的精准度极高,完全不存在廉价数字人常见的「木偶感」,证明了这一路径的可行性。

更关键的是,这种「云端决策、终端渲染」的架构创新,带来了一系列连锁效应,一举解决了另外两个长期困扰行业的瓶颈。

首先是延迟问题。传统模式下,云端渲染完视频再传输到用户端,网络延迟是巨大瓶颈。而「星云」传输的只是 KB 级别的参数流,数据量远小于视频流,极大地降低了网络耗时,从而将端到端的总延迟稳定控制在 1.5 秒以内,实现了接近人类对话的响应速度。

其次是并发能力。既然最耗费资源的渲染工作被下放到了不计其数的终端设备上,云端服务器的压力便得到了极大释放。它不再需要为每一个用户都配备一张昂贵的 GPU,从而具备了支撑千万级用户同时在线交互的能力,为规模化应用扫清了障碍。

过去,企业想要一个数字人,需要经历数月的需求沟通、美术定制和技术开发。而星云的发布,意味着任何一个开发者,只需通过几行代码调用 SDK,就能为自己的 App、小程序或任何一块屏幕,快速「激活」一个能说会道的 AI 数字人。

02

当 AI 的「身体」出现,

世界将如何改变?

当曾经非标准、高门槛的能力——「具身表现力」,变成基础设施,将打开的,是一个让 AI 从「后台工具」走向「前台伙伴」的全新应用空间。

过去,我们与 AI 的交互,本质上是一种非对称的、功能驱动的关系。我们向一个无形的黑盒输入指令,它则返回一个结果。而当 AI 拥有了一个可以实时互动、传递情感的「身体」时,这一切或许都将改变。

拿我们熟悉的 AI 陪伴做例子。

AI 陪伴并非一个新概念,但长期以来,它始终被困在两种不完整的形态里:要么是缺少「在场感」的纯文本聊天机器人,要么是无法进行视觉交流的智能音箱。它们能提供信息,却难以建立真正的情感连接。

「星云」所代表的技术路径,则可能彻底改变这一现状。一个具身化的 AI 伴侣,能够通过眼神接触、点头、微笑等非语言线索,传递出文本和语音无法承载的共情与专注。它不再是一个冰冷的问答机器,而是一个能「看着你」、「听着你」说话的、有存在感的「人格」。

更关键的原因在于,过去的技术无法同时满足低成本低延迟

要让一个 AI「边听边回应」,并在对话中自然地做出点头、注视、微笑等细微动作,不只是动画渲染的问题。它还要在毫秒级的延时内完成感知、推理与生成,对算力、算法和网络延迟的要求极高。

更复杂的是,我们希望这个数字人不仅能反应灵敏,还能「认识你」。它要有独立人格,能记住每个人的偏好与历史,这意味着系统必须支撑高并发的个性化记忆,而不是播放一段事先渲染好的动画。

当运行一个高质量数字人的成本降至几乎可以忽略时,AI 陪伴的形态就会彻底反转——从一种「公共设施」,变成一段「私人关系」。

那时,每个人都可以拥有一个(或多个)深度定制的具身化伴侣:它记得你们的每一次对话,了解你的语气、节奏与习惯,并在你需要时,出现在你的手机、电脑,甚至车载屏幕上。

而在企业端,这套基础设施可能催生一支不知疲倦、能力超群且成本极低的「数字员工」大军。

魔珐科技透露,他们正与多家企业展开合作,共同探索这一模式在 B 端的落地可能。

比如金融、文旅、政务等服务场景,一个部署在银行 App 或大厅屏幕上的「AI 理财顾问」,不仅具备整个银行的知识库,还能以极大的耐心,解答用户的每一个琐碎问题。它没有情绪,不会不耐烦,永远能保持最专业的服务姿态。

更重要的是,当用户突然打断或临时提问时,它能即时暂停当前讲解并灵活应答,真正实现「对话式服务」的自然流转。

对于不熟悉智能设备的老年用户,这样的数字人还能提供更有温度的帮助:说话语速更慢、语气更柔和,用熟悉的面孔和贴心的语气,拉近人与技术之间的距离。

这一切得以实现的基础,同样是技术的普及化。当企业不再需要为每一路客服都支付数万元的硬件成本,便可以轻松地将「数字员工」部署到每一个服务触点,从而在提升效率的同时,保证服务体验的温度和一致性。

「具身表达力」,或许将深刻改变我们获取知识与交互沟通的方式

在教育场景中,它能让抽象的知识长出「人格」。

想象一下,学习外语时,你的陪练不再是一个冰冷的 App,而是一位口型标准、表情生动的虚拟语伴。你可以直观看到他/她发音时的口型变化,获得实时反馈与纠正——学习过程更沉浸,效果也远超传统模式。

而在消费电子领域,电视制造商正迎来另一种想象。过去他们一直希望在软件与服务层找到突破口,却受限于硬件成本——要在电视中塞进一块高端 GPU,只为实现流畅的 3D 交互,几乎不可能。

「星云」的低成本方案,让这种 AI 助手能直接运行在电视自带的百元级芯片上,使「人格化交互」第一次可能成为电视的标配,而非选配。

于是,电视不再需要复杂的遥控器和层层嵌套的菜单。一个常驻在屏幕角落的AI伴侣,将成为家庭的交互中心。这不只是体验的进化,更可能是一场商业模式的重构——AI 第一次让电视从「内容入口」,变成「关系入口」。

如果说以上场景还局限在屏幕的虚拟世界,那么这项技术的终极潜力,则在于连接现实——驱动物理世界的机器人。

魔珐的演示展示了这种可能性:驱动屏幕内 3D 数字人的那套参数,同样可以被用来驱动一个物理人形机器人的关节运动。

那个在虚拟世界里教会我们使用产品、为我们规划旅行的 AI 助手,未来或许就能直接「下载」到家中的服务机器人体内,用同样熟悉的声音、甚至模仿出的「表情」(通过屏幕或指示灯),与我们进行交流。

这让机器人真正从一个需要学习如何操作的「工具」,进化为一个可以自然沟通的「伙伴」。当 AI 的「灵魂」与机器的「身体」通过一套标准化的「表达系统」完美结合时,科幻电影中的场景,才真正有了照进现实的可能。

03

一场源自中国的交互创新

「星云」平台的发布,不仅是一次技术上的突破,更是在全球 AI 竞赛中,开辟了一条与主流硅谷范式截然不同的、以「交互」为核心的创新路径。要理解这场变革的重要性,最好的参照系就是 Sora。

Sora 代表了当前 AI「生成能力」的巅峰。它像一位无所不能的电影导演,目标是利用磅礴的算力,一次性地创作出一段逻辑自洽、细节完美的影像「作品」。它的价值在于「创世」,在于从无到有地生成一个静态的、可供观赏的世界。然而,一旦生成结束,这个世界便凝固了,它无法对外界的刺激做出任何新的反应。Sora 的交互是单向的,终点是作品的完成。

而「星云」所代表的,是 AI「表达能力」的一次关键跃迁。它更像一个优秀的即兴戏剧演员,它的价值不在于一次性的完美演出,而在于对台下观众每一个提问、每一次打断都能做出即时的、恰当的、带有情绪的「回应」。它的世界是动态的、持续演进的,并且永远对新的输入保持开放。

这种以「应用」和「普及」为导向的创新范式,能够率先在中国结出果实,并非偶然。它深深植根于中国独特的市场、供应链和商业化环境。

首先,是中国市场「商业闭环」的执念。当海外的大模型公司仍在算法和参数的「军备竞赛」中不断推高 AI 的理论上限时,中国的 AI 从业者们早已面临一个更直接的问题:如何让技术落地,如何赚钱。在这里,一个纯粹的「AI 大脑」是不够的,它必须找到一个可以依附的「身体」——无论是屏幕、终端还是机器人——才能在政府服务、教育、零售、制造等具体的行业场景中创造价值。这种强烈的商业化需求,迫使中国的创新者们必须将目光从云端拉回地面,思考如何为 AI 构建与物理世界连接的桥梁。

其次,是中国全球最完备的智能硬件生态。当 AI 需要「身体」时,中国恰恰是这个星球上最强大的「身体制造商」。无论是机器人本体、各类交互屏幕,还是 AR/VR 设备,其背后的供应链、制造能力和成本工程能力几乎无可匹敌。将 3D 数字人的运行门槛降至「百元级芯片」,这一壮举正是依托于此。如果说硅谷定义了「AI 大脑」的研发范式,那么中国则掌握了制造「AI 身体」所需的一切要素,从设计到量产,形成了一个天然的硬件试验场。

在这样的大背景下,魔珐科技的崛起,便成为了这一宏大叙事的最佳缩影。它的独特优势,恰恰完美契合了中国市场的需求和禀赋。

魔珐的护城河,并不仅仅在于其创始人柴金祥教授团队深厚的学术背景——他们是全球最早用 AI 算法生成 3D 动画的先行者,保证了技术的原创性与深度。更关键的,在于其过去多年作为3D 数字人内容服务商所积累的海量、高质量的专有数据

具身智能的核心燃料,不仅是算法,更是海量的 3D 视觉与交互数据。在长期为游戏、影视及各类企业提供服务的过程中,魔珐并非在象牙塔中做研究,而是在解决一个个真实商业问题的同时,积累了中国市场独有的、无可替代的 3D 素材与真实交互数据。当竞争对手还在寻找数据「养料」时,魔珐早已拥有了一片富饶的「黑土地」。

可以说,「星云」的诞生,正是顶尖技术理论,在中国这片独特的「商业需求+硬件生态+数据土壤」中,找到的最佳落点。它既有来自全球前沿的「AI 大脑」,又在中国市场中,为自己锻造出了一副可以被低成本、大规模复制的「AI 身体」。

当中国企业率先让 AI 走出文本框,世界或许将重新定义「交互」。

「星云」的意义,不只是为 AI 提供了一张可以说话的脸,而是让每一块冰冷的屏幕,都有了获得生命的可能性。它让「智能」第一次变得有温度、有表情,不再是后台一串冰冷的代码,而是前台一个温暖的伙伴。

这预示着,「人机关系」正在从过去纯粹的功能性合作,开始走向更深层次的情感共处。而这场伟大的变革,或许才刚刚拉开序幕。

*头图魔珐科技

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

AI 正在重塑人机交互的每一个维度,大模型的发展带来了新的交互方式,也带来了新的硬件机会。手机还会是用户最重要的个人计算设备吗?手机之外的硬件有怎样的机会?AI 时代会诞生新的安卓系统吗?

10 月 30 日(周四)20:00,极客公园视频号直播间,极客公园创始人 & 总裁张鹏将与光帆科技创始人董红光展开一场关于「AI 时代的交互与硬件」的深入对话。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。