当前位置：首页 » 资讯 » 新科技 » 正文

从文字到语音交互，AI 的下一个爆发点可能是拥有自己的身体

IP属地中国·北京 极客公园 时间：2025-10-30 14:14:36

从 AI 女友到数字面试官，人格化 AI 正在「登陆」你的所有屏幕。

作者｜Li Yuan
编辑｜郑玄
你最近的社交媒体，大概率也被 Sora 生成的那些既熟逼真又抽象的影像刷屏了。
Sora 的病毒式传播，证明了 AI 生成内容的一条黄金法则：人类最着迷的，永远是人类自己。这些影像之所以能迅速成为一种赛博奇观，超越以往所有 AI 视频的传播力，正是因为它第一次高质量地将创作主体从风景、动物，聚焦到了人类自身。
但热潮过后，一个更现实的问题浮出水面：Sora 生成的数字人无论多么逼真，本质上仍是活在预设脚本里的「演员」。它们是内容生成的终点，却无法成为实时交流的起点。在这种「文生视频」的范式下，AI 被困在一次性的创作流程中，这与一个能随时响应、无处不在的智能伙伴相去甚远。
那为什么一个能随时响应的AI数字人，至今仍未普及？
主要原因就是成本。
而这一矛盾，正是下一轮技术演进的发力点。
10 月 29 日，魔珐科技，正式发布了 3D 数字人开放平台「星云」。其核心，就是将过去属于大企业预算的「项目制」奢侈品，转变为所有开发者都能通过 SDK 快速集成的基础能力。
魔珐科技之前就是 3D 数字人的领先提供商之一，深知许多企业在听到高昂的部署价格后只能望而却步。而他们近期的技术突破，正是对这一核心痛点的精准打击：通过自研的AI算法，替代了传统渲染流程对高端GPU的重度依赖。这使得生成的数字人不仅保证了高质量，还能在百元级芯片上流畅运行。
当一个高质量、可交互的 3D 数字人大幅降低了运行成本，其意义远超技术本身。这意味着，AI 终于获得了入住每一块屏幕的入场券。未来，无论是手机 App、汽车座舱，还是商场里的一块普通广告牌，都可能成为一个能与你自然对话的智能体。人机交互的下一个范式，或许正由此开启。
01
「星云」是什么？：
让 AI 的「具身表现力」变成基础设施
在理解魔珐科技发布的「星云」平台之前，有必要先厘清一个事实：我们今天在屏幕上看到的「数字人」，并非出自同一种技术。它们看似相似，背后却是不同时代、不同成本、不同妥-协下的产物。
最常见的一类，是预先制作的「2.5D」视频。这类数字人更像是高级的「PPT 动画」，通过 AI 技术将文本合成为一段带有口型和简单动作的视频。它们解决了信息播报的需求，但本质上是「只读」的，无法进行任何实时的、个性化的交互。
更进一步的，则是依赖「中之人」（即背后有真人在实时驱动）的虚拟主播。这类方案保证了高质量的互动性，但成本与真人无异，无法规模化，也并非真正的「人工智能」。
而真正代表着未来的，是完全由 AI 驱动的、可实时交互的 3D 数字人。
这背后有一个清晰的逻辑：大语言模型在理解、推理和生成内容上的「智商」已经受到了广泛认可。当这颗强大的「大脑」被赋予一个能够表达的「身体」时，人机交互将发生质变。通过叠加具有人类情感温度的语音（有人味儿）、能够传递微妙情绪的微表情、以及建立信任感的肢体语言，AI 的回应将不再仅仅是信息的传递，而是一次完整的、个性化的交流。
它有望提供一种超越「皮下之人」（中之人）的服务体验——AI 没有情绪疲劳，可以 7x24 小时保持最佳状态；它可以瞬间调动全部知识库，为每一个用户提供深度定制的反馈。最关键的是，这种高质量的、极度个性化的服务能力，第一次可以被无限地、低成本地规模化复制。这，是人类服务者永远无法企及的优势。
魔珐科技正是这个领域的先行者之一，但在此之前，纯 AI 驱动始终面临着一道难以逾越的「成本高墙」，导致其商业模式长期停留在项目制。
一个实时的 3D 数字人，无异于一部需要 7x24 小时不间断渲染的 3D 动画。它的每一个微表情、每一次手势、甚至每一根发丝的飘动和衣物的褶皱，都需要进行复杂的图形计算（渲染）和物理演算（解算），才能保证逼真和流畅。在传统架构下，这些计算的重担，几乎全部压在了云端的高端 GPU 上。
这就形成了一个无法调和的矛盾：要保证高质量，就必须投入昂贵的 GPU 资源，导致单路交互的部署成本轻松突破数万元；要降低成本，就只能牺牲质量和实时性。这堵由 GPU 筑起的高墙，将真正的交互式 AI 数字人，排除在更广众的应用之外。
不过，此次发布的「星云」的全新管线则彻底重构了这一流程。通过通过自研的AI算法，替代了传统渲染流程对高端GPU的重度依赖，一次性解决了成本、延迟、并发的三座大山。
新的技术栈将任务进行了巧妙的分工：
云端（大脑）：当接收到文本指令后，AI 模型不再直接渲染庞大的视频流。它只负责「决策」，即生成一套描述数字人下一秒该做什么的、极其轻量化的「行为参数」，包含语音、口型、表情、姿态等指令。
终端（身体）：这些轻量化的参数被迅速传输到用户设备上。真正执行渲染和解算工作的，是部署在终端上的、经过高度优化的 AI 模型。这个本地的 AI 渲染器，接收的是轻量化参数流，输出最终的视频画面。它就像一个技艺精湛的本地画师，根据云端发来的「剧本」，实时地在用户屏幕上绘制出最终的画面。
这一模式巧妙地绕开了最大的成本中心。它既不需要用户拥有一部搭载高端芯片的手机，也无需为云端昂贵的 GPU 付费。由于终端的 AI 渲染模型是用最高质量的离线渲染数据训练而成，它学会了用极低的算力「复刻」出媲美高端 GPU 的画面效果。这直接解锁了高质量低成本的数字人的应用空间。
从官网提供的样例来看，其唇形同步的精准度极高，完全不存在廉价数字人常见的「木偶感」，证明了这一路径的可行性。
更关键的是，这种「云端决策、终端渲染」的架构创新，带来了一系列连锁效应，一举解决了另外两个长期困扰行业的瓶颈。
首先是延迟问题。传统模式下，云端渲染完视频再传输到用户端，网络延迟是巨大瓶颈。而「星云」传输的只是 KB 级别的参数流，数据量远小于视频流，极大地降低了网络耗时，从而将端到端的总延迟稳定控制在 1.5 秒以内，实现了接近人类对话的响应速度。
其次是并发能力。既然最耗费资源的渲染工作被下放到了不计其数的终端设备上，云端服务器的压力便得到了极大释放。它不再需要为每一个用户都配备一张昂贵的 GPU，从而具备了支撑千万级用户同时在线交互的能力，为规模化应用扫清了障碍。
过去，企业想要一个数字人，需要经历数月的需求沟通、美术定制和技术开发。而星云的发布，意味着任何一个开发者，只需通过几行代码调用 SDK，就能为自己的 App、小程序或任何一块屏幕，快速「激活」一个能说会道的 AI 数字人。
02
当 AI 的「身体」出现，
世界将如何改变？
当曾经非标准、高门槛的能力——「具身表现力」，变成基础设施，将打开的，是一个让 AI 从「后台工具」走向「前台伙伴」的全新应用空间。
过去，我们与 AI 的交互，本质上是一种非对称的、功能驱动的关系。我们向一个无形的黑盒输入指令，它则返回一个结果。而当 AI 拥有了一个可以实时互动、传递情感的「身体」时，这一切或许都将改变。
拿我们熟悉的 AI 陪伴做例子。
AI 陪伴并非一个新概念，但长期以来，它始终被困在两种不完整的形态里：要么是缺少「在场感」的纯文本聊天机器人，要么是无法进行视觉交流的智能音箱。它们能提供信息，却难以建立真正的情感连接。
「星云」所代表的技术路径，则可能彻底改变这一现状。一个具身化的 AI 伴侣，能够通过眼神接触、点头、微笑等非语言线索，传递出文本和语音无法承载的共情与专注。它不再是一个冰冷的问答机器，而是一个能「看着你」、「听着你」说话的、有存在感的「人格」。
更关键的原因在于，过去的技术无法同时满足低成本与低延迟。
要让一个 AI「边听边回应」，并在对话中自然地做出点头、注视、微笑等细微动作，不只是动画渲染的问题。它还要在毫秒级的延时内完成感知、推理与生成，对算力、算法和网络延迟的要求极高。
更复杂的是，我们希望这个数字人不仅能反应灵敏，还能「认识你」。它要有独立人格，能记住每个人的偏好与历史，这意味着系统必须支撑高并发的个性化记忆，而不是播放一段事先渲染好的动画。
当运行一个高质量数字人的成本降至几乎可以忽略时，AI 陪伴的形态就会彻底反转——从一种「公共设施」，变成一段「私人关系」。
那时，每个人都可以拥有一个（或多个）深度定制的具身化伴侣：它记得你们的每一次对话，了解你的语气、节奏与习惯，并在你需要时，出现在你的手机、电脑，甚至车载屏幕上。
而在企业端，这套基础设施可能催生一支不知疲倦、能力超群且成本极低的「数字员工」大军。
魔珐科技透露，他们正与多家企业展开合作，共同探索这一模式在 B 端的落地可能。
比如金融、文旅、政务等服务场景，一个部署在银行 App 或大厅屏幕上的「AI 理财顾问」，不仅具备整个银行的知识库，还能以极大的耐心，解答用户的每一个琐碎问题。它没有情绪，不会不耐烦，永远能保持最专业的服务姿态。
更重要的是，当用户突然打断或临时提问时，它能即时暂停当前讲解并灵活应答，真正实现「对话式服务」的自然流转。
对于不熟悉智能设备的老年用户，这样的数字人还能提供更有温度的帮助：说话语速更慢、语气更柔和，用熟悉的面孔和贴心的语气，拉近人与技术之间的距离。
这一切得以实现的基础，同样是技术的普及化。当企业不再需要为每一路客服都支付数万元的硬件成本，便可以轻松地将「数字员工」部署到每一个服务触点，从而在提升效率的同时，保证服务体验的温度和一致性。
「具身表达力」，或许将深刻改变我们获取知识与交互沟通的方式。
在教育场景中，它能让抽象的知识长出「人格」。
想象一下，学习外语时，你的陪练不再是一个冰冷的 App，而是一位口型标准、表情生动的虚拟语伴。你可以直观看到他/她发音时的口型变化，获得实时反馈与纠正——学习过程更沉浸，效果也远超传统模式。
而在消费电子领域，电视制造商正迎来另一种想象。过去他们一直希望在软件与服务层找到突破口，却受限于硬件成本——要在电视中塞进一块高端 GPU，只为实现流畅的 3D 交互，几乎不可能。
「星云」的低成本方案，让这种 AI 助手能直接运行在电视自带的百元级芯片上，使「人格化交互」第一次可能成为电视的标配，而非选配。
于是，电视不再需要复杂的遥控器和层层嵌套的菜单。一个常驻在屏幕角落的AI伴侣，将成为家庭的交互中心。这不只是体验的进化，更可能是一场商业模式的重构——AI 第一次让电视从「内容入口」，变成「关系入口」。
如果说以上场景还局限在屏幕的虚拟世界，那么这项技术的终极潜力，则在于连接现实——驱动物理世界的机器人。
魔珐的演示展示了这种可能性：驱动屏幕内 3D 数字人的那套参数，同样可以被用来驱动一个物理人形机器人的关节运动。
那个在虚拟世界里教会我们使用产品、为我们规划旅行的 AI 助手，未来或许就能直接「下载」到家中的服务机器人体内，用同样熟悉的声音、甚至模仿出的「表情」（通过屏幕或指示灯），与我们进行交流。
这让机器人真正从一个需要学习如何操作的「工具」，进化为一个可以自然沟通的「伙伴」。当 AI 的「灵魂」与机器的「身体」通过一套标准化的「表达系统」完美结合时，科幻电影中的场景，才真正有了照进现实的可能。
03
一场源自中国的交互创新
「星云」平台的发布，不仅是一次技术上的突破，更是在全球 AI 竞赛中，开辟了一条与主流硅谷范式截然不同的、以「交互」为核心的创新路径。要理解这场变革的重要性，最好的参照系就是 Sora。
Sora 代表了当前 AI「生成能力」的巅峰。它像一位无所不能的电影导演，目标是利用磅礴的算力，一次性地创作出一段逻辑自洽、细节完美的影像「作品」。它的价值在于「创世」，在于从无到有地生成一个静态的、可供观赏的世界。然而，一旦生成结束，这个世界便凝固了，它无法对外界的刺激做出任何新的反应。Sora 的交互是单向的，终点是作品的完成。
而「星云」所代表的，是 AI「表达能力」的一次关键跃迁。它更像一个优秀的即兴戏剧演员，它的价值不在于一次性的完美演出，而在于对台下观众每一个提问、每一次打断都能做出即时的、恰当的、带有情绪的「回应」。它的世界是动态的、持续演进的，并且永远对新的输入保持开放。
这种以「应用」和「普及」为导向的创新范式，能够率先在中国结出果实，并非偶然。它深深植根于中国独特的市场、供应链和商业化环境。
首先，是中国市场「商业闭环」的执念。当海外的大模型公司仍在算法和参数的「军备竞赛」中不断推高 AI 的理论上限时，中国的 AI 从业者们早已面临一个更直接的问题：如何让技术落地，如何赚钱。在这里，一个纯粹的「AI 大脑」是不够的，它必须找到一个可以依附的「身体」——无论是屏幕、终端还是机器人——才能在政府服务、教育、零售、制造等具体的行业场景中创造价值。这种强烈的商业化需求，迫使中国的创新者们必须将目光从云端拉回地面，思考如何为 AI 构建与物理世界连接的桥梁。
其次，是中国全球最完备的智能硬件生态。当 AI 需要「身体」时，中国恰恰是这个星球上最强大的「身体制造商」。无论是机器人本体、各类交互屏幕，还是 AR/VR 设备，其背后的供应链、制造能力和成本工程能力几乎无可匹敌。将 3D 数字人的运行门槛降至「百元级芯片」，这一壮举正是依托于此。如果说硅谷定义了「AI 大脑」的研发范式，那么中国则掌握了制造「AI 身体」所需的一切要素，从设计到量产，形成了一个天然的硬件试验场。
在这样的大背景下，魔珐科技的崛起，便成为了这一宏大叙事的最佳缩影。它的独特优势，恰恰完美契合了中国市场的需求和禀赋。
魔珐的护城河，并不仅仅在于其创始人柴金祥教授团队深厚的学术背景——他们是全球最早用 AI 算法生成 3D 动画的先行者，保证了技术的原创性与深度。更关键的，在于其过去多年作为3D 数字人内容服务商所积累的海量、高质量的专有数据。
具身智能的核心燃料，不仅是算法，更是海量的 3D 视觉与交互数据。在长期为游戏、影视及各类企业提供服务的过程中，魔珐并非在象牙塔中做研究，而是在解决一个个真实商业问题的同时，积累了中国市场独有的、无可替代的 3D 素材与真实交互数据。当竞争对手还在寻找数据「养料」时，魔珐早已拥有了一片富饶的「黑土地」。
可以说，「星云」的诞生，正是顶尖技术理论，在中国这片独特的「商业需求+硬件生态+数据土壤」中，找到的最佳落点。它既有来自全球前沿的「AI 大脑」，又在中国市场中，为自己锻造出了一副可以被低成本、大规模复制的「AI 身体」。
当中国企业率先让 AI 走出文本框，世界或许将重新定义「交互」。
「星云」的意义，不只是为 AI 提供了一张可以说话的脸，而是让每一块冰冷的屏幕，都有了获得生命的可能性。它让「智能」第一次变得有温度、有表情，不再是后台一串冰冷的代码，而是前台一个温暖的伙伴。
这预示着，「人机关系」正在从过去纯粹的功能性合作，开始走向更深层次的情感共处。而这场伟大的变革，或许才刚刚拉开序幕。
*头图魔珐科技
本文为极客公园原创文章，转载请联系极客君微信 geekparkGO
AI 正在重塑人机交互的每一个维度，大模型的发展带来了新的交互方式，也带来了新的硬件机会。手机还会是用户最重要的个人计算设备吗？手机之外的硬件有怎样的机会？AI 时代会诞生新的安卓系统吗？
10 月 30 日（周四）20:00，极客公园视频号直播间，极客公园创始人 & 总裁张鹏将与光帆科技创始人董红光展开一场关于「AI 时代的交互与硬件」的深入对话。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

Claude 卸磨杀虾！开发者一夜工作流全断，OpenAI 躺赚用户

国家互联网信息办公室开展2025年国家信息化发展情况网络问卷调查

全球权威大模型盲测榜单公布，阿里千问3.6登顶中国最强编程模型

我的同事被炼化成 Skill 了

Linux内核维护者崩溃了！AI每天狂塞10份漏洞报告，想摸会鱼都难

缺的不是电，是稳电！储能成AI推理规模化“解药”，爆发在即

全站最新

Claude 卸磨杀虾！开发者一夜工作流全断，OpenAI 躺赚用户

国家互联网信息办公室开展2025年国家信息化发展情况网络问卷调查

全球权威大模型盲测榜单公布，阿里千问3.6登顶中国最强编程模型

我的同事被炼化成 Skill 了

热门推荐

Claude 卸磨杀虾！开发者一夜工作流全断，OpenAI 躺赚用户

国家互联网信息办公室开展2025年国家信息化发展情况网络问卷调查

全球权威大模型盲测榜单公布，阿里千问3.6登顶中国最强编程模型

我的同事被炼化成 Skill 了

Linux内核维护者崩溃了！AI每天狂塞10份漏洞报告，想摸会鱼都难

小电驴退出国补，终端再迎涨价：有门店销量下滑40%

三星官宣：默认短信应用Samsung Messages将于2026年7月停用

缺的不是电，是稳电！储能成AI推理规模化“解药”，爆发在即

「AI杀死Git」？前GitHub掌门人开启AI原生操作系统

Anthropic加码生命科学，4亿拿下AI新药研发公司

耶鲁研究：AGI 时代，人类工作不会大面积消失

锤爆苹果壁垒：AI成最强攻城锤

英伟达 AI 纹理压缩技术：显存占用降 85%，画质无损

不再免费！Anthropic 限制 Claude Code 第三方工具调用

再等 4 至 6 周！SpaceX 星舰 V3 首飞推迟至 5 月