当前位置: 首页 » 资讯 » 新科技 » 正文

151% 的增长背后,它正在成为 AI 的「新入口」

IP属地 中国·北京 极客公园 时间:2025-11-04 20:15:10


一个 1500 亿美元的新赛道。


作者|徐珊

编辑|靖宇

浪潮之下,AI 语音正以前所未有的速度奔涌。当大家期待 AI 能「听懂」言语,「理解」人心时,AI 产业与技术准备好了吗?

10 月 31 日,由声网与 RTE 开发者社区联合主办的 Convo AI & RTE 2025 第十一届实时互联网大会在北京正式开幕。本届大会以「AI 有声」为主题,汇聚全球顶尖专家,探索实时互动(RTE)与对话式 AI 的深度融合之道。

声网创始人兼 CEO 赵斌在开场演讲中宣布了一个里程碑:声网年度服务分钟数首次突破 1 万亿分钟,标志着 RTE 技术已成为数字社会不可或缺的基础设施。

Deepgram 和 Opus Research 调研显示,67% 的企业已将语音 AI 智能体置于战略核心,84% 的企业计划在未来一年增加相关投入。声网对话式 AI 相关用量在 2025 年第三季度实现 151% 的环比增长,展现出强劲的市场需求。


声网创始人兼 CEO 赵斌| 声网

对话式 AI 正驱动 RTE 完成从「正常对话」到「声情并茂」的关键跃迁。在这一浪潮下,ARK Invest 预测 AI 陪伴赛道将扩张至 700-1500 亿美元——对话式 AI,已然成为下一代 AI 基础设施的核心组成部分。

01

如何AI听懂人话?


在实时互动技术步入「万亿分钟」时,声网正推动一场从「连接」到「对话」的变革。

作为实时互动领域的基础设施构建者,声网对 AI 语音的认知早已超越单纯的技术连通,而是聚焦于如何让 AI 真正「听懂」人类语言背后的情感与意图,尤其是多模态大语言模型的成熟为 AI 装上了「新大脑」之后,如何将其理解能力更好地发挥出来,成为关键。

声网创始人兼 CEO 赵斌在 RTE2025 大会上指出,当前 AI 对话体验面临的核心矛盾在于:人类对话中仅有 7% 的信息来自语言内容,超过 90% 的信息感知依赖于语调、表情和肢体语言等非语言要素。想要做好人机对话,就要教会 AI 看到这些「言外之意」,并且能够从中分析到说话人的真正意图。

在赵斌看来,对话式 AI 正驱动 RTE 从「正常对话」向「声情并茂」的关键跃迁,这不仅是技术升级,更是交互范式的本质转变。


声网创始人兼 CEO 赵斌| 声网

声网在过去多年持续攻坚「听到、听懂、理解」三大难题。在「听到」层面,声网自研的 SD-RTN 网络实现 76ms 端到端延迟,较 WebRTC 标准提升 8 倍,为高质量语音交互奠定基础。借此,全新的网络架构不仅能大幅降低端到端响应延迟,还能兼容多种主流大模型。

在「听懂」层面,声网的对话式AI引擎 2.0实现了技术飞跃。通过多模态融合,它不仅能处理音频,更新增了声纹识别、数字人与视觉理解功能,让 AI 能够识别说话人的身份特征、感知环境画面信息,将单纯的声音信号升级为有上下文的「场景数据流」。并且,声纹识别功能赋予 AI 精准识别用户声纹特征的能力,可智能屏蔽环境噪声。

而在最核心的「理解」层面,声网通过上下文管理、情感理解等系统化方案,主要捕捉那 93% 的非语言信息。

02

对话式 AI,将从三大场景率先突围

从技术到应用,声网正推动对话式 AI 在多个关键场景中规模化落地。赵斌指出,对话式 AI 将在情感陪伴、智能硬件、在线教育三大场景中率先实现规模化落地。

声网认为,在情感陪伴场景中 AI 正成为缓解现代人孤独感的新载体,备受人们关注,像珞博智能的 AI 毛绒宠物「芙崽」通过长期记忆系统,能够感知用户情绪变化并主动召回快乐记忆。


声网创始人兼 CEO 赵斌| 声网

AI 情感陪伴产品主要通过技术手段为用户提供情感支持,正成为新的社会情绪稳定器。据调查,85% 用户都带有负向情绪,不开心、难过、抑郁、甚至有明显自杀倾向的也不少。而和 AI 交流自己的苦闷之处,也成为不少年轻人消解自己的情绪方式之一。

在教育领域,盒智科技 CTO 张昊还介绍了其产品 LOOKEE 口语侠搭载的 AURA 动态调控系统。该系统能异步分析孩子的情感状态、内容理解度、对话积极性等多维数据,并实时调整对话策略、语速语调甚至设备表情,目的是让孩子「能聊下去、爱聊下去」,从根本上提升产品的完课率和留存率。

在 RTE2025 大会的 AI 硬件专场上,小匠物联的创始人米雪龙还分享了他们对 AI 与硬件融合的深刻见解。他认为,未来的智能硬件将不再是简单的功能执行者,而是能主动理解人、并与用户建立情感链接的「陪伴者」。

03

谁在用对话式 AI?

在声网 RTE2025 大会主论坛之外,外面的展区同样人流如织,我带着对 AI 有声的好奇,亲身感受 AI 音频技术在不同场景下迸发的活力。也更真实地意识到,想要让人和 AI 之间流畅地对话,并没有那么简单。其中,大家更多讨论的两个问题是,AI 如何理解人类的断句,以及当有多个 AI 语音智能体打开时,AI 如何判断我是在和自己对话。

对于前者,声网联合打造了 TEN.VAD 语音活动检测 AI 模型,不但能够在真实案例中将音频传输数据量减少达 62%。而且还能快速检测语音与非语音之间的切换,降低人际交互的端到端延迟和打断延迟。对于后者,目前暂未看到比较好的解决方案。

除了软件问题,我们还观察了不同场景下的 AI 语音功能会有哪些不同。首先是 AI 教育展区,盒智科技推出的 LOOKEE 口语侠,是一款帮助孩子进行英语口语学习的 AI 硬件。他们引入了自研的 AURA 动态调控系统,可分析孩子的情感状态、内容理解度、对话积极性等维度。基于这些数据实时调整对话策略,从而实现真正的个性化教学,让语言学习从枯燥的任务转变为自然的交流过程。在语音设置上,他们主要选择了几个典型人物声音和一些儿童 IP 的声音提高孩子们使用的兴趣程度。


Lookee 口语侠| 极客公园

其次是 AI 硬件展台,我们看到了 AI 潮玩产品「芙崽 Fuzozo」颇受欢迎。它不仅是毛绒玩具,更能通过语音进行自然对话,甚至有自己的「毛毛语」。工作人员介绍,其内置的多模态情感模型和长期记忆系统,能记住用户的喜好和之前的聊天内容,就像一个真正的伙伴。据了解,这款产品退货率远低于行业平均水平。

我们还看到了 Lumu 机器人,是哈尔滨工业大学孵化的陆吾智能打造的桌面机器人。它可以简单执行前进、跳舞,蹲下等基础操作。


Lumu 桌面机器人| 极客公园

此外,我们还观察到不少 AI 语音创企正在打造一些市场调研、AI 传记编写等软件。比如说,ListenHub 想成为创作者的 AI 嘴替,主要为创作者提供真实自然的语音内容和服务,如数字人配音、播客、小说朗读、有声故事书等。通过数据积累和大规模的工程化,ListenHub 的 AI 系统能够在 1-5 分钟内将任意文本内容转化为具备真实对话感的高质量音频。ValidFlow.AI 通过 AI 研究员和全球用户池的组合,可以更全面高效地做好用户洞察,提高问卷回收分析。

目前,AI 音频已远远超越了「听清」的基础要求,正向着「听懂」、「感知情绪」和「创造沉浸」迈进。它正在悄无声息地融入硬件、教育和日常交互的方方面面,一个更加智能、自然且充满温度的有声世界,正在我们眼前缓缓开启。

*头图声网

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你用过的对话式 AI 应用和产品有哪些?

彭博社爆料:苹果自研 AI 受阻,付费谷歌 Gemini 救 Siri

点赞关注极客公园视频号,

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。