当前位置：首页 » 资讯 » 新科技 » 正文

151% 的增长背后，它正在成为 AI 的「新入口」

IP属地中国·北京 极客公园 时间：2025-11-04 20:15:10

一个 1500 亿美元的新赛道。

作者｜徐珊
编辑｜靖宇
浪潮之下，AI 语音正以前所未有的速度奔涌。当大家期待 AI 能「听懂」言语，「理解」人心时，AI 产业与技术准备好了吗？
10 月 31 日，由声网与 RTE 开发者社区联合主办的 Convo AI & RTE 2025 第十一届实时互联网大会在北京正式开幕。本届大会以「AI 有声」为主题，汇聚全球顶尖专家，探索实时互动（RTE）与对话式 AI 的深度融合之道。
声网创始人兼 CEO 赵斌在开场演讲中宣布了一个里程碑：声网年度服务分钟数首次突破 1 万亿分钟，标志着 RTE 技术已成为数字社会不可或缺的基础设施。
Deepgram 和 Opus Research 调研显示，67% 的企业已将语音 AI 智能体置于战略核心，84% 的企业计划在未来一年增加相关投入。声网对话式 AI 相关用量在 2025 年第三季度实现 151% 的环比增长，展现出强劲的市场需求。

声网创始人兼 CEO 赵斌｜声网
对话式 AI 正驱动 RTE 完成从「正常对话」到「声情并茂」的关键跃迁。在这一浪潮下，ARK Invest 预测 AI 陪伴赛道将扩张至 700-1500 亿美元——对话式 AI，已然成为下一代 AI 基础设施的核心组成部分。
01
如何教AI听懂人话？

在实时互动技术步入「万亿分钟」时，声网正推动一场从「连接」到「对话」的变革。
作为实时互动领域的基础设施构建者，声网对 AI 语音的认知早已超越单纯的技术连通，而是聚焦于如何让 AI 真正「听懂」人类语言背后的情感与意图，尤其是多模态大语言模型的成熟为 AI 装上了「新大脑」之后，如何将其理解能力更好地发挥出来，成为关键。
声网创始人兼 CEO 赵斌在 RTE2025 大会上指出，当前 AI 对话体验面临的核心矛盾在于：人类对话中仅有 7% 的信息来自语言内容，超过 90% 的信息感知依赖于语调、表情和肢体语言等非语言要素。想要做好人机对话，就要教会 AI 看到这些「言外之意」，并且能够从中分析到说话人的真正意图。
在赵斌看来，对话式 AI 正驱动 RTE 从「正常对话」向「声情并茂」的关键跃迁，这不仅是技术升级，更是交互范式的本质转变。

声网创始人兼 CEO 赵斌｜声网
声网在过去多年持续攻坚「听到、听懂、理解」三大难题。在「听到」层面，声网自研的 SD-RTN 网络实现 76ms 端到端延迟，较 WebRTC 标准提升 8 倍，为高质量语音交互奠定基础。借此，全新的网络架构不仅能大幅降低端到端响应延迟，还能兼容多种主流大模型。
在「听懂」层面，声网的对话式AI引擎 2.0实现了技术飞跃。通过多模态融合，它不仅能处理音频，更新增了声纹识别、数字人与视觉理解功能，让 AI 能够识别说话人的身份特征、感知环境画面信息，将单纯的声音信号升级为有上下文的「场景数据流」。并且，声纹识别功能赋予 AI 精准识别用户声纹特征的能力，可智能屏蔽环境噪声。
而在最核心的「理解」层面，声网通过上下文管理、情感理解等系统化方案，主要捕捉那 93% 的非语言信息。
02
对话式 AI，将从三大场景率先突围
从技术到应用，声网正推动对话式 AI 在多个关键场景中规模化落地。赵斌指出，对话式 AI 将在情感陪伴、智能硬件、在线教育三大场景中率先实现规模化落地。
声网认为，在情感陪伴场景中 AI 正成为缓解现代人孤独感的新载体，备受人们关注，像珞博智能的 AI 毛绒宠物「芙崽」通过长期记忆系统，能够感知用户情绪变化并主动召回快乐记忆。

声网创始人兼 CEO 赵斌｜声网
AI 情感陪伴产品主要通过技术手段为用户提供情感支持，正成为新的社会情绪稳定器。据调查，85% 用户都带有负向情绪，不开心、难过、抑郁、甚至有明显自杀倾向的也不少。而和 AI 交流自己的苦闷之处，也成为不少年轻人消解自己的情绪方式之一。
在教育领域，盒智科技 CTO 张昊还介绍了其产品 LOOKEE 口语侠搭载的 AURA 动态调控系统。该系统能异步分析孩子的情感状态、内容理解度、对话积极性等多维数据，并实时调整对话策略、语速语调甚至设备表情，目的是让孩子「能聊下去、爱聊下去」，从根本上提升产品的完课率和留存率。
在 RTE2025 大会的 AI 硬件专场上，小匠物联的创始人米雪龙还分享了他们对 AI 与硬件融合的深刻见解。他认为，未来的智能硬件将不再是简单的功能执行者，而是能主动理解人、并与用户建立情感链接的「陪伴者」。
03
谁在用对话式 AI？
在声网 RTE2025 大会主论坛之外，外面的展区同样人流如织，我带着对 AI 有声的好奇，亲身感受 AI 音频技术在不同场景下迸发的活力。也更真实地意识到，想要让人和 AI 之间流畅地对话，并没有那么简单。其中，大家更多讨论的两个问题是，AI 如何理解人类的断句，以及当有多个 AI 语音智能体打开时，AI 如何判断我是在和自己对话。
对于前者，声网联合打造了 TEN.VAD 语音活动检测 AI 模型，不但能够在真实案例中将音频传输数据量减少达 62%。而且还能快速检测语音与非语音之间的切换，降低人际交互的端到端延迟和打断延迟。对于后者，目前暂未看到比较好的解决方案。
除了软件问题，我们还观察了不同场景下的 AI 语音功能会有哪些不同。首先是 AI 教育展区，盒智科技推出的 LOOKEE 口语侠，是一款帮助孩子进行英语口语学习的 AI 硬件。他们引入了自研的 AURA 动态调控系统，可分析孩子的情感状态、内容理解度、对话积极性等维度。基于这些数据实时调整对话策略，从而实现真正的个性化教学，让语言学习从枯燥的任务转变为自然的交流过程。在语音设置上，他们主要选择了几个典型人物声音和一些儿童 IP 的声音提高孩子们使用的兴趣程度。

Lookee 口语侠｜极客公园
其次是 AI 硬件展台，我们看到了 AI 潮玩产品「芙崽 Fuzozo」颇受欢迎。它不仅是毛绒玩具，更能通过语音进行自然对话，甚至有自己的「毛毛语」。工作人员介绍，其内置的多模态情感模型和长期记忆系统，能记住用户的喜好和之前的聊天内容，就像一个真正的伙伴。据了解，这款产品退货率远低于行业平均水平。
我们还看到了 Lumu 机器人，是哈尔滨工业大学孵化的陆吾智能打造的桌面机器人。它可以简单执行前进、跳舞，蹲下等基础操作。

Lumu 桌面机器人｜极客公园
此外，我们还观察到不少 AI 语音创企正在打造一些市场调研、AI 传记编写等软件。比如说，ListenHub 想成为创作者的 AI 嘴替，主要为创作者提供真实自然的语音内容和服务，如数字人配音、播客、小说朗读、有声故事书等。通过数据积累和大规模的工程化，ListenHub 的 AI 系统能够在 1-5 分钟内将任意文本内容转化为具备真实对话感的高质量音频。ValidFlow.AI 通过 AI 研究员和全球用户池的组合，可以更全面高效地做好用户洞察，提高问卷回收分析。
目前，AI 音频已远远超越了「听清」的基础要求，正向着「听懂」、「感知情绪」和「创造沉浸」迈进。它正在悄无声息地融入硬件、教育和日常交互的方方面面，一个更加智能、自然且充满温度的有声世界，正在我们眼前缓缓开启。
*头图声网
本文为极客公园原创文章，转载请联系极客君微信 geekparkGO
极客一问
你用过的对话式 AI 应用和产品有哪些？
彭博社爆料：苹果自研 AI 受阻，付费谷歌 Gemini 救 Siri
点赞关注极客公园视频号，

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

小米澎湃 OS 3 短信通知横幅内新增「已读」按钮，陆续推送更新中

香港金融科技周:腾讯金融科技助力湾区互联互通

它，能取代手机？谷歌、苹果……都出手了！

20.68万！比亚迪夏成“价格屠夫”，MPV市场要变天了

OpenAI 澄清：ChatGPT 未被禁止提供医疗和法律建议

20.68万！比亚迪夏成“价格屠夫”，MPV市场要变天了

全站最新

小米澎湃 OS 3 短信通知横幅内新增「已读」按钮，陆续推送更新中

香港金融科技周:腾讯金融科技助力湾区互联互通

它，能取代手机？谷歌、苹果……都出手了！

20.68万！比亚迪夏成“价格屠夫”，MPV市场要变天了

热门推荐

REDMI Turbo 5 1月登场：首发天玑8500

小米澎湃 OS 3 短信通知横幅内新增「已读」按钮，陆续推送更新中

国内首架C919十五运会主题彩绘飞机首航上海

香港金融科技周:腾讯金融科技助力湾区互联互通

金蝶徐少春：AI时代企业将经历七个转型

它，能取代手机？谷歌、苹果……都出手了！

20.68万！比亚迪夏成“价格屠夫”，MPV市场要变天了

OpenAI 澄清：ChatGPT 未被禁止提供医疗和法律建议

比亚迪2026款夏上市，限时售价19.68万元起

每日互动：公司“发数站”战略持续推进

20.68万！比亚迪夏成“价格屠夫”，MPV市场要变天了

香港金融科技周：腾讯金融科技助力湾区互联互通

第八届进博会新闻中心迎“AI志愿者”，科技赋能全球传播

【进博时刻】聚焦“AI赋能，种草新消费”，第八届进博会上海馆亮相

盖世小鸡手柄新品曝光，小米 REDMI 产品经理专门定制牛仔蓝配色