![]()
新智元报道
编辑:KingHZ 犀牛
一段令人心碎的离别视频走红:小女孩与AI玩具的深情告别,揭示了对话式AI如何悄然融入人类情感世界,预示着实时交互技术的革命性突破。
一段视频走红了,只听声音就让人肝肠寸断:
如果只听声音,还以为只是普通的离别。但这是一个只会发生在AI时代的场景:
小女孩依依不舍的「姐姐」,其实是具有语音功能的AI玩具。
![]()
人生中第一次「告别」的痛楚,居然来自AI语音模块!
不过,如今很多AI的交互还停留在「短信」时代:在输入框中,输入问题,AI输出文字。
但人类沟通中,重要的从来不止是语言内容——
在《Silent Messages》「沉默的信息」中,心理学家Albert Mehrabian提出了「梅拉宾法则」:语言内容占沟通中7%的信息,声音占38%,表情等身体语言占55%。
![]()
但正如移动互联网时代,iPhone不仅仅依赖其通信的性能,还需要触控屏、传感器等交互技术的突破,AI交互可能是下一个万亿产业。
从技术趋势来看,多模态是大势所趋。与之同时,多模态大模型必然从「生成」演进到「交互」。
下一个关键演进方向,就是实时交互能力的普及。
多模态LLM,让计算机出现了类人的实时语音对话能力。实时互动,早已不再局限在人与人之间。随着技术发展,一个新AI物种诞生了——
具有「活人感」的对话式AI爆发了。
![]()
今年,不止是智能体元年,也将会成为对话式AI的元年。
次次踩中热点的大会
10月31日,声网与RTE开发者社区联合主办了Convo AI&RTE 2025——第十一届实时互联网大会。
今年的大会依旧十分火爆,现场座无虚席,很多朋友只能站着听。
![]()
![]()
![]()
左右滑动查看
RTE2025大会覆盖实时互联网以及对话式AI全生态,推出相关论坛及周边活动共计20余场,包括技术开发、趋势洞见、行业观察、创业投资等多维度话题。
2015年,声网把面向实时音视频的RTC开发者大会带到中国。从那时算起,这场年度盛会已连续举办十余届,期间从未间断过。
大会起初专注于WebRTC/RTC底层技术交流。
到2020年,由「RTC大会」升级为「RTE实时互联网大会」,议题从通信技术扩展为「实时互动」的广阔场景,逐步成长为全球规模最大的实时互联网盛会,累计覆盖200+行业场景、影响200万+开发者,分论坛扩展至20+。
2024年第十届以「AI爱」为主题,系统呈现RTE+AI能力图谱与实践脉络,并延续了20+论坛的体量。
今年,大会进一步升级为「Convo AI & RTE 2025」(实时互联网大会暨对话式AI论坛)。
从名字的变迁可以看出,声网在不丢失原有RTE技术与行业内容的基础上,把「对话式AI」置于了舞台中央,面向更高远的人机对话范式与产业落地。
现在,声网年服务分钟数首次突破1万亿,RTE的基础设施属性被进一步夯实,也印证了「RTE × 对话式AI」将成为下一阶段的主旋律与趋势。
![]()
最绝的是,RTE大会每年好像都能精准「押中」接下来的热点,成为整个实时音视频行业的风向标。
比如,2015年第一届大会上,声网说直播连麦会成主流玩法,结果第二年这就火了,成为直播界的风口。
2016年,他们觉得在线教育会是大趋势,果然第二年在线教育就爆炸式增长。
到了2023年,大会主题是智能、高清,又一次神准地预测了未来——2024年初,多模态技术大爆发,Sora和GPT-4o这些新东西刷爆了舆论,多模态成了各大AI模型玩家的重点发力方向。
在这次大会上,声网CEO赵斌分享了行业趋势:
对话式AI将成为下一代AIInfra重要部分。
AI新物种
对话式AI
在大会上,声网CEO赵斌对当前行业做出重大趋势判断:
对话式 AI 正处于从「正常对话」 到 「声情并茂」的关键一跃, 相关行业即将爆发。
在过去一年,开发者和市场对于「对话式AI」的热情高涨。
声网的RTE等相关服务年度分钟数,首次突破1万亿分钟。
![]()
今年第三季度,声网的对话式AI用量环比增长了151%!
ElevenLabs黑客松,在比较短的时间内孵化了300多个各种创业项目和场景。
开源的对话式语音智能体TEN framework和TEN Agent,多次登顶GitHub排行榜,在对话式AI行业社区引起了很多关注。
![]()
对话式AI,已经引起了企业的巨大关注,在很多行业展现了巨大的潜力和前景,在这一领域,下图就是企业开始进行探索和尝试的比例。
![]()
对话式AI&Voice Agent创业公司爆发式增长,产业生态繁荣发展,行业焕发新春:
![]()
全球科技巨头普遍在布局相关领域,努力把对话式AI的体验带给所有消费者和开发者,比比皆是。
![]()
就像GenAI早期的内容生产创造新的市场一样,对话式AI未来潜力巨大,同样创造新的市场。
![]()
来自于LLM天然的对话智能,市场潜力不可估量。
未来三大赛道
千亿美元全球市场
随着AI加入实时互动,实时互动的跃迁之路正在开启。
对话式AI的机会在哪里?
![]()
在大会上,展示了业界各种各样的探索,其中在RTE基础设施上的Convo AI场景正在纷至沓来。
而在众多应用场景中,情感陪伴、智能硬件、在线教育将率先实现对话式AI规模化落地。
未来几十年,声网笃定判断,AI陪伴赛道会有非常持续和长足的发展。
一些分析师和投资机构的判断,甚至还要乐观很多。
![]()
比如,方舟投资(ARK Invest)的报告显示,AI陪伴赛道有机会暴涨5000倍,从3000万美元上涨到700-1500亿美元。
此外,大家可以观察到这一领域的应用量和活跃度的增加。
![]()
新应用如果不做深度优化和体验保障,存活率也很有挑战。
最近两年,AI硬件也开始逐渐出现在市场上。
品类也出现了更多元化的发展,但热度最高的仍然是养成和陪伴的AI硬件。
![]()
声网推出了针对硬件开发的板块和模组,就是对话式AI的开发套件。
如今,对话式AI已经能够提供丰富的能力。
除了一般的对话以外,音乐、唱歌等等形式也已经成为一种可能,从而为AI陪伴和养成场景提供更好的真实体验。
在游戏领域,对话式AI已经有了很多探索和创新。
对话式AI将会给所有的游戏探索增添更多的趣味。无论是NPC对话能力,还是场景交互体验,对话式AI都能提供全新的场景和更好的体验。甚至一些从业者,已经从底层思考如何重构游戏的体验和场景。
![]()
游戏和社交的边界也会变得越来越模糊。
过去的一年,许多垂类的专用AI助理也取得突破性的进展。比如,蚂蚁AQ,短时间内就有大量的下载规模,专用助理方向未来还有巨大的空间。
![]()
生成式AI特别是对话式AI,目前正在渗入教育领域的各个方面,创造更加丰富的拟人化教学场景。
![]()
除了最简单、最直接的口语培训以外,AI数字人也开始为每个学生提供廉价、普及的拟人化教学场景。
AI教学硬件,也在推陈出新,不断有些新的尝试和探索。
在大会现场,赵斌演示了AI客服的功能。
在实时交互与场景理解方面,当前对话式AI已经取得了突破性进展。
在成本和效率上,AI客服终于活出了人样:单次服务成本降低至0.3元;平均处理时间降低了15%-25%。
![]()
此外,高拟人度实时翻译已在特定场景实用化;对话式AI+车载智能助理,驾驶体验更安全更快乐;对话式AI还可以辅助生活,拓展残障人士生活和工作的边界。
未来已来,AI实时交互孕育巨大的机会。
OpenAI引爆新赛道
声网已深耕多年
要把RTE大会办成对话式AI行业的风向标,靠的绝不是仅仅改个会名,而是声网在对话式AI领域的长期深耕。
转折点出现在去年5月,当时OpenAI把GPT-4o ——语音-视觉-文本实时多模态——推到台前,实时、自然的人机对话成为了行业的新共识。
随之在2024年10月份,OpenAI面向开发者推出Realtime API公测,声网的兄弟公司Agora与Twilio、LiveKit一起成为首批三家官方集成伙伴,率先把低时延语音对话能力带到了实际应用里,也为声网后续产品化铺好「底座」。
![]()
在国内生态,声网同步推进本土化的「Realtime路线」。
有了声网的底座加持,MiniMax的语音对话成了一个亮点:开口就回、几乎「秒响应」。就算在信号不稳或环境嘈杂的场景里,也能和AI助手说得清、听得准、连得稳。
依托MiniMax新一代语音大模型,AI说话更像真人——音色逼真、语气自然,中英夹杂等多语种切换也不打结。你还可以一键调语速、随心换声音,操作简单、效果到位。
另一个大家熟悉的案例是智谱的AI智能助手。
去年8月,智谱率先把视频通话带进国内AI助手,得益于他们强大的音视频理解与情感语音模型,这个AI助手不只会听你说,还能「看懂」你所处的环境。
在接入声网的对话式AI技术后,智谱的AI助手通话时延更低、对话更顺滑,几乎像和真人聊天一样自然。
上线三个月,就已吸引100万用户使用,十分火爆。
对话式AI引擎
在对话式 AI 迎来爆发之际,行业仍然面临着一些挑战,例如行业数据显示,仅21%的用户对现有AI对话体验满意,部分服务的用户流失率高到「不可接受」。
![]()
要实现真正的「类人对话」,企业必须系统性攻克多项复杂问题:
低延迟响应、自然打断、上下文管理、情感理解与表达等。
![]()
围绕这些技术难点与热门场景,声网一直在持续优化他们的对话式AI服务。
在RTE2025的RTE&对话式AI产品分论坛上,声网也相继发布了最新版的对话式AI引擎2.0版,对话式AI开发套件、对话式AI Studio、对话式AI模型评测平台。
对话式AI引擎2.0新增了预注册声纹识别、情绪识别,不仅让AI知道是谁在说话,更懂得开口时机,显著优化误打断体验。同时还支持国内外更丰富的ASR、TTS供应商选择,实现更多语种与音色的选择。
同时,针对热门的AI硬件场景,为了进一步降低落地门槛,声网在大会发布了新版的对话式AI开发套件——R1-4G,该套件基于紫光展锐8910高性能AI芯片,融合4G通信与CPU,让AI硬件随身携带,实现随时音视频交互。
![]()
相比今年3月发布的R1版,R1-4G采用单芯片一体化,帮助开发者快速集成,实现硬件「开口说话」。其核心价值在于摆脱场景限制,借鉴声网在儿童手表超60%市场经验,优化音视频通话与4G适配,拥有极致对话体验(延迟650ms,打断340ms,声纹锁定)。
![]()
对话式AI模型评测平台3.0则是在提供横向评测ASR、LLM、TTS各类主流模型的延迟响应、词错误率、字母数字性能的基础上,
新增了价格预估计算器,开发者可以根据实际的业务需求,预设人和AI的谈话比例,价格预估计算器会在此基础上给出总价与各模块的单价,让你更好地了解到钱都花在了哪里。
![]()
![]()
![]()
左右滑动查看
走向「超级助手」
在今年的RTE大会上发布的《对话式AI发展白皮书》,把技术、产品、生态与场景系统梳理了一遍,也讲清楚了行业的共识——
下一代人机交互不再只是「看屏幕、敲键盘」,而是「会听、会看、会说」的实时多模态。
![]()
白皮书获取方式,见评论区置顶留言。
RTE正从「可选项」变成「基础设施」,音视频对话正在成为一切智能应用的标配。
在终端侧,耳机、手机、家居设备不断下放听见、理解、合成的硬件加速能力,让「开口—回应—执行」的链路真正可用、好用。
配套超级AI助理的硬件会不会有什么完全创新的形态?
会不会出现适应AI的新型计算终端,就像智能手机取代PC成为主流设备一样?
声网更加倾向全新交互形态下的硬件形态,可能不太会很快出现。
虽然AI硬件进行个人助理创新并不容易,但预期对话式AI和相关能力引入硬件形态,将会带来接下来两年的爆发式增长。
全新的使用习惯正在逐步开始养成,这些都是AI硬件爆发的积极因素。
可以看到AI眼镜引入对话式AI作为操控的主要交互模式以后,提供了很多新场景下的使用便利和使用价值。
![]()
具身智能也非常独特,并不需要经过互联网的传输,可以让AI从终端以离线的方式与人面对面互动和对话。
![]()
但这样的对话需要更多的语言处理,仍然依赖于实时互动的降噪回声、增益控制这些基础技术能力。
实时交互的门槛被持续拉低,开发者可以把更多精力放在体验设计与业务闭环上。
历史每一次技术跃迁,都是基础设施与应用范式的共振时刻。
今天,RTE成为AI对话的底座,声网站在实时交互的心脏位置;当机器真正「会听、会看、会说」,
下一个万亿级市场,或许正在一声「你好」中悄然开启。
当AI模型厂商、实时互动厂商与应用开发者各司其职、同频共振,对话式AI的产业闭环已初现雏形。
历史证明,真正的巨浪,总由分工成熟的生态共同掀起——
而这一次,浪潮的名字叫「对话式AI」。





京公网安备 11011402013531号