当前位置：首页 » 资讯 » 新科技 » 正文

OpenAI引爆新赛道：AI不再卖技术，而是卖「活人感」！

IP属地中国·北京 新智元 时间：2025-11-05 20:12:37

新智元报道
编辑：KingHZ 犀牛
一段令人心碎的离别视频走红：小女孩与AI玩具的深情告别，揭示了对话式AI如何悄然融入人类情感世界，预示着实时交互技术的革命性突破。
一段视频走红了，只听声音就让人肝肠寸断：
如果只听声音，还以为只是普通的离别。但这是一个只会发生在AI时代的场景：
小女孩依依不舍的「姐姐」，其实是具有语音功能的AI玩具。

人生中第一次「告别」的痛楚，居然来自AI语音模块！
不过，如今很多AI的交互还停留在「短信」时代：在输入框中，输入问题，AI输出文字。
但人类沟通中，重要的从来不止是语言内容——
在《Silent Messages》「沉默的信息」中，心理学家Albert Mehrabian提出了「梅拉宾法则」：语言内容占沟通中7%的信息，声音占38%，表情等身体语言占55%。

但正如移动互联网时代，iPhone不仅仅依赖其通信的性能，还需要触控屏、传感器等交互技术的突破，AI交互可能是下一个万亿产业。
从技术趋势来看，多模态是大势所趋。与之同时，多模态大模型必然从「生成」演进到「交互」。
下一个关键演进方向，就是实时交互能力的普及。
多模态LLM，让计算机出现了类人的实时语音对话能力。实时互动，早已不再局限在人与人之间。随着技术发展，一个新AI物种诞生了——
具有「活人感」的对话式AI爆发了。

今年，不止是智能体元年，也将会成为对话式AI的元年。
次次踩中热点的大会
10月31日，声网与RTE开发者社区联合主办了Convo AI&RTE 2025——第十一届实时互联网大会。
今年的大会依旧十分火爆，现场座无虚席，很多朋友只能站着听。

左右滑动查看
RTE2025大会覆盖实时互联网以及对话式AI全生态，推出相关论坛及周边活动共计20余场，包括技术开发、趋势洞见、行业观察、创业投资等多维度话题。
2015年，声网把面向实时音视频的RTC开发者大会带到中国。从那时算起，这场年度盛会已连续举办十余届，期间从未间断过。
大会起初专注于WebRTC/RTC底层技术交流。
到2020年，由「RTC大会」升级为「RTE实时互联网大会」，议题从通信技术扩展为「实时互动」的广阔场景，逐步成长为全球规模最大的实时互联网盛会，累计覆盖200+行业场景、影响200万+开发者，分论坛扩展至20+。
2024年第十届以「AI爱」为主题，系统呈现RTE+AI能力图谱与实践脉络，并延续了20+论坛的体量。
今年，大会进一步升级为「Convo AI & RTE 2025」（实时互联网大会暨对话式AI论坛）。
从名字的变迁可以看出，声网在不丢失原有RTE技术与行业内容的基础上，把「对话式AI」置于了舞台中央，面向更高远的人机对话范式与产业落地。
现在，声网年服务分钟数首次突破1万亿，RTE的基础设施属性被进一步夯实，也印证了「RTE × 对话式AI」将成为下一阶段的主旋律与趋势。

最绝的是，RTE大会每年好像都能精准「押中」接下来的热点，成为整个实时音视频行业的风向标。
比如，2015年第一届大会上，声网说直播连麦会成主流玩法，结果第二年这就火了，成为直播界的风口。
2016年，他们觉得在线教育会是大趋势，果然第二年在线教育就爆炸式增长。
到了2023年，大会主题是智能、高清，又一次神准地预测了未来——2024年初，多模态技术大爆发，Sora和GPT-4o这些新东西刷爆了舆论，多模态成了各大AI模型玩家的重点发力方向。
在这次大会上，声网CEO赵斌分享了行业趋势：
对话式AI将成为下一代AIInfra重要部分。
AI新物种
对话式AI
在大会上，声网CEO赵斌对当前行业做出重大趋势判断：
对话式 AI 正处于从「正常对话」到「声情并茂」的关键一跃，相关行业即将爆发。
在过去一年，开发者和市场对于「对话式AI」的热情高涨。
声网的RTE等相关服务年度分钟数，首次突破1万亿分钟。

今年第三季度，声网的对话式AI用量环比增长了151%！
ElevenLabs黑客松，在比较短的时间内孵化了300多个各种创业项目和场景。
开源的对话式语音智能体TEN framework和TEN Agent，多次登顶GitHub排行榜，在对话式AI行业社区引起了很多关注。

对话式AI，已经引起了企业的巨大关注，在很多行业展现了巨大的潜力和前景，在这一领域，下图就是企业开始进行探索和尝试的比例。

对话式AI&Voice Agent创业公司爆发式增长，产业生态繁荣发展，行业焕发新春：

全球科技巨头普遍在布局相关领域，努力把对话式AI的体验带给所有消费者和开发者，比比皆是。

就像GenAI早期的内容生产创造新的市场一样，对话式AI未来潜力巨大，同样创造新的市场。

来自于LLM天然的对话智能，市场潜力不可估量。
未来三大赛道
千亿美元全球市场
随着AI加入实时互动，实时互动的跃迁之路正在开启。
对话式AI的机会在哪里？

在大会上，展示了业界各种各样的探索，其中在RTE基础设施上的Convo AI场景正在纷至沓来。
而在众多应用场景中，情感陪伴、智能硬件、在线教育将率先实现对话式AI规模化落地。
未来几十年，声网笃定判断，AI陪伴赛道会有非常持续和长足的发展。
一些分析师和投资机构的判断，甚至还要乐观很多。

比如，方舟投资（ARK Invest）的报告显示，AI陪伴赛道有机会暴涨5000倍，从3000万美元上涨到700-1500亿美元。
此外，大家可以观察到这一领域的应用量和活跃度的增加。

新应用如果不做深度优化和体验保障，存活率也很有挑战。
最近两年，AI硬件也开始逐渐出现在市场上。
品类也出现了更多元化的发展，但热度最高的仍然是养成和陪伴的AI硬件。

声网推出了针对硬件开发的板块和模组，就是对话式AI的开发套件。
如今，对话式AI已经能够提供丰富的能力。
除了一般的对话以外，音乐、唱歌等等形式也已经成为一种可能，从而为AI陪伴和养成场景提供更好的真实体验。
在游戏领域，对话式AI已经有了很多探索和创新。
对话式AI将会给所有的游戏探索增添更多的趣味。无论是NPC对话能力，还是场景交互体验，对话式AI都能提供全新的场景和更好的体验。甚至一些从业者，已经从底层思考如何重构游戏的体验和场景。

游戏和社交的边界也会变得越来越模糊。
过去的一年，许多垂类的专用AI助理也取得突破性的进展。比如，蚂蚁AQ，短时间内就有大量的下载规模，专用助理方向未来还有巨大的空间。

生成式AI特别是对话式AI，目前正在渗入教育领域的各个方面，创造更加丰富的拟人化教学场景。

除了最简单、最直接的口语培训以外，AI数字人也开始为每个学生提供廉价、普及的拟人化教学场景。
AI教学硬件，也在推陈出新，不断有些新的尝试和探索。
在大会现场，赵斌演示了AI客服的功能。
在实时交互与场景理解方面，当前对话式AI已经取得了突破性进展。
在成本和效率上，AI客服终于活出了人样：单次服务成本降低至0.3元；平均处理时间降低了15%-25%。

此外，高拟人度实时翻译已在特定场景实用化；对话式AI+车载智能助理，驾驶体验更安全更快乐；对话式AI还可以辅助生活，拓展残障人士生活和工作的边界。
未来已来，AI实时交互孕育巨大的机会。
OpenAI引爆新赛道
声网已深耕多年
要把RTE大会办成对话式AI行业的风向标，靠的绝不是仅仅改个会名，而是声网在对话式AI领域的长期深耕。
转折点出现在去年5月，当时OpenAI把GPT-4o ——语音-视觉-文本实时多模态——推到台前，实时、自然的人机对话成为了行业的新共识。
随之在2024年10月份，OpenAI面向开发者推出Realtime API公测，声网的兄弟公司Agora与Twilio、LiveKit一起成为首批三家官方集成伙伴，率先把低时延语音对话能力带到了实际应用里，也为声网后续产品化铺好「底座」。

在国内生态，声网同步推进本土化的「Realtime路线」。
有了声网的底座加持，MiniMax的语音对话成了一个亮点：开口就回、几乎「秒响应」。就算在信号不稳或环境嘈杂的场景里，也能和AI助手说得清、听得准、连得稳。
依托MiniMax新一代语音大模型，AI说话更像真人——音色逼真、语气自然，中英夹杂等多语种切换也不打结。你还可以一键调语速、随心换声音，操作简单、效果到位。
另一个大家熟悉的案例是智谱的AI智能助手。
去年8月，智谱率先把视频通话带进国内AI助手，得益于他们强大的音视频理解与情感语音模型，这个AI助手不只会听你说，还能「看懂」你所处的环境。
在接入声网的对话式AI技术后，智谱的AI助手通话时延更低、对话更顺滑，几乎像和真人聊天一样自然。
上线三个月，就已吸引100万用户使用，十分火爆。
对话式AI引擎
在对话式 AI 迎来爆发之际，行业仍然面临着一些挑战，例如行业数据显示，仅21%的用户对现有AI对话体验满意，部分服务的用户流失率高到「不可接受」。

要实现真正的「类人对话」，企业必须系统性攻克多项复杂问题：
低延迟响应、自然打断、上下文管理、情感理解与表达等。

围绕这些技术难点与热门场景，声网一直在持续优化他们的对话式AI服务。
在RTE2025的RTE&对话式AI产品分论坛上，声网也相继发布了最新版的对话式AI引擎2.0版，对话式AI开发套件、对话式AI Studio、对话式AI模型评测平台。
对话式AI引擎2.0新增了预注册声纹识别、情绪识别，不仅让AI知道是谁在说话，更懂得开口时机，显著优化误打断体验。同时还支持国内外更丰富的ASR、TTS供应商选择，实现更多语种与音色的选择。
同时，针对热门的AI硬件场景，为了进一步降低落地门槛，声网在大会发布了新版的对话式AI开发套件——R1-4G，该套件基于紫光展锐8910高性能AI芯片，融合4G通信与CPU，让AI硬件随身携带，实现随时音视频交互。

相比今年3月发布的R1版，R1-4G采用单芯片一体化，帮助开发者快速集成，实现硬件「开口说话」。其核心价值在于摆脱场景限制，借鉴声网在儿童手表超60%市场经验，优化音视频通话与4G适配，拥有极致对话体验（延迟650ms，打断340ms，声纹锁定）。

对话式AI模型评测平台3.0则是在提供横向评测ASR、LLM、TTS各类主流模型的延迟响应、词错误率、字母数字性能的基础上，
新增了价格预估计算器，开发者可以根据实际的业务需求，预设人和AI的谈话比例，价格预估计算器会在此基础上给出总价与各模块的单价，让你更好地了解到钱都花在了哪里。

左右滑动查看
走向「超级助手」
在今年的RTE大会上发布的《对话式AI发展白皮书》，把技术、产品、生态与场景系统梳理了一遍，也讲清楚了行业的共识——
下一代人机交互不再只是「看屏幕、敲键盘」，而是「会听、会看、会说」的实时多模态。

白皮书获取方式，见评论区置顶留言。
RTE正从「可选项」变成「基础设施」，音视频对话正在成为一切智能应用的标配。
在终端侧，耳机、手机、家居设备不断下放听见、理解、合成的硬件加速能力，让「开口—回应—执行」的链路真正可用、好用。
配套超级AI助理的硬件会不会有什么完全创新的形态？
会不会出现适应AI的新型计算终端，就像智能手机取代PC成为主流设备一样？
声网更加倾向全新交互形态下的硬件形态，可能不太会很快出现。
虽然AI硬件进行个人助理创新并不容易，但预期对话式AI和相关能力引入硬件形态，将会带来接下来两年的爆发式增长。
全新的使用习惯正在逐步开始养成，这些都是AI硬件爆发的积极因素。
可以看到AI眼镜引入对话式AI作为操控的主要交互模式以后，提供了很多新场景下的使用便利和使用价值。

具身智能也非常独特，并不需要经过互联网的传输，可以让AI从终端以离线的方式与人面对面互动和对话。

但这样的对话需要更多的语言处理，仍然依赖于实时互动的降噪回声、增益控制这些基础技术能力。
实时交互的门槛被持续拉低，开发者可以把更多精力放在体验设计与业务闭环上。
历史每一次技术跃迁，都是基础设施与应用范式的共振时刻。
今天，RTE成为AI对话的底座，声网站在实时交互的心脏位置；当机器真正「会听、会看、会说」，
下一个万亿级市场，或许正在一声「你好」中悄然开启。
当AI模型厂商、实时互动厂商与应用开发者各司其职、同频共振，对话式AI的产业闭环已初现雏形。
历史证明，真正的巨浪，总由分工成熟的生态共同掀起——
而这一次，浪潮的名字叫「对话式AI」。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

上蔡供电公司：“众创光明”引智聚力创新“点子”落地生花

用 AI 做电商真实效果如何？我们调研了双 11 一线从业者

「游戏飞行」：DJI Neo2 体验

阿里高德入局无人驾驶赛道，打造最大Robotaxi聚合平台

英飞源电动汽车充电模块领域技术获官方认证

江苏无锡：16年，从物联网的“首航之地”到“领航之城”

全站最新

上蔡供电公司：“众创光明”引智聚力创新“点子”落地生花

用 AI 做电商真实效果如何？我们调研了双 11 一线从业者

「游戏飞行」：DJI Neo2 体验

阿里高德入局无人驾驶赛道，打造最大Robotaxi聚合平台

热门推荐

户晨风近期成立文化传媒公司

3分钟巡完整个店，素材自动生成：这届天猫双11，AI成了店铺“操盘手”

上蔡供电公司：“众创光明”引智聚力创新“点子”落地生花

用 AI 做电商真实效果如何？我们调研了双 11 一线从业者

「游戏飞行」：DJI Neo2 体验

阿里高德入局无人驾驶赛道，打造最大Robotaxi聚合平台

英飞源电动汽车充电模块领域技术获官方认证

江苏无锡：16年，从物联网的“首航之地”到“领航之城”

饿了么更名淘宝闪购瞄准“即时零售”市场丨商业快评

王兴兴最新发声！谈具身智能“ChatGPT时刻”

华为智慧屏 MateTV 系列灵犀手写笔参数公布，需用 7 号碱性电池

从「一拍即合」到「一曲绝响」，大疆车载与奇瑞iCAR 03合作始末

抬头看！第一波“超级月亮”美图来了

蓝牙 Bluetooth Core 6.2 规范发布：LE 连接最小间隔缩短至 1/20

realme UI 7.0 首轮不限量内测招募明日开启，覆盖 GT7 Pro 系列