当对话式AI具备人类智慧,《Her》从电影照进现实。
当郁闷的你与桌面上可爱的AI毛绒玩具“芙崽”倾诉心声时,你可能不会想到,人类与AI的自然对话,正激起一波隐秘的实时语音技术新浪潮,激发着巨大的商业蓝海。
10月31日,由声网与RTE开发者社区联合主办的Convo AI&RTE 2025第十一届实时互联网大会在北京正式开幕。在会上,声网创始人兼CEO赵斌就分享了这样一组数据——
2025年,67%的企业将对话式AI智能体置于战略核心位置,84%的企业计划在未来一年增加相关投入(数据来自Deepgram、Opus Research)。
相对应的是,声网对话式AI相关用量在2025年第三季度就实现151%的环比增长,展现出强劲的市场需求。
![]()
对话式AI整合了大语言模型(LLM)、自动语音识别(ASR)、文字转语音(TTS)、实时互动(RTE)等技术。
与AI对话,大部分人对此的印象是,AI大概率像是复读机一样毫无感情“念稿”,AI感十足。而对话式AI的出现,AI便能像人类一样自然、真实、流畅对话。
正如《Her》电影里的Samantha照进现实——男主角手上的小方块,不仅能准确识别语音、文本、图像,还能根据人类的语气、情绪、语言习惯,调整自己回复的语气。
而为帮助企业和开发者把握对话式AI这一历史机遇,声网在大会上正式发布了《2025对话式AI发展白皮书》。在这份白皮书里,声网团队经过行业调研,深入结合了其在RTE行业的经验,为对话式AI梳理了一份完整的图谱——包括技术演进、核心技术、主流方案和业态、质量评估体系、行业实践案例、以及未来趋势展望。
在理论之外,声网也用实际行动推动对话式AI的发展。此次发布会,声网还发布了一系列对话式AI产品,包括下一代对话式AI引擎、配套的对话式AI开发套件、模型的评测平台和编排平台等。
一场对话式AI的浪潮,正在掀起。
对话式AI走进现实
回想一下:你一般是什么情况下会调用苹果手机里的Siri,与之对话?
大部分人的回答或许是,大概率是睡前定闹钟的时候。有这么一组符合直觉的数据:行业数据显示,目前仅21%的用户对现有AI对话体验满意,部分服务的用户流失率甚至高到“不可接受”。
其实,人类不是不愿意与AI说话,只怪AI太不懂人类。本质上,人类的对话中,仅有7%的信息来自语言内容,超过90%的信息感知来自语调、表情、肢体语言等非语言要素。
而要让AI进行“类人对话”,企业接下来要攻克的技术挑战还有很多。
比如,目前大部分对话式AI的端到端延迟普遍在3秒以上——人类之间聊天的延迟正常一般在400毫秒左右。正是这短暂的3秒,构成了人机交互一大痛点。在商业的世界里,仅几秒的等待,就会让用户失去耐心。因此,与时间赛跑,攻克响应延迟,正是对话式AI接近人类对话体验的一大壁垒。
除了延迟难关之外,对话式AI的另一个技术挑战是,AI如何具备人类智慧的“内核”。
一些人机交互场景能令很多人感同身受:对话时,AI可能会因为用户清嗓声、键盘声、或者人类的片刻迟疑而被打断,上下文中断。或者,当你置身于嘈杂的派对、展会时,AI经常无法锚定真正用户的声音,而失去注意力。
前述种种体验,看似细微,却是人和AI之间能否建立信任、构建情感依赖的关键。对于用户来说,期待的不仅仅是一个能提供正确回答的机器,还是一个有“人味”的AI。
为此,声网创始人兼CEO赵斌对话式AI的技术挑战概括为几点:低延迟响应、自然打断、上下文管理、情感理解与表达等。
而为了解决这些技术难点,目前行业里的主流技术方案是级联模式。简言之,级联模式就像是一条分工明确的“流水线”,在这条流水线上,语音对话被拆解为三个独立步骤串行工作(语音转文字ASR—大模型理解文字LLM—文字转语音TTS)。
相比于其他模式,级联模式更加模块化,开发者可以像搭积木一样,灵活选用三个环节自认为更优秀的供应商,以此优化成本、提升效果。为此,级联模式成为行业中大多数的AI客服、智能音箱等应用的技术方案选择。
以声网为例,他们正是围绕级联模式,构建了覆盖不同客户群的三类产品形态。对于希望快速上线的应用开发者,声网推出了对话式AI引擎2.0。作为开箱即用的一站式解决方案,声网试图击破前述种种对话式AI的痛点。
![]()
具体而言,引擎2.0依托于全球实时网络,能够实现端到端高速响应,实现超低延迟。另外,还内置了智能打断、声纹识别等先进功能,使得对话能够实现智能交互。此外,引擎2.0还是开发者友好型设计,支持多种主流大模型,不同的模块功能也可以按需选用,能快速集成到不同的应用场景中。
当然,对于希望灵活选型和深度定制的公司,声网还提供了模块化的SDK,比如语音识别/语音识别SDK,让开发者自由“搭积木”。而对于已经使用声网实时音视频服务的客户,若希望在不改变架构的前提下叠加AI能力,声网还提供了一众扩展套件,可以“插件式”增加一系列对话式AI功能。
通过引擎、SDK、拓展套件这三类产品形态,声网覆盖了从“小白”到“专家”的不同客户群体,确保所有客户都能在其生态内找到最适合自己的方式,让对话式AI走向现实。
给对话式AI一把“尺”
不管是与人类还是AI交流,对话始终是一件很主观的事情。但如果要让对话式AI更长远发展,行业缺乏一套全面完整且客观的评估框架,就像是给对话式AI划定了行驶的航道。
尽管行业里已经提出了部分评估方法,比如任务完成率、词汇错误率等等,这些都是单点技术指标评估,维度未免过于碎片化、存在局限性。但现实是,对话式AI的语音、对话等要素过于复杂,原有的评估手段难免与实际体验存在巨大鸿沟。
为此,在声网发布的《2025对话式AI发展白皮书》中,便提出了“三维二轨”的评估框架——“三维”,考核的是AI本身的能力,比如理解能力、表达能力、交互能力;“二轨”,则是考核AI的两种方法,包括基准测试和用户导向测试。
![]()
看起来略显抽象,但请代入这个评估框架,设想一下你正在面试一位AI助理。此时,你对其抛出了一个指令——“帮我预定一个适合商务宴请的意大利餐厅”。
理解能力更强的AI助理,便能够抓取提炼并且理解你指令里的关键词汇,比如“今晚”、“商务宴请”、“意大利餐厅”。而理解力弱的助理,可能只抓住了“餐厅”这个关键词,反手推荐了隔壁的麦当劳餐厅。
紧接着,表达能力强的AI助理,会根据你指令里传递的情绪,用自然且愉悦的语调为你介绍合适的餐厅有什么特色。而表达能力一般的助理,则只会用僵硬的播音腔,把一长串地址念出来,像是一台无情的复读机。
在AI助理介绍餐厅时,你突发奇想打断了它,询问“餐厅附近是否有停车场?”
此时,交互能力差的AI助理可能直接忽略了你的提问,坚持把餐厅介绍完再停下。而交互能力强的助理,对话节奏感和打断处理能力拉满,它可能会马上停下并且帮你查询信息,最后再补充一句,“还需要继续帮你查询菜品吗?”。
值得注意的是,这套评估框架不仅仅用基准测试保证对话式AI基本功过硬,在硬性技术指标评价之外,还将用户导向测试也融入实战测试,让对话式AI也能得到用户侧的主观评价。
如果说“三维二轨”给了对话式AI一把“尺子”,定义了什么是好的对话式AI框架和原则,声网并不止步于此,他们还基于这套框架,为广大开发者提供了一系列好用的实践工具。
声网的AI模型评测平台,正是通过精准定位对话式AI场景的核心痛点,创造了一个关键的“决策支持系统”。据介绍,该平台通过模拟真实对话的交互测试,在全球十大城市节点动态监测并更新数据,直观对比主流ASR、LLM和TTS模型的实时性能。
举个例子,当一个开发者想基于声网的对话式AI引擎做一个“AI社交陪伴”应用时,他就可以直接在声网的评测平台上,针对“社交陪伴”场景非常在意AI的响应延迟,横向评测不同的ASR、LLM、TTS模型在响应延迟方面的性能表现,最终选择更匹配自身业务的模型组合。
当对话式AI逐渐走出概念,在技术路线、产品方案、评估标准、工具等方面快速完善,也注定了其将在更多领域快速生根落地。
对话式AI落地,润物细无声
目前,对话式AI已经在智能硬件、情感陪伴、在线教育三大场景中率先实现规模化落地。
2025年被视为AI硬件的爆发元年,从以“芙崽”为代表的AI陪伴硬件引爆行业,以Ray-ban meta为代表的AI眼镜也掀起“百镜大战”。而热闹的AI硬件中,对话式AI扮演了举足轻重的作用——赋予了冷冰冰的硬件类人的灵魂和智慧。
![]()
在情感陪伴领域,以星野、Charecter.AI为代表的AI社交应用里,对话式AI则使得AI对话从机械应答,进化成为具有记忆力、有个性、能共情的社交引擎。对话式AI让AI真正陪伴在人类身边。
在教育领域,对话式AI则正在掀起一场教学革命。比如,对话式AI让口语陪练更拟人,营造更有沉浸感的语言学习环境;对话式AI所衍生的AI双师(豆神AI),也促进了教育资源的平等。
种种迹象可见,对话式AI的生态正在持续飞快构建中。不过,你可能会好奇,未来的对话式AI,还蕴含着什么样的想象力。而声网在其白皮书中,也描绘了未来的图景。
首先,对话式AI未来将会在多模态交互上实现质的飞跃,实现边听边说、能看懂用户表情语言、手势语言等等功能,人机交互无限接近于人人交互——正如声网发布会上,创始人兼CEO赵斌所展示的“AI客服”时,台下观众很难分辨对话的是机器还是人类一般。
其次,未来的对话式AI或许不仅仅只是一个单点、被动响应的工具,而是一个多智能体协同的“超级助手”。
在商业的维度,未来的对话式AI也可能隐藏着更多的商业价值。或许,它的存在形式会更加隐秘多元,可能会融入业务流程,或者是成为组织里面的数字员工,也可能成为全新的信息入口和服务枢纽。
你也可以大开脑洞,对话式AI未来或将化身为“数字生命体”——在成长阶段,它是人类启蒙的守护者。在工作阶段,它又化身工作生活的全能协助者。随着人类数据的积累,它将进化得更懂你。
结语
最早诞生于60年代的对话式AI,是在大模型时代、具备了类人能力后,才真正进入飞跃时刻。这一看似简单的技术,长远却有着深远意义。
首先,对话式AI彻底改变了人类与机器沟通的底层逻辑,使得过去以图形界面(GUI)为主的人机交互,进化到更符合人类本能的交流方式。这种转变,将大大降低AI技术的使用门槛,进而实现AI的平权和技术普惠,
其次,对话式AI还将帮助人类从繁琐复杂的任务中解放出来,让人类得以更专注于有创造性、有战略性的工作。当中因此潜藏无限的商业可能,可能产生更多全新商业模式和业态,不仅限于当下火热的陪伴类AI原生APP、AI陪伴硬件等等。
总而言之,对话式AI不仅代表技术高地,本质上更是改变了交互方式、生产关系、带动经济增长。
在声网此次的发布会上,声网创始人兼CEO赵斌表示,截至目前,声网年度服务分钟数首次突破1万亿分钟。这是一个里程碑,标志着RTE技术(实时互动,Real-Time Engagement)已成为行业里不可或缺的“水电煤”。
当一众技术子集羽翼渐丰,对话式AI已经万事俱备。它正在等待自己的“万亿时刻”。





京公网安备 11011402013531号