当前位置: 首页 » 资讯 » 新科技 » 正文

ChatGPT语音模式被曝本周大升级!被打断也能自然回应

IP属地 中国·北京 智东西 时间:2026-06-25 00:16:53


智东西
编译 茄子
编辑 程茜

智东西6月24日消息,据Testing Catalog昨日发文,OpenAI正在为ChatGPT的语音能力准备一次升级。一款名为GPT-Bidi-1(简称Bidi 1)的新一代双向音频模型近日已在部分用户的ChatGPT网页端和App界面中出现,预计最快本周开始逐步推送。


▲网友解锁了OpenAI的语音功能(图源:X)

据Testing Catalog称,不同于过去“用户说完、AI再答”的轮次对话的模式,Bidi 1能够让AI在用户说话时同步处理语义,实现真正的双向并行交互。

所谓Bidi,是bidirectional(双向)的缩写,它试图解决语音AI长期存在的对话必须严格轮流执行的基础问题。在传统语音助手中,用户说话时AI必须等待,AI回应时用户不能插话,整个过程更像是排队式的问答。

而Bidi 1希望打破这一结构,让AI可以在用户说话的过程中持续理解语义,并在适当时机同步回应,使对话更接近人与人之间的自然交流状态。

据Testing Catalog早期测试,Bidi 1的表现与当前高级语音模式之间的差距非常明显。Bidi 1被集成在设置中的模型选择器里,与标准语音和高级语音模式并列,用户启用Bidi 1后语音气泡会发生变化。


▲GPT-Bidi-1语音模式(图源:Testing Catalog)

在实际交互中,当用户语速放慢或短暂停顿时,它会以“嗯”“好的”等轻量化方式自然回应,而不是完全沉默等待。

更重要的是,它允许用户随时打断当前回答并切换任务,例如让模型从1数到10之后中途要求倒数,它能够立即调整并继续执行,而不需要重新开始整个流程。

相比当前的语音系统,Bidi 1在对话连续性上的改善也更加明显。过去的语音模式往往难以稳定维持长对话上下文,容易在多轮交流后丢失前文信息,而这一问题在新模型中得到了明显缓解。

同时,在用户停顿时它也不会频繁抢话,而是根据语境判断是否介入,使整体对话节奏更接近自然交流。

另一个值得注意的变化是创意能力的延续。Bidi 1仍然保留了类似唱歌、节奏口技等互动式表达能力,但在版权内容的处理上更加严格,会直接拒绝演唱热门歌曲,不过仍可能尝试以指定风格生成原创内容。

与此同时,实时翻译能力也被更自然地嵌入到语音对话之中。据Testing Catalog的测试,用户不再需要单独调用翻译工具,在对话过程中就可以自动完成语言转换。

这一能力此前已经通过API形式开放给开发者,而Bidi 1的实时翻译能力直接面向消费者,使跨语言交流成为默认体验之一。


▲GPT-Bidi-1的实时翻译(图源:Testing Catalog)

从整个演进路径来看,从OpenAI首个原生多模态模型GPT-4o的低延迟语音对话,到Advanced Voice Mode的实时语音体验,再到新一代语音模型Realtime API向开发者开放语音能力。OpenAI正在逐步将语音从一个功能模块,升级为一种默认交互入口。

而Bidi 1的意义在于,它开始真正触及语音交互的底层结构,对话不再是“问答轮次”,而是一个持续流动的交互过程。

目前OpenAI尚未正式发布该模型,但据媒体报道,Bidi 1预计将在本周启动逐步灰度推送,并采取分阶段开放策略,部分地区可能延后体验。同时,Codex预计将在数周后获得独立的语音能力升级,而API层面的开放则可能会更晚一些。

结语:OpenAI押注语音将成为和AI的主要交流方式

据CNBC报道称,OpenAI或将押注语音成为大多数人接触AI的主要形式,而非文字。

Testing Catalog称,Bidi可能是OpenAI弥合文本模型与语音层之间差距的关键一步。此前的语音系统通常是“文本模型+语音外壳”的组合,而Bidi 1更接近于原生语音对话模型,它不再只是把文字转为语音,而是在语音流中直接进行理解与生成。这说明“对话”本身正在成为ChatGPT的主要交流方式。

OpenAI此次升级的关键不在于语音是否更自然,而在于对话结构本身是否发生变化。当AI能够同时听、说、被打断,并持续维持语境时,人机交互的逻辑就不再是“问与答”,而更接近一种实时协作式的交流。

Testing Catalog、CNBC


免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。