当前位置: 首页 » 资讯 » 新科技 » 正文

OpenAI推出gpt-realtime语音对话模型:支持情感感知、多语言无缝切换

IP属地 中国·北京 编辑:周伟 IT之家 时间:2025-08-29 08:05:07

IT之家 8 月 29 日消息,OpenAI 已将其“Realtime API”正式投入生产环境,将其移出测试阶段(Beta)。

据IT之家了解,这款 API 主要面向企业与开发者群体,旨在助力他们开发适用于实际场景的语音助手,覆盖客户支持、教育、个人效率提升等领域。其核心组件“gpt-realtime”模型采用端到端 Speech-to-Speech 架构,可直接生成并处理语音,省去了常规的文本转换步骤。据 OpenAI 介绍,相比前代版本,该模型响应速度更快、语音更自然,对复杂指令的处理能力也更强。

OpenAI 表示,目前 gpt-realtime 模型能够捕捉笑声等非语言信号,支持对话过程中中途切换语言,还可调整语音语气 —— 例如实现“带法国口音的友好语调”或“语速较快的专业语调”。此外,该模型新增了“Cedar”和“Marin”两种语音,并对现有的 8 种语音效果进行了优化。

在性能基准测试中,gpt-realtime 模型表现显著提升:在 Big Bench Audio 基准测试中准确率从 65.6% 升至 82.8%,在 MultiChallenge 基准测试中从 20.6% 升至 30.5%,在 ComplexFuncBench 基准测试中则从 49.7% 提升至 66.5%。

此次 API 升级优化了工具集成流程。OpenAI 称,该模型能更精准地选择适用工具、在恰当时机触发工具,并正确配置工具参数,大幅提升了函数调用的可靠性。开发者可通过会话初始协议(SIP)与远程媒体控制协议(MCP)服务器,连接外部工具与服务。同时,可复用的提示词功能支持保存不同使用场景下的配置与工具设置,进一步提升开发效率。

该 API 现已支持图像输入功能。用户在对话过程中可发送截图或照片,模型能参考图像内容进行交互 —— 例如读取图像中的文字,或回答与图像内容相关的问题。开发者可自主控制模型能够获取的图像范围。

此外,API 新增了两项实用功能:开发者可设置 token 使用上限,并对多轮对话内容进行精简处理。这两项功能有助于在较长会话中更好地控制成本。价格方面,gpt-realtime 模型的使用成本降低 20%,当前定价为:音频输入 token 每百万个 32 美元(IT之家注:现汇率约合 229 元人民币),音频输出 token 每百万个 64 美元(现汇率约合 457.9 元人民币),缓存输入 token 每百万个 0.40 美元(现汇率约合 2.9 元人民币)。

OpenAI 表示,该 API 具备检测问题内容的能力,若对话违反平台政策,可自动终止会话。不过,从语言模型的安全发展历程来看,这不应是唯一的安全保障手段,开发者仍需自行添加专属安全要求。

针对欧盟用户,该 API 提供了数据本地化存储选项,并为企业用户制定了特殊隐私规则,以符合欧盟地区的数据保护法规。

标签: 模型 对话 开发者 语音 工具 图像 语言 语调 内容 领域 情感 音频 基准 企业 控制协议 群体 问题 用户 功能 语速 法规 助手 数据保护 地区 能力 过程 常规 成本 精简 远程 媒体 面向

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。