当前位置：首页 » 资讯 » 新科技 » 正文

OpenAI推出gpt-realtime语音对话模型：支持情感感知、多语言无缝切换

IP属地中国·北京 编辑：周伟 IT之家 时间：2025-08-29 08:05:07

IT之家 8 月 29 日消息，OpenAI 已将其“Realtime API”正式投入生产环境，将其移出测试阶段（Beta）。
据IT之家了解，这款 API 主要面向企业与开发者群体，旨在助力他们开发适用于实际场景的语音助手，覆盖客户支持、教育、个人效率提升等领域。其核心组件“gpt-realtime”模型采用端到端 Speech-to-Speech 架构，可直接生成并处理语音，省去了常规的文本转换步骤。据 OpenAI 介绍，相比前代版本，该模型响应速度更快、语音更自然，对复杂指令的处理能力也更强。
OpenAI 表示，目前 gpt-realtime 模型能够捕捉笑声等非语言信号，支持对话过程中中途切换语言，还可调整语音语气 —— 例如实现“带法国口音的友好语调”或“语速较快的专业语调”。此外，该模型新增了“Cedar”和“Marin”两种语音，并对现有的 8 种语音效果进行了优化。
在性能基准测试中，gpt-realtime 模型表现显著提升：在 Big Bench Audio 基准测试中准确率从 65.6% 升至 82.8%，在 MultiChallenge 基准测试中从 20.6% 升至 30.5%，在 ComplexFuncBench 基准测试中则从 49.7% 提升至 66.5%。
此次 API 升级优化了工具集成流程。OpenAI 称，该模型能更精准地选择适用工具、在恰当时机触发工具，并正确配置工具参数，大幅提升了函数调用的可靠性。开发者可通过会话初始协议（SIP）与远程媒体控制协议（MCP）服务器，连接外部工具与服务。同时，可复用的提示词功能支持保存不同使用场景下的配置与工具设置，进一步提升开发效率。
该 API 现已支持图像输入功能。用户在对话过程中可发送截图或照片，模型能参考图像内容进行交互 —— 例如读取图像中的文字，或回答与图像内容相关的问题。开发者可自主控制模型能够获取的图像范围。
此外，API 新增了两项实用功能：开发者可设置 token 使用上限，并对多轮对话内容进行精简处理。这两项功能有助于在较长会话中更好地控制成本。价格方面，gpt-realtime 模型的使用成本降低 20%，当前定价为：音频输入 token 每百万个 32 美元（IT之家注：现汇率约合 229 元人民币），音频输出 token 每百万个 64 美元（现汇率约合 457.9 元人民币），缓存输入 token 每百万个 0.40 美元（现汇率约合 2.9 元人民币）。
OpenAI 表示，该 API 具备检测问题内容的能力，若对话违反平台政策，可自动终止会话。不过，从语言模型的安全发展历程来看，这不应是唯一的安全保障手段，开发者仍需自行添加专属安全要求。
针对欧盟用户，该 API 提供了数据本地化存储选项，并为企业用户制定了特殊隐私规则，以符合欧盟地区的数据保护法规。

标签：模型对话 开发者 语音工具图像语言语调内容领域情感音频基准企业 控制协议 群体问题用户功能语速法规助手 数据保护 地区能力过程常规成本精简远程媒体面向

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

比亚迪2026年海外销售目标130万辆，挑战同比增长25%

深蓝S09汽车V5.1.0版本OTA，升级鸿蒙座舱HarmonySpace 5等

2026年百度托管服务商推荐：专业运营与高效推广的智能解决方案

特斯拉人形机器人要去工厂上班了

三星Galaxy S26系列手机配色与存储规格曝光

追觅请员工看演唱会，俞浩：尽最大努力用心对待员工

全站最新

比亚迪2026年海外销售目标130万辆，挑战同比增长25%

深蓝S09汽车V5.1.0版本OTA，升级鸿蒙座舱HarmonySpace 5等

2026年百度托管服务商推荐：专业运营与高效推广的智能解决方案

特斯拉人形机器人要去工厂上班了

热门推荐

比亚迪2026年海外销售目标130万辆，挑战同比增长25%

深蓝S09汽车V5.1.0版本OTA，升级鸿蒙座舱HarmonySpace 5等

2026年百度托管服务商推荐：专业运营与高效推广的智能解决方案

特斯拉人形机器人要去工厂上班了

三星Galaxy S26系列手机配色与存储规格曝光

追觅请员工看演唱会，俞浩：尽最大努力用心对待员工

太接地气！黄仁勋现身上海菜市场

国航：个别自媒体账号假冒飞行人员发布虚假视频开展营销，已取证

2026年百度托管服务商推荐：专业运营与高效推广的智能解决方案

承载一代人数字记忆，腾讯QQ秀时隔23年全新回归

力压deepseek登顶SuperCLUE，钛动科技行业大模型商业能力获验证

马斯克预警！留给旧世界的时间只剩2000天，中国握着唯一“王牌”

引领AI新浪潮 “一人公司”操作系统在杭州上城发布

地球上有外星人？马斯克：我就是

三星Galaxy S26系列手机配色与存储规格曝光