当前位置: 首页 » 资讯 » 新科技 » 正文

主打极致低延迟!Mistral 推出全新语音转文字 AI 模型

IP属地 中国·北京 编辑:冯璃月 Chinaz 时间:2026-02-11 18:18:13

法国 AI 领军企业 Mistral AI 正式发布了两款全新的语音转文字(Speech-to-Text)模型,旨在重新定义转录速度、隐私保护与性价比的行业标准。

此次推出的模型包括 Voxtral Mini Transcribe V2 和 Voxtral Realtime,均隶属于 Voxtral Transcribe2体系。这两款模型可提供顶级的转录质量、说话人识别(Diarization)以及极低的延迟表现,适用于虚拟助手、呼叫中心自动化及合规记录等多种商业场景。

核心产品亮点:

Voxtral Realtime(实时处理): 专为直播音频设计,采用创新的流式架构。其延迟最低可配置为 200毫秒。在480毫秒的延迟下,错误率仅为1%-2%,几乎等同于离线转录精度。该模型仅有40亿参数,支持在手机或笔记本电脑等本地设备上运行,极大保障了隐私安全。目前已在 Hugging Face 平台以 Apache2.0协议开源,API 价格为 0.006美元/分钟。

Voxtral Mini Transcribe2(批量处理): 专门处理预录音文件。它支持长达3小时的单次请求,并具备精准的说话人标注和时间戳功能。其在 FLEURS 词错率基准测试中表现优异,而 API 价格仅为 0.003美元/分钟,被 Mistral AI 称为目前市场上性价比最高的转录方案。

两款模型均原生支持包括中文、英语、法语、日语在内的13种语言。用户目前已可在 Mistral AI 的 Audio Playground 或 Le Chat 助手上进行体验。

划重点:

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。