IT之家 11 月 11 日消息,meta 基础人工智能研究(FAIR)团队推出了“全语种自动语音识别系统”(Omnilingual ASR),该系统可支持 1600 多种语言的语音转写,大幅拓展了当前语音识别技术的语言覆盖范围。
![]()
此前,大多数语音识别工具都专注于几百种资源丰富的语言,这些语言有大量的转录音频。而全球现存 7000 余种语言中,绝大多数因缺乏训练数据而几乎无法获得人工智能支持。Omnilingual ASR 的推出旨在弥合这一鸿沟。
据 meta 介绍,在其支持的 1600 种语言中,有 500 种系首次被任何 AI 系统所覆盖。FAIR 团队将该系统视为迈向“通用语音转写系统”的重要一步,有望助力打破全球语言壁垒,促进跨语言沟通与信息可及性。
据IT之家了解,系统识别精度与训练数据量密切相关。根据 meta 公布的数据,Omnilingual ASR 在测试的 1600 种语言中,对其中 78% 的语言实现了低于 10% 的字符错误率(CER);对于至少拥有 10 小时训练音频的语言,达此精度标准的比例提升至 95%;即便对于音频时长不足 10 小时的“低资源语言”,仍有 36% 实现了低于 10% CER 的表现。
为推动后续研究与实际应用落地,meta 同步发布了“全语种 ASR 语料库”(Omnilingual ASR Corpus)—— 一个包含 350 种代表性不足语言的、大规模转录语音数据集。该语料库采用知识共享署名许可协议(CC-BY)开放获取,旨在支持开发者与研究人员针对特定本地语言需求,构建或适配定制化的语音识别模型。
Omnilingual ASR 的一项关键创新在于其“自带语言”(Bring Your Own Language)功能,该功能依托上下文学习(in-context learning)机制实现。受大型语言模型技术启发,用户仅需提供少量配对的语音与文本样本,系统即可直接从中学习,无需重新训练或依赖高算力资源,就能添加新的语言。
meta 指出,理论上该方法可将 Omnilingual ASR 的语言支持能力扩展至 5400 余种,远超当前行业标准。尽管对极低资源语言的识别质量尚不及完全训练的水平,但该技术已首次为众多此前完全缺乏语音识别能力的语言社区提供了切实可行的解决方案。
meta 以 Apache 2.0 开源许可协议发布 Omnilingual ASR 全部模型,允许研究人员与开发者自由使用、修改及商用;配套数据集则采用 CC-BY 协议开放。Omnilingual ASR 模型家族涵盖从适用于低功耗设备的轻量级 3 亿参数版本,到追求“顶尖精度”的 70 亿参数版本,满足不同应用场景需求。所有模型均基于 FAIR 自主研发的 PyTorch 框架 fairseq2 构建。





京公网安备 11011402013531号