全球7000多种语言中,超过95%长期被AI语音技术忽视——直到今天。meta最新发布的Omnilingual ASR(自动语音识别)系统,一举打破语言技术的“精英垄断”,首次实现对1600种语言的高精度语音识别,并引入革命性的“上下文学习”机制,仅需几段音频样本,即可让AI快速掌握一门全新语言。这一开源系统不仅技术领先,更承载着数字平权的使命,让濒危语种与小语种社区首次站上AI时代的舞台中央。
78%语言识别错误率低于10%,小语种不再“失声”
在传统语音技术聚焦英语、中文、西班牙语等主流语种时,Omnilingual ASR将触角伸向全球边缘语言群体。测试显示,在其支持的1600种语言中,78%的语种词错率(WER),即使在数据极度稀缺的小语种中,仍有36%实现低于10%的错误率——这一表现远超此前任何多语言ASR系统,真正让“可用语音技术”覆盖到非洲部落、南美原住民、东南亚少数民族等长期被忽视的群体。
几段音频,教会AI一门新语言
Omnilingual ASR的核心突破在于其上下文少样本学习能力。用户只需提供少量带标注的音频-文本对(如3–5句),系统即可通过元学习机制快速适配新语种,无需海量数据或专业训练流程。这一设计使模型理论支持语言数跃升至5400种以上,几乎涵盖所有拥有文字记录的语言,为全球语言多样性保护提供技术基石。
开源+社区共建,尊重每一种文化声音
meta并未将技术封闭于实验室,而是完全开源模型与工具链,并联合全球数十个语言保护组织、本土社区共同采集语音数据,确保发音、语调与文化语境的真实还原。在巴布亚新几内亚,当地居民正用该系统录制祖辈口述历史;在喜马拉雅山区,僧侣们开始将经文语音数字化——AI不再是外来工具,而成为文化传承的伙伴。
一场语言平权的数字革命
Omnilingual ASR的意义远超技术指标。它标志着AI从“服务主流”转向“赋能边缘”,从“技术中心主义”走向“文化包容主义”。当一名使用仅千人母语的孩童,也能通过语音与数字世界对话,技术才真正实现了其普惠价值。
AIbase认为,meta此举不仅巩固其在多模态AI领域的领导地位,更重新定义了科技公司的社会责任——真正的创新,是让最沉默的声音也能被听见。在这场消除语言鸿沟的进程中,Omnilingual ASR或许正是那个让世界“众声喧哗”的开端。





京公网安备 11011402013531号