meta 大手笔的买买买还在继续。
近日,meta 宣布已收购 AI 音频初创公司 WaveForms AI。据知情人士透露,此次收购旨在增强 meta 在人工智能音频技术方面的实力,特别是开发能够理解并模仿人类情感的下一代语音交互系统。WaveForms 的创始团队,包括其联合创始人 Alexis Conneau 和 Coralie Lemaitre,将加入 meta 新成立的 AI 部门超级智能实验室 (meta Superintelligence Labs)。
WaveForms AI 虽然是一家非常年轻的初创公司,于 2024 年 12 月才刚刚成立,但在短时间内便获得了业界的广泛关注。今年早些时候,该公司宣布完成了由知名风险投资公司 Andreessen Horowitz (a16z) 领投的 4000 万美元种子轮融资,当时的公司估值达到了 2 亿美元。
图丨WaveForms AI(linkedIn)
该公司的核心业务聚焦于开发能够实时理解和响应语音中情感细微差别的音频大语言模型(Audio-based Large Language Models)。WaveForms 的目标是实现其所谓的“语音图灵测试”,即创造出与人类声音在情感表达和自然度上无法区分的 AI 语音。创始人 Conneau 公开表示,他们的使命是追求“情感通用智能”(Emotional General Intelligence, EGI),旨在建立感觉自然、个性化且极具吸引力的人机连接。
Conneau 认为,虽然 OpenAI、Google 和 meta 等公司都在追求通用人工智能的智力层面,但 WaveForms 的目标是让 AI 交互变得深度人性化和情感共鸣,其音频语言模型能够捕捉语音中的情感细节,如语调、语气变化和口音,并据此调整其响应方式。例如,由 WaveForms 技术驱动的 AI 教师可以识别学生的挫败感,并相应地以更多的耐心或鼓励来回应。
而实现这一愿景的技术关键在于其提出的“端到端音频语言模型”(end-to-end audio language model)。传统的语音处理通常需要三个独立的 AI 模型协同工作:一个模型负责将用户的语音转录成文本,第二个模型基于文本生成回应,第三个模型再将文本回应转换成语音。而根据 a16z 的介绍,WaveForms 的技术能够通过单一模型完成这全部三项任务,从而显著提升了处理效率和交互的流畅性。此外,该模型还计划融入情感检测功能,使其能够根据捕捉到的用户情绪线索来调整自身的输出方式。
此次收购的主角之一,WaveForms 的联合创始人兼首席执行官 Alexis Conneau,是音频和文本大语言模型领域的顶尖研究者。他此前曾在 meta 从事音频研究长达近八年,之后又在 OpenAI 领导了 GPT-4o 高级语音模式神经网络的研发工作。正是在 OpenAI 期间,他开发了能够对用户口语进行实时、人性化回复的先进语音模式。另一位联合创始人 Coralie Lemaitre 则曾在谷歌担任广告业务策略师,拥有丰富的商业和产品战略领导经验。
图丨Alexis Conneau(AIM Media House)
对于 meta 来说,收购 WaveForms 是在 AI 赛道上的一次重要加码。最近几个月,meta 一直在从 OpenAI、Anthropic、谷歌等对手手中挖来大量 AI 人才。
除了 WaveForms,meta 上个月还收购了另一家致力于生成逼真、类人声音的 AI 初创公司 PlayAI。同时,公司还聘请了前谷歌杰出研究员、语音 AI 领域的知名专家 Johan Schalkwyk,并由他担任新成立的超级智能实验室的语音技术负责人。
根据 The Information 的报道,Conneau 和 Lemaitre 已作为收购的一部分加入 meta。虽然具体收购金额尚未披露,但考虑到 WaveForms 在去年 12 月的 2 亿美元估值,以及 meta 和其他科技巨头为招募顶尖 AI 人才支付的巨额溢价,收购价格可能达到数亿美元。而他们在加入 meta 后,也将向 Schalkwyk 汇报。
meta 首席执行官马克·扎克伯格 (Mark Zuckerberg) 对语音交互的未来抱有极大的期望。他在今年四月的财报电话会议上曾预测:“我们都将拥有一个可以全天候与之交谈的 AI。”然而,meta 此前在自研大语言模型方面并不顺利。其原计划发布的 Llama 4 模型,就因为在进行类人语音对话方面的能力不及 OpenAI 的模型而被推迟。收购 WaveForms,无疑将为 meta 补上这一关键短板,其先进的情感化、端到端音频技术有望显著提升 meta 现有及未来产品的语音交互体验。
可以预见,WaveForms 的技术和人才将被深度整合到 meta 的各项业务中。其技术可以直接用于改进 meta AI 聊天机器人的语音功能,使其对话更自然、更富情感。此外,在 Instagram Reels 等视频内容平台,该技术也可以用于开发更高级的语音翻译和配音功能。从长远来看,在 meta 倾力打造的元宇宙 (metaverse) 虚拟环境中,能够进行情感交流的逼真 AI 语音将是提升用户沉浸感的关键。
参考资料:
1.https://www.theinformation.com/articles/meta-acquires-ai-audio-startup-waveforms?rc=ayz15n