meta正式推出音频处理领域的重磅突破——SAM Audio,全球首个统一的多模态音频分离模型。它能让用户像“用眼睛听声音”一样,从一段混杂的视频或音频中,一键提取出任意目标声音:点击视频中的吉他手,立刻分离出纯净吉他声;输入“狗吠”,自动过滤掉整段播客中的犬吠噪音;甚至只需圈定时间片段,即可精准剔除干扰音。这项技术首次将人类自然感知声音的方式——看、说、指、选——完整复刻到AI系统中。
SAM Audio的核心是其自研的感知编码器视听(PE-AV),被meta称为模型的“耳朵”。该引擎基于今年4月开源的meta Perception Encoder计算机视觉模型扩展而来,首次将高级视觉理解能力与音频信号深度融合,实现跨模态的声音定位与分离。
具体而言,SAM Audio支持三种直觉化交互方式,可单独或组合使用:
- 文本提示:输入“人声演唱”“汽车喇叭”等语义描述,自动提取对应声源;
- 视觉提示:在视频画面中点击发声物体(如说话的人、敲鼓的手),系统即分离其音频;
- 时间片段提示(行业首创):标记目标声音出现的时间区间(如“3分12秒到3分18秒”),模型自动处理整段录音中的同类声音——meta将其类比为《赛博朋克2077》中的“超梦”技术。
为推动技术标准化,meta同步开源两大关键工具:
- SAM Audio-Bench:首个基于真实场景的音频分离评测基准;
- SAM Audio Judge:全球首个专用于音频分离质量的自动评估模型,可量化判断分离结果的纯净度与完整性。
此次发布的PE-AV不仅是SAM Audio的底层引擎,还将赋能meta其他AI产品,包括字幕生成、视频理解与智能剪辑系统。它的开源,意味着开发者未来可构建自己的“视听联觉”AI应用——从自动消噪会议记录,到沉浸式AR音频交互,再到无障碍辅助听觉设备。
在视频内容爆炸式增长的今天,SAM Audio的出现,标志着音频处理正式进入“可交互、可编辑、可理解”的新时代。过去,我们只能被动接收声音;现在,meta让我们拥有了“选择性聆听”的超能力——而这,或许只是多模态AI重塑感官体验的第一步。
体验地址:
https://ai.meta.com/samaudio/
https://github.com/facebookresearch/sam-audio





京公网安备 11011402013531号