当前位置: 首页 » 资讯 » 新科技 » 正文

巴斯克大学首次实现大脑"听说"功能跨任务识别

IP属地 中国·北京 科技行者 时间:2026-03-01 00:17:27


这项由巴斯克大学HiTZ中心与巴斯克认知、大脑与语言中心联合开展的突破性研究,发表于2026年的arXiv预印本平台(论文编号arXiv:2602.18253v1),标志着脑机接口领域的一个重要里程碑。有兴趣深入了解的读者可以通过该编号查询完整论文。

脑机接口技术一直被认为是连接人脑与计算机的桥梁,特别是在帮助失语症患者恢复语言能力方面具有巨大潜力。然而,传统方法面临着一个根本性挑战:需要为每个患者收集数小时甚至数十小时的大脑信号训练数据,这在临床实践中几乎不可能实现。患者往往无法承受如此长时间的数据收集过程,而医疗资源也难以支撑这样的需求。

研究团队巧妙地将这个问题转化为一个"知识迁移"的挑战,就像教一个已经熟练掌握钢琴演奏的人学习吉他一样。他们首先用一名志愿者的50小时大脑信号数据训练了一个基于Conformer架构的人工智能模型,这个模型专门用于识别大脑中的语音活动模式。这个过程类似于让AI系统深度学习人类大脑处理语音信息的基本规律。

接下来,研究团队将这个"预训练"的模型应用到18名新参与者身上,每人仅需要5分钟的大脑信号数据进行个性化调整。更令人惊喜的是,这个系统不仅能够识别人们听到语音时的大脑活动,还能识别人们说话时的大脑信号,实现了真正的"跨任务"解码能力。

这项研究采用了脑磁图技术来记录大脑活动。脑磁图就像是给大脑装上了一个极其敏感的"信号探测器",能够实时捕捉神经元放电时产生的微弱磁场变化。研究团队使用了306个传感器组成的探测阵列,以每秒250次的频率记录大脑信号,确保不遗漏任何细微的活动模式。

在预训练阶段,研究人员让一名英语母语的志愿者听了50多个小时的有声读物,主要是《夏洛克·福尔摩斯》系列故事。在这个过程中,AI系统学会了识别大脑中"有声音"和"安静"状态的区别。这个基础模型就像一个经验丰富的"大脑信号翻译员",掌握了人类处理语音信息的基本模式。

随后的测试阶段更加有趣。18名西班牙语母语的参与者分别完成了三项不同的任务:聆听预先录制的语音、回放自己的声音录音,以及大声朗读文字。每项任务仅持续约5分钟,产生的大脑信号数据量相当有限。然而,经过预训练的AI系统在这些新数据上进行快速调整后,展现出了令人印象深刻的识别能力。

实验结果显示了迁移学习的显著优势。在识别听力任务方面,使用迁移学习的模型准确率提升了3.7%,达到79.0%,F1分数提高了2.6%,AUC分数更是大幅提升了7.3%。这些改进听起来可能不太起眼,但在脑机接口领域,每一个百分点的提升都意味着巨大的技术进步。特别值得注意的是,即使预训练模型完全基于听力数据,它在语音产生任务上同样表现出了改进,准确率、F1分数和AUC分数分别提高了0.7%、0.7%和1.1%。

更加引人注目的是跨任务解码能力的实现。研究团队发现,在一个任务上训练的模型能够成功解码另一个完全不同的任务。比如,一个专门学习识别"听到语音"时大脑信号的模型,竟然能够识别"说话"时的大脑活动,准确率达到65.0%到73.4%之间。这个发现证实了一个重要的科学假设:人类大脑在处理语音感知和语音产生时,存在共同的神经基础。

跨任务迁移的效果呈现出有趣的方向性特征。感知任务之间的迁移相对容易,听力任务和回放任务之间可以很好地相互迁移,准确率都在72%以上。然而,从语音产生任务向感知任务的迁移稍显困难,准确率降到65-66%左右。这种不对称性实际上符合神经科学的基本原理:语音产生不仅涉及听觉处理,还需要运动规划、感觉反馈等额外的神经机制,而感知任务则相对简单。

当结合迁移学习技术后,跨任务解码能力得到了进一步提升。听力与回放任务间的迁移效果最为显著,准确率提升了6.1%和6.3%。更重要的是,涉及语音产生的跨任务组合也获得了3-5%的改进。这些提升在统计学上都达到了显著性水平,证明了方法的可靠性。

研究团队还深入分析了个体差异对迁移学习效果的影响。结果显示,18名参与者中的大多数都从迁移学习中受益,但效果存在一定的个体差异。在感知任务中,15名参与者表现出改进,而在语音产生任务中,16名参与者获得了提升。这种变异性提示我们,未来的脑机接口系统可能需要考虑个体化调整策略。

从技术角度来看,这项研究采用了多项创新性的方法改进。研究团队引入了"滚动增强"技术,通过对训练数据进行时间维度的循环移位来增加数据多样性,类似于通过不同角度观察同一个物体来增强理解。同时,他们还使用了"软标签"技术,不再简单地将每个时间窗口标记为"语音"或"静音",而是根据该窗口中语音所占的比例给出更细致的标记。

实验设计的严谨性也值得称道。研究团队使用了Wilcoxon符号秩检验这一非参数统计方法来评估结果的显著性,并采用Holm-Bonferroni方法进行多重比较校正,确保统计结论的可靠性。此外,他们还进行了基于排列的符号翻转检验,通过10000次迭代来验证整体效果的统计显著性。

这项研究的临床意义不容小觑。传统的脑机接口系统需要每个患者进行数小时的个性化训练,这在实际应用中往往不现实。而新方法仅需5分钟的数据收集,就能实现可靠的语音检测功能,这大大降低了技术应用的门槛。特别是跨任务能力的实现,意味着一个基于语音产生训练的系统也能理解患者的听觉感知状态,这为开发更全面的语言康复系统提供了可能。

研究也存在一些局限性。当前的系统仅能进行语音检测,还无法识别具体的语音内容或语义信息。此外,预训练和微调使用了不同的语言(英语和西班牙语),虽然证明了方法的跨语言适用性,但也可能限制了迁移效果的充分发挥。研究团队还指出,预训练数据来自单一个体,未来需要探索多个体预训练是否能进一步改善泛化能力。

从更广阔的科学视角来看,这项研究为神经科学提供了新的证据,证明了语音感知和语音产生在神经层面确实存在共享的表征机制。这支持了当代语音处理的"双流模型"理论,该理论认为大脑中存在腹侧感知通路和背侧感觉运动通路,它们相互协作完成语音处理任务。

技术实现方面,研究团队还公开了所有代码、预处理脚本和模型配置,确保研究的可重现性。这种开放科学的做法不仅有助于同行验证结果,也为后续研究提供了宝贵的技术基础。

说到底,这项研究代表了脑机接口技术从实验室走向实际应用的重要一步。通过证明大规模预训练模型可以用极少的个体数据实现有效的语音解码,研究团队为开发实用的语言康复系统铺平了道路。虽然目前的技术还处于语音检测阶段,但其展现的跨任务泛化能力和数据效率优势,预示着未来在词汇识别、语义理解等更高级任务上的巨大潜力。

这种技术突破不仅为失语症患者带来了希望,也为神经科学研究开辟了新的方向。通过更深入地理解大脑处理语言的机制,我们有望开发出更加智能、高效的脑机接口系统,最终帮助更多需要语言康复的患者重新获得与世界沟通的能力。

Q&A

Q1:脑磁图技术是如何记录大脑语音活动的?

A:脑磁图技术就像给大脑装上了极其敏感的"信号探测器",能够实时捕捉神经元放电时产生的微弱磁场变化。研究使用306个传感器组成的探测阵列,以每秒250次的频率记录大脑信号,确保不遗漏任何细微的活动模式。当大脑处理语音信息时,相关神经元会产生特定的放电模式,这些模式在磁场中留下独特的"指纹",AI系统通过学习这些指纹来识别语音活动状态。

Q2:为什么用5分钟数据就能训练出有效的语音识别系统?

A:关键在于"迁移学习"策略,就像教一个已经熟练掌握钢琴的人学吉他一样。研究团队首先用50小时的大脑信号数据训练了一个"预训练"模型,让它深度学习人类大脑处理语音的基本规律。然后将这个经验丰富的"大脑信号翻译员"应用到新参与者身上,只需5分钟的个性化调整就能适应新的大脑信号特征。这种方法避免了从零开始训练的低效率问题。

Q3:跨任务解码能力意味着什么实际应用前景?

A:跨任务解码能力证明了大脑在处理语音感知和语音产生时存在共同的神经基础。这意味着一个基于语音产生训练的脑机接口系统也能理解患者的听觉感知状态,为开发更全面的语言康复系统提供了可能。对于失语症患者来说,医生可以通过监测他们的听觉理解能力来评估康复进展,同时系统也能帮助患者重新学习语音表达,实现"听说并重"的综合治疗效果。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。