想象一下,你无需触碰任何设备,只需一个微小的手腕动作,凭空比划几下,就能与身边的电脑、手机、智能眼镜无缝交互。
meta 公司的 Reality Labs,在最新发表于《自然》(Nature)杂志的论文中,带来了一项新成果:一种通用的非侵入性神经运动接口,与腕带结合后,就能让这种“意念控制”成为现实。
图 | 论文标题(meta 论文)
长期以来,人类在追求更高效、更直观的计算机输入方式上从未止步。然而,无论是键盘、鼠标还是触摸屏,都不可避免地需要用户与物理设备进行直接互动,这在移动场景下往往显得笨拙不便。
而依赖摄像头或惯性传感器的手势系统,则容易受制于遮挡或光线不足等环境因素。
为了破除这些限制,直接从人体读取信号的脑机接口(brain–computer interfaces)和神经运动接口(neuromotor interfaces)成为了热门研究领域。
meta 团队此次将目光投向了一种非侵入性神经运动接口:基于表面肌电图(sEMG,surface electromyography)的技术。
简单来说,就是通过读取肌肉产生的电信号来理解人体的运动指令。
图 | SEMG 腕带系统示意图(meta)
meta 早在多年前就开始着手研究这项技术。2021 年,该公司组建了一个团队,其中包括论文作者之一托马斯·里尔登(Thomas Reardon)——他于 2019 年加入 Reality Labs,担任神经运动界面主管,主导开发了一款基于肌电图的手势控制装置原型。
这些肌电信号,实际上是运动单位动作电位(MUAPs,Motor Unit Action Potentials)的总和,它们就像是中央神经系统发出的微电流指令,可以透过皮肤,为我们展现大脑如何控制肌肉。
与脑电图相比,SEMG 信号具有更高的信噪比,这意味着它能更清晰地捕捉到肌肉的微弱活动,从而实现实时的单次手势解码。
同时,SEMG 信号不受遮挡、光照不足或微小动作的困扰,天然适用于人机交互应用。
(meta)
基于此,meta 研究团队开发并部署了一款非侵入式硬件,像腕带一样的 SEMG 研究设备(SEMG-RD),用于在手腕处记录 SEMG 信号。
之所以选择手腕作为佩戴位置,是因为人类主要通过手部与世界互动,且手腕能广泛覆盖手部、腕部和前臂肌肉的 SEMG 信号。
腕带是无线的,并能适应不同解剖结构和环境,仅需几秒钟即可完成佩戴或摘除。它通过蓝牙传输数据,续航在 4 小时左右。
除了硬件设备,研究团队还创建了一个可扩展的、大规模数据收集基础设施。他们从数千名参与者那里收集了大量的训练数据,帮助他们开发出了能够跨个体泛化的通用 SEMG 解码模型。
图 | 三种实验任务(meta)
实验设计中包含了三类核心计算机交互任务:一维连续导航(类似于激光笔控制)、离散手势检测(手指捏合、拇指轻扫)和手写转录。参与者佩戴 SEMG 腕带,并根据计算机屏幕上的提示执行相应的动作。
为了将 SEMG 信号转换为计算机指令,研究人员架构并部署了基于深度神经网络的解码模型。
针对不同的任务,模型采用了不同的处理技术和网络架构:腕部任务采用多变量功率频率(MPF,Multivariate Power Frequency)特征和长短期记忆(LSTM,Long Short-term Memory)层,离散手势任务采用一维卷积层后接 LSTM 层,手写任务采用 MPF 特征和 Conformer 架构。
此外,研究团队还开发了时间对齐算法,以解决提示标签与实际手势时间可能存在的偏差,从而提高模型训练的精度。
图 | SEMG 腕带(meta)
meta 团队通过离线和在线(闭环)两种方式对 SEMG 解码模型的性能进行了评估。
离线评估数据显示,SEMG-RD 平台在手写和手势检测任务中,对未参与训练的测试参与者实现了超过 90% 的分类准确率。在腕部角度速度解码任务中,误差低于 13°s-1。
研究指出,单个参与者模型在跨会话和跨用户泛化方面存在挑战,同一参与者在不同会话间的模型性能随着训练数据的增加而改善。但跨参与者泛化能力仍然受限,即使增加训练数据也仅能带来轻微改善。
这突显了采用大规模、多样化数据集训练通用模型的必要性。
模型性能显示出与训练数据量和模型规模的幂律关系,这与大型语言模型和视觉 Transformer 的研究发现一致。随着训练参与者数量的增加,所有任务的解码错误率均呈现下降趋势。
在线(闭环)评估数据则直接反映了模型作为计算机接口的实际可行性。评估对象为之前没有 SEMG 解码器使用经验的初次用户。
图 | 三种闭环任务示意图(meta)
在腕部连续控制任务中,用户实现了每秒 0.66 个目标获取的闭环中位数性能。在离散手势任务中,系统实现了每秒 0.88 次手势检测的中位数性能。在手写输入功能上,用户实现了每分钟 20.9 个单词(WPM,Words Per Minute)的中位数性能。
与传统交互设备相比,如 MacBook 触摸板的平均获取时间为 0.68 秒、任天堂 Joy-Con 游戏控制器的中位数手势完成率为 1.45 次/秒、无笔手写的速度为 25.1 WPM,SEMG 解码器的绝对性能目前仍有差距。
然而,该接口的优势在于不依赖手持设备或外部仪器,这在特定使用场景下具有几乎无法替代的价值。研究团队还观察到,参与者在实践中会不断进步,适当的指导和练习有助于用户适应腕带并提高任务表现。
进一步的模型个性化探索表明,即使在通用模型表现良好的情况下,通过短时间额外的个性化数据(例如 20 分钟)微调模型,仍能进一步提升性能。
以手写任务为例,即使通用模型已经用 6400 名参与者的数据进行了训练,但只要再加入短短 20 分钟的个性化数据,就能让中位数性能再提高 16%。
个性化对那些通用模型表现相对较差的参与者,带来了更大的相对增益,有效解决了用户性能的长尾效应。
为了深入理解离散手势解码器神经网络的内部工作机制,研究人员分析了其学习到的表示。网络架构包含一个一维卷积层和三个循环 LSTM 层。
研究发现,第一层卷积层的滤波器在时空特征上与肌肉 MUAPs 具有相似性。这表明模型在较低层次学习了与肌肉电生理活动相关的基础模式。
(meta)
进一步分析 LSTM 层的表示发现,随着网络深度的增加,手势类别信息在表示空间中变得更加可分离,而与参与者身份、腕带放置位置和手势激发的 SEMG 功率等“干扰变量”相关的表示则逐渐解耦或保持不变。
这意味着网络通过学习,逐渐将 SEMG 信号的表示塑造成对这些“干扰变量”更加不变的形式,从而提高了手势识别的稳健性。
meta 研究团队指出,这项技术为未来人机交互开启了多种可能性。
首先,SEMG 解码器能够直接检测手势的力度,这是现有摄像头或操纵杆控制无法实现的功能。未来用户可能通过“意念”来控制设备的力度,例如通过轻微的肌肉收缩来微调音量,而通过更强的收缩则实现快速静音。
其次,尽管目前研究主要展示了一维连续控制,但通过添加更多仿生映射,例如利用手腕的尺侧/桡侧偏离来控制垂直方向,实现多自由度联合控制是完全可能的。
此外,SEMG-RD 平台及其配套软件,还可用于研究神经反馈对运动单位活动的影响,从而探索新颖的“人机共生”交互模式,甚至支持人们学习新的运动技能。
最后,在临床领域,这种只需最小肌肉活动而非特定动作的交互设计,有望为那些运动能力受限、肌肉无力或失去肢体的人提供可行的交互方案,并促进有效的闭环神经康复范式的发展。
虽然该研究在解决 SEMG 系统长期面临的泛化和校准问题上取得了进展,但仍存在局限性和进步空间。
例如,与传统的、成熟的人机交互方法相比,SEMG 系统的绝对性能较弱,学习曲线较为陡峭。此外,该研究主要面对的是健康人群,训练结果能否泛化到行动不便人群仍未可知。这或许会限制它在临床、无障碍方面的用途。
为了更好地推动 SEMG 的相关研究,研究团队公开了 1060 份来自 300 名参与者的 SEMG 记录数据以及相关的代码。
研究人员表示,他们未来的工作将关注用户熟练度提升、模型优化(包括个性化)、后处理技术和硬件传感性能的改进。
参考资料:
Kaifosh, P., Reardon, T.R. & CTRL-labs at Reality Labs. A generic non-invasive neuromotor interface for human-computer interaction.Nature(2025). https://doi.org/10.1038/s41586-025-09255-w
https://newatlas.com/wearables/meta-mouse-keyboard-bracelet-semg-rd/
运营/排版:何晨龙