每年,全世界有超过 6900 万人饱受创伤性脑损伤的折磨,他们中的许多人无法通过语音、打字或手势进行交流。如果研究人员开发出一种技术,可以通过非侵入性的方式直接从大脑活动解码语言,这些人的生活将会大大改善。 现在,Meta搞了个新研究,就是要解决这个事儿。
刚刚,Meta AI官方博客发文,介绍了可利用AI从大脑活动中直接解码语音的新技术。
从一段时间为3秒的大脑活动中,这个AI可以从人们日常使用的 793 个单词的词汇表中解码相应的语音片段,准确率高达 73%。
以往,从大脑活动中解码语音一直是神经科学家和临床医生的长期目标,但大部分进展依赖于侵入性大脑记录技术,例如立体定向脑电图和皮层电图。
这些设备可以提供比无创方法更清晰的信号,但需要神经外科干预。
虽然这项工作的结果表明从大脑活动记录中解码语音是可行的,但使用非侵入性方法解码语音将提供一种更安全、更具可扩展性的解决方案,最终可以使更多人受益。
然而,这是非常具有挑战性的,因为非侵入式录音是出了名的嘈杂,并且由于各种原因,包括每个人的大脑和传感器放置位置的差异,录音会话和个人之间可能会有很大差异。 Meta通过创建一个经过对比学习训练的深度学习模型来应对这些挑战,然后使用它来最大限度地对齐非侵入性大脑记录和语音。
为此,Meta使用一个由 FAIR 团队于 2020 年开发的、开源的自我监督学习模型wave2vec 2.0,来识别听有声读物的在志愿者大脑中语音的复杂表示。 Meta主要关注两种非侵入性技术:脑电图和脑磁图(简称 EEG 和 MEG),分别测量由神经元活动引起的电场和磁场的波动。
在实践中,这两个系统每秒可以使用数百个传感器拍摄大约 1000 个宏观大脑活动的快照。 Meta利用了来自学术机构的四个开源 EEG 和 MEG 数据集,利用了 169 名健康志愿者的 150 多个小时的录音,在这些录音中,是他们正在听有声读物和英语和荷兰语的孤立句子。
然后,Meta将这些 EEG 和 MEG 记录输入到一个「大脑」模型中,该模型由一个带有残差连接的标准深度卷积网络组成。
众所周知,EEG 和 MEG 记录在个体之间存在很大差异,因为个体大脑解剖结构、大脑区域神经功能的位置和时间差异以及记录期间传感器的位置。
在实践中,这意味着分析大脑数据通常需要一个复杂的工程管道,用于重新调整模板大脑上的大脑信号。在以前的研究中,大脑解码器接受了少量录音的训练,以预测一组有限的语音特征,例如词性类别或少量词汇中的单词。
为了方便研究,Meta设计了一个新的主题嵌入层,它被训练成端到端,将所有的大脑记录排列在一个共同的空间。
为了从非侵入性大脑信号中解码语音,Meta训练了一个具有对比学习的模型,以校准语音及其相应的大脑活动 最后,Meta的架构学会了将大脑模型的输出,与呈现给参与者的语音的深度表征相匹配。
在Meta之前的工作中,我们使用wav2vec 2.0,表明这种语音算法会自动学习生成与大脑一致的语音表示。
wav2vec 2.0中出现的语音“类脑”表示,使Meta的研究人员自然而然地选择构建自己的解码器,因为它有助于让Meta的研究人员了解,应该从大脑信号中提取哪些表示。
Meta最近展示了 wav2vec 2.0(左)的激活映射到大脑(右)以响应相同的语音。算法的第一层(冷色)的表示映射到早期听觉皮层,而最深层映射到高级大脑区域(例如前额叶和顶叶皮层)
训练后,Meta的系统执行所谓的零样本分类:给定一个大脑活动片段,它可以从大量新音频片段中确定该人实际听到的是哪个片段。
算法推断出这个人最有可能听到的词。这是一个令人兴奋的步骤,因为它表明人工智能可以成功地学会在感知语音时解码大脑活动的嘈杂和可变的非侵入性记录。
下一步是看看研究人员是否可以扩展这个模型,直接从大脑活动中解码语音,而不需要音频剪辑池,即,转向安全和多功能的语音解码器。 研究人员的分析进一步表明,我们算法的几个组成部分,包括使用 wav2vec 2.0 和主题层,对解码性能是有益的。
此外,Meta的算法随着 EEG 和 MEG 记录的数量而改进。 实际上,这意味着Meta研究人员的方法受益于大量异构数据的提取,并且原则上可以帮助改进小型数据集的解码。
这很重要,因为在许多情况下,很难让给定的参与者收集大量数据。例如,要求患者在扫描仪上花费数十个小时来检查系统是否适合他们是不切实际的。 相反,算法可以在包括许多个人和条件的大型数据集上进行预训练,然后在数据很少的情况下为新患者的大脑活动提供解码支持。
Meta的研究令人鼓舞,因为结果表明,经过自我监督训练的人工智能可以成功地从大脑活动的非侵入性记录中解码感知到的语音,尽管这些数据中存在固有的噪声和可变性。 当然,这些结果只是第一步。在这项研究工作中,Meta专注于解码语音感知,但实现患者交流的最终目标需要将这项工作扩展到语音生产。
这一研究领域甚至可以超越帮助患者,潜在地包括启用与计算机交互的新方式。
从更大的视野来看,Meta的工作是科学界使用人工智能更好地理解人类大脑的努力的一部分。Meta希望公开分享这项研究,以加快应对未来挑战的进展。
论文解析
论文链接:https://arxiv.org/pdf/2208.12266.pdf
本文提出了一个单一的端到端架构,在大量的个体群中进行对比性学习训练,以预测自然语音的自监督表示。
我们在四个公共数据集上评估了模型,其中包括169名志愿者在听自然语音时用脑磁图或脑电图(M/EEG)记录的数据。
这为从非侵入性的大脑活动记录中实时解码自然语言处理提供了一条新的思路。
方法和架构
我们首先正式确定了神经解码的通用任务,并激励使用对比性损失进行训练。在介绍用于大脑解码的深度学习架构之前,我们介绍了由预训练的自我监督模块wav2vec 2.0提供的丰富的语音表示。
我们的目标是在健康志愿者被动地听他们的母语口语句子时,从用无创脑磁图(MEG)或脑电图(EEG)记录的高维大脑信号的时间序列中解码语音。
口语是如何在大脑中表示的在很大程度上是未知的,因此,通常以监督的方式训练解码器,以预测已知与大脑有关的语音的潜在表示。
从经验上看,我们观察到这种直接回归的方法面临几个挑战:当语音出现时,解码预测似乎被一个不可区分的宽带成分所支配(图2.A-B)。
这一挑战促使我们做出三个主要贡献:引入对比性损失、预训练好的深层语音表征和专门的大脑解码器。
1、对比性损失
首先,我们推断,回归可能是一种无效的损失,因为它偏离了我们的目标:从大脑活动中解码语音。因此,我们用一种对比性损失来代替它,即 "CLIP "损失,它最初被设计用来匹配文本和图像这两种模式中的潜在表征。
2、预训练的深度语音表征
其次,Mel频谱是语音的低层次表征,因此不太可能与丰富的皮质表征相匹配。 因此,我们用语音的潜在表征取代了Mel频谱Y,这些表征要么是端到端学习的("Deep Mel "模型),要么是用一个独立的自我监督的语音模型学习的。 在实践中,我们使用wav2vec2-large-xlsr-531,它已经对53种不同语言的56k小时的语音进行了预训练。
3、专门的「大脑解码器」
最后,对于大脑模块,我们使用一个深度神经网络fclip,输入原始的M/EEG时间序列X和相应的主题s的单次编码,并输出潜在的大脑表示Z,其采样率与X相同。
这个架构包括(1)在M/EEG传感器上的空间注意力层,然后由一个针对特定对象的1x1卷积设计,以利用对象间的变异性,其输入是卷积块的堆叠。
结果显示,wav2vec 2.0 模型可以从3秒的脑电信号中识别出相应的语音片段,在1,594个不同的片段中,准确率高达72.5%,在2,604个脑电记录片段中,准确率高达19.1%,可以对训练集中没有的短语进行解码。