AI读心术震撼登顶会！模型翻译脑电波，人类思想被投屏

我们今天的AI能做到哪些事情？

AI画图、AI作曲、AI生成视频、AI写小说、AI做主播......

然而，在最近的NeurIPS大会上，来自GrapheneX-UTS的研究人员带来了更震撼的应用场景——AI读心术BrainGPT！

论文地址：https://arxiv.org/pdf/2309.14030v2.pdf

如果AI能知道你心中所想，会发生什么事情？小编可不敢想象。

视频里研究团队为大家展示了AI读心术的现场。

参加测试的人在心中默念一个文本段落，通过一套传感器采样脑电波，然后由一个名为DeWave的AI模型，将脑电波翻译成语言，并投射到屏幕上。

整个过程有点科幻的味道了，尤其是背景音乐，让小编莫名想到了《星际穿越》。

这项研究被选为今年NeurIPS会议的焦点论文（Spotlight ），研究团队来自悉尼科技大学的GrapheneX-UTS（以人为本的人工智能中心）。

UTS计算机科学学院杰出教授，兼GrapheneX-UTS HAI中心主任Chin-Teng Lin教授表示，这项研究代表了将原始脑电波直接翻译成语言的开创性努力，标志着该领域的重大突破。

「这是第一个将离散编码技术纳入脑到文本翻译过程的方法，引入了一种创新的神经解码方法，与大型语言模型的集成也为神经科学和人工智能开辟了新的领域。」

——还好还好，需要戴个头套，AI才能「听见」人类心里在想什么，这要是能隔空摄取意念可就麻烦了。

如果是小编参加这个测试，估计压力挺大的，

——毕竟不知道默念文本和心里的想法是不是一回事，AI会不会把我脑袋里的其他想法也顺道给读出来？

小编不由得想起了霍金老前辈，也许在某个平行世界里，他老人家可以用上这样的一套BrainGPT吧。

而小编我呢？还需要面对着电脑屏幕敲键盘吗？不需要了！小编只需躺在床上，动动脑子，就把这班给上了。

在这项工作中，模型把脑电波信号分割成不同的单元，从中捕获特定的特征和模式。

DeWave模型通过从大量脑电数据中学习，获得了将脑电图信号转换为单词和句子的能力。

除了可以帮助因疾病或受伤（中风、瘫痪等）而无法说话的人进行交流，BrainGPT还可以实现人与机器之间的无缝通信，例如仿生手臂或机器人的操作。

以前将大脑信号转换为语言的技术，要么需要手术在大脑中植入电极（例如马斯克的Neuralink），要么在MRI机器中扫描。

前者为侵入性，而后者体积大，价格昂贵，且难以在日常生活中使用。

另外，这些方法一般需要眼动追踪等额外辅助工具，来帮助将大脑信号转换为单词级片段，而BrainGPT并没有这个限制。

这项研究测试了29名参与者。因为脑电波因人而异，所以BrainGPT所表现出的解码技术更强大、适应性也更强。

当然，比起向大脑植入电极，通过这种外部设备接收到的脑电图信号会更嘈杂，——不过从翻译结果来看，准确率也很不错。

BrainGPT在BLEU-1的翻译准确率得分，目前约为40%。

（BLEU分数是一个介于0和1之间的数字，用于衡量机器翻译文本与一组高质量参考翻译的相似性。）

研究人员认为这套系统将来有望把准确率做到接近90%，——这将是与传统语言翻译，或语音识别程序相当的水平。

论文作者认为，目前的模型更擅长匹配动词，而涉及到名词时可能不够精确。这是因为当大脑处理这些单词时，语义上相似的单词可能会产生相似的脑电波模式。

论文细节

论文引入了一个新的框架——DeWave，它将离散编码序列集成到开放词汇的脑电图到文本的翻译任务中。

DeWave使用量化变分编码器来派生离散的编码，并将其与预先训练的语言模型对齐。

这种离散表示有两个优点：1）通过引入文本-脑电对比对齐训练，实现了无标记原始波的平移；2）通过不变的离散编码，减轻了脑电波个体差异引起的干扰。

利用离散编码，DeWave是第一个实现原始脑电波到文本翻译的工作，同时引入了自监督波编码模型，和基于对比学习的脑电到文本对齐，以提高编码能力。

DeWave模型在使用ZuCo数据集的测试中，BLEU-1分数达到了41.35，Rouge-F分数达到了33.71，比之前的基线分别高出了3.06%和6.34%

另外，论文首次在没有单词级顺序标记（例如，眼睛注视）的情况下，进行了整个脑电图信号周期的翻译测试，分别获得了20.5（BLEU-1）和29.5（Rouge-1）。

研究方法

DeWave的整个过程如下图所示，原始EEG特征被矢量化为嵌入的序列，并送到离散的编码中，语言模型基于离散的编码表示形式生成翻译输出。

DeWave模型结构涉及将词级脑电图特征，或原始脑电图波矢量化为嵌入，然后将矢量化的特征编码为一个潜在变量，该变量通过索引转换为离散的编码。最后，预先训练的BART模型将这种离散的编码表示转换为文本。

给定一系列单词级脑电图特征E，目的是解码相应的开放词汇文本标记W。这些脑电图文本对（E、W）是在自然阅读期间收集的，

这里设置两个训练任务：（1）单词级脑电图到文本翻译，其中脑电图特征序列E被分割，并根据序列W中的每个单词的标记，进行重新排序;

（2）原始脑电波到文本翻译，其中脑电特征序列E直接矢量化为嵌入序列进行翻译，没有任何事件标记。

离散编码

DeWave是第一个将离散编码引入EEG信号表示的工作。

离散表示有利于词级脑电图特征和原始脑电波转换。将离散编码引入脑电波可以带来两个方面的优势：

第一点，脑电图特征在不同人类受试者之间具有很强的数据分布差异。同时，由于数据收集的费用，数据集只能包含来自少数人类受试者的样本，这严重削弱了基于脑电图的深度学习模型的泛化能力。

而通过引入离散编码，可以在很大程度上缓解输入方差。

第二点，编码包含较少的时间属性，可以缓解事件标记（如眼睛注视）和语言输出之间的顺序不匹配问题。

脑电图矢量化

为了得到带有事件标记的单词级脑电图特征，首先根据注释中给出的单词序列的眼动追踪标记，将脑电波切片。

这里计算了4个频段滤波器的统计结果（Theta波段（5-7Hz）、Alpha波段（8-13Hz）、Beta波段（12-30Hz）和Gamma波段（30Hz-）），得到每个片段的统计频率特征。

需要注意的是，尽管不同的片段可能具有不同的脑电图窗口大小，但统计结果是相同的（嵌入大小840）。

应用多头Transformer层将嵌入投影到大小为512的特征序列中。

使用自监督脑电波编码器，将原始脑电信号转换为一系列嵌入：

上图展示了原始波的自监督预训练过程。左边的子图详细介绍了通过对比学习，利用自我重建和文本对齐来引导编码器的策略。

这里有两个指导原则：一个是自我重建，训练编码器能力的同时，也从离散编码中重建原始波形；

另一个是文本对齐，编码在语义上与词向量对齐。

在结构方面，采用了基于一致性的多层编码器，这个编码器具有专门设计的超参数。

一维卷积层用来处理脑电波以生成嵌入序列，然后将脑电通道融合为每个周期的唯一嵌入。这里将双向Transformer注意力层应用于序列以捕获时间关系。

通过这种方式，该模型不仅可以学习重建脑电图信号，还可以学习与相应文本嵌入一致的信号的鲁棒表示。

这种跨模态学习可以弥合脑电图信号和文本语义内容之间的差距，并改善翻译系统。

实验结果

DeWave利用ZuCo 1.0和2.0进行实验。该数据集同时记录了正常阅读（NR）和特定任务阅读（TSR）任务期间的文本和脑电图语料库。

脑电波是用128通道系统，在500Hz的采样率下通过0.1Hz至100Hz的频带滤波器收集的。不过在降噪之后，只有105个通道用于翻译。

实验中根据眼睛注视对脑电波进行切片，并计算频率特征。对于原始脑电波，信号被归一化为0-1的值范围以进行解码。

阅读任务的数据分别分为训练（80%）、发展（10%）和测试（10%），句子数量分别为10874、1387和1387个，没有交集。

这里使用NLP指标BLEU和ROUGE评估翻译性能，如上表所示。

对于单词级脑电图特征，将结果与脑电图转文本进行比较，以保持一致的语言模型。

在缺乏原始脑电波的方法的情况下，通过使用200毫秒的时间窗口和100毫秒的重叠，将整个脑电波分割成序列嵌入，来建立基线（脑电图到文本）。

实验中将最初为语音识别开发的Wave2Vec改编为脑电波，并将其与DeWave进行比较。

此外，实验还采用无监督的原始脑电波分类方法BENDR和SCL，使用SSL预训练和特征提取进行比较，强调了离散编码的影响。

因为跨学科性能对于实际应用至关重要，所以这里进一步提供了与基线方法，和具有代表性的元学习方法MAML的比较。

上表展示了18 名人类受试者的平均表现，指标越低越好。我们可以看出DeWave模型在两种设置（直接测试和使用MAML）中都显示出卓越的性能。

为了进一步说明不同受试者的表现差异，这里仅使用受试者YAG的数据来训练模型，并测试所有其他受试者的指标。

结果如上图所示，我们可以从雷达图中看出，对于不同受试者，模型的表现比较稳定。

AI读心术震撼登顶会！模型翻译脑电波，人类思想被投屏｜NeurIPS 2023

论文细节

研究方法

离散编码

脑电图矢量化

实验结果