得克萨斯大学奥斯汀分校的研究人员开发了一种新的人工智能系统,可以将人的大脑活动转化为连续的文本流。
该系统被称为语义解码器,是一种非侵入性方法。首先使用fMRI(功能磁共振)扫描仪测量大脑活动(fMRI扫描仪是一种跟踪大脑不同部位血流的成像机器)。当患者在扫描仪中收听数小时的播客时,语义解码器通过这种成像进行训练。
在这项研究中,三个人在功能磁共振成像扫描仪中用耳机收听播客,每人长达16个小时。大部分听力材料都是“Moth Radio Hour”的故事,这是一个受欢迎的公共广播节目,每周都有播客。
根据UT News的一篇报道,在解码器接受这种方法的训练后,如果患者愿意解码他们的想法,他们可以听一个新故事或想象讲一个故事,机器将从大脑活动中生成相应的文本。
对于预测文本生成,解码器使用了一个转换器语言模型,该模型可与为ChatGPT提供动力的大型语言模型相媲美。该系统生成的文本与原始单词的预期含义仅部分匹配,而不是患者想法的逐字记录。
这项研究由计算机科学博士生Jerry Tang和UT Austin神经科学和计算机科学助理教授Alex Huth领导。这项研究结果发表在《自然神经科学》杂志上的一篇论文中。这篇论文解决了人们对患者隐私的担忧以及滥用这项技术的可能性。只有自愿参与解码器训练的患者才能进行解码。研究指出,对于那些没有使用解码器训练或有目的地思考其他事情的人来说,结果是不连贯的。
据UT新闻报道,研究人员表示,他们正在认真对待隐私和安全问题,并希望确保人们自愿使用这项技术,并帮助他人。
尽管该系统由于需要一台体积庞大的fMRI机器,并不实用,但研究人员认为,该技术可能会转向更便携的大脑成像格式,如功能性近红外光谱(fNIRS)。这项技术可以为那些因中风或神经系统疾病等健康问题而无法说话的患者提供解决方案。