很久以前科学家们就意识到,语音和文字信号进入大脑后,会共享一部分处理路径,正如你听有歌词的歌时很容易干扰你的阅读。而相关的探索,可以追溯到一百多年前一个年轻人的意外发现。
1874年,卡尔·韦尼克正在著名神经病理学家西奥多·梅内特手下学习。他记录下两位奇特的病人。他们好像患有某种语言表达障碍,但症状和典型的表达性失语症截然不同:他们说话写字其实都很流畅,但净是些胡言乱语。韦尼克最终将这种症状(现称感觉性失语症)归因于颞叶后部和顶部的脑损伤。它破坏了病人的语言理解能力,所以患者常常说着写着就忘了:“我要说啥来着?现代科学家们在地观察大脑活动的过程中,最后都佐证了大脑中语音-文本“汇合区”的存在,这些区域同时负责着对语音和文本的理解。
在观看外语电影时,我们看着字幕也能很流畅的把电影看完,这里的字幕就涉及语音翻译技术,把源语言的声音翻译成目标语言(如你的母语)的文本。
然而对于计算机而言,语音和文本的表达形式大不相同。文本通常只是几十个符号,但语音都是连续的声音波形,长度可以达到百万之巨。即使是说一个词,由谁来说、在什么环境中、何种语境下说,听起来也会大相径庭。此外,语音与文本的编码方式也不同。文本单词由词根和词缀构成。而语音则包含着一系列的语素,辅以轻重和抑扬顿挫。
对人类来说轻而易举的事情,人工智能来做却可能难上加难。文本和语音的差异之大,在文本处理方面的研究硕果累累时,语音上的表现却落后不少。要想弥合差距,就需要统一理解语音和文本,就像我们的大脑那样。
现在我们研究人工智能时就已经开始从解剖学和神经学中获取灵感来优化模型,人工智能已经离我们越来越近。