众所周知,人类语言非常复杂,语言学家长期以来一直认为,教机器如何像人类那样分析语音和单词结构是不可能的。
但麦吉尔大学、麻省理工学院和康奈尔大学的研究人员已经朝着这个方向迈出了一步。他们开发了一种人工智能 (AI) 系统,可以自行学习人类语言的规则和模式。
该模型自动学习可以应用于不同语言的高级语言模式,使其能够获得更好的结果。
当给定单词和这些单词如何变化以用一种语言表达不同语法功能的例子时——比如时态、大小写或性别——这个机器学习模型会提出规则来解释这些单词的形式为什么会发生变化。
研究人员开发了一种人工智能系统,可以自行学习人类语言的规则和模式。学分:麻省理工学院 Jose-Luis Olivares
例如,它可能知道必须将字母“a”添加到单词的末尾,以使塞尔维亚-克罗地亚语中的阳性形式变为阴性。
研究人员说,该系统可用于检验语言理论,并研究不同语言转换单词方式的细微相似之处。“我们想看看我们是否可以模仿人类为这项任务带来的知识和推理,”麻省理工学院语言学教授、合著者亚当奥尔布赖特说。
“这项工作令人兴奋的是,它展示了我们如何构建能够从非常小的语言数据样本中进行泛化的算法,更像是人类科学家和儿童,”该系助理教授、资深作者 Timothy O'Donnell 说麦吉尔大学语言学博士,Mila – 魁北克人工智能研究所加拿大 CIFAR AI 主席。
用贝叶斯程序归纳综合人类语言理论
自动化的、数据驱动的科学模型和理论的构建和评估是人工智能中长期存在的挑战。
我们提出了一个算法合成人类语言基本部分模型的框架:形态音韵学,从声音构建单词形式的系统。我们将贝叶斯推理与受语言理论和学习和发现的认知模型启发的程序合成和表示相结合。
在来自 58 种不同语言的 70 个数据集中,我们的系统综合了每种语言形态音系核心方面的人类可解释模型,有时接近人类语言学家提出的模型。所有 70 个数据集的联合推理自动合成一个元模型编码可解释的跨语言类型趋势。
最后,相同的算法捕获了少量学习动态,仅从一个或几个示例中获取新的形态语音规则。
这些结果表明了在语言学和其他科学领域中更强大的机器支持发现可解释模型的途径。