AI能够自学翻译地球上的任何语言了-ai人工翻译

据 fastcompany 报道，***出现的两个机器翻译系统完成了崭新的突破——可以在无需人类翻译文本的学习资料的情况下，自主学习翻译地球上的任何语言。机器翻译发展惊人，但是地球上还是有数以亿计的人无法享受它的好处——因为他们的语言在翻译器的下拉菜单中根本找不到。

现在，两个新的人工智能系统——一个来自西班牙的 delPaísVasco 大学（UPV），另一个来自卡内基梅隆大学（CMU）——承诺会改变这一切，为像《星际迷航》（Star Trek）中那样的真正的宇宙通用译者（universal translator）的到来打开大门。

[[212151]]

要了解这些新系统的潜力，首先要了解当前的机器翻译是如何工作的。目前机器翻译的事实标杆是谷歌翻译，这个系统涵盖了从南非语到祖鲁语的 103 种语言，包括世界上前 10 种语言——顺序为汉语，西班牙语，英语，印度语，孟加拉语，葡萄牙语，俄语，日语，德语，和爪哇语。

Google 的系统使用人类监督的神经网络，比较平行文本——以前由人类翻译过的书籍和文章。通过比较这些平行文本中的大量数据，Google 翻译可以学习任意两种指定语言之间的对等关系，从而获得在它们之间快速转换的能力。有时候翻译结果会很有趣，可能并不能真正反映原文的意思，但总的来说，这些翻译是功能性的，随着时间的推移，他们会越来越好。

Google 的做法很好，而且很有效。但不幸的是，它并不是全球通用。

这是因为有监督的培训需要很长的时间以及很多监督人员——因为太多了，谷歌使用了众包——也因为并非世界所有语言之间都有足够多的并行翻译文本。想想看：根据世界语言民族学目录，地球上有6,909 种生活语言。其中 414 种的使用人数占人类总数的 94％。由于 Google 翻译涵盖了 103 个，因此会留下6,806 种语言没有机器翻译——其中有 311 种语言的使用人数超过百万。总的来说，至少有八亿人不能享受机器自动翻译的好处。

这两个新的系统——可以在任何语言之间翻译单词和句子——无需通过比较大量由人类翻译的平行文本来学习。他们也不需要监督。相反，他们使用未监督的机器学习，并比较不同语言的随机文本。这是如何运作的？由于语言的词语分类是相似的，所以系统猜测这些词是否相等，用这些信息构建翻译词典。他们从中找出句子结构，通过在不同的语言之间来回翻译来评估他们猜测的结果。

正如 UPV 的研究员 Mikel Artetxe 所描述的那样：“想象一下，你给了一个人很多的中文书籍和阿拉伯语书籍——这些书都不重叠——然后这个人必须学会把中文翻译成阿拉伯语。这似乎是不可能的，对吧？“事实上，这看起来实在太不可能了，以至于微软人工智能专家 Di He（这两个研究项目的启发者）告诉科学界，他得知”即使没有人工监控，电脑也可以学习翻译”的时候，整个人都震惊了。

一个警告就是，这个系统并不像目前的平行文本深度学习系统那么精确——但是正如 Di He 指出的那样，电脑能够在没有任何人类指导的情况下猜测所有这些事实，这一事实本身简直不可思议。我们只是接触到了这种新的学习方法的表面。看起来，可能很快就有一个真正的通用翻译，让我们能够与任何人用对方的母语交谈了，这不再仅仅是科幻的东西。