如果一台计算机能够欺骗人类,让人相信它是人类,那么该计算机就应当被认为是智能的。——阿兰·图灵
机器能跟我们人类交流吗,能像我们人类一样理解文本吗,这是大家对人工智能最初的幻想。如今,它已成为人工智能的核心领域——自然语言处理(简称:NLP)。自然语言处理是一门融语言学、计算机科学、人工智能于一体的科学,解决的是“让机器可以理解自然语言”——这一到目前为止都还只是人类独有的特权,因此,被誉为人工智能皇冠上的明珠。
如今,这门学科受到了国家政府、各大企业的普遍关注。国务院《新一代人工智能发展规划》,明确指出建立新一代人工智能关键共性技术体系,自然语言处理技术作为八大共性技术之一,被重点强调和扶持。
无处不在的自然语言处理
我们每天都在使用或受益于“自然语言处理”的技术,举个例子,微软小冰是中国微博上的一款将对话带入我们日常生活的聊天机器人。百万年轻中国用户通过小冰交换信息,与他人分手、丢了工作或感觉沮丧时,人们经常会和小冰聊天。到目前,小冰已经累积了上亿用户,平均聊天的回数23轮,平时聊天时长大概是25分钟左右。自然语言处理技术更广泛使用,可见下面的案例:
机器翻译
去年秋天,谷歌翻译推出了一个全新升级的人工智能翻译引擎。这样一来,曾以产出语言生硬但又可用的翻译而闻名的谷歌翻译,已开始产出语言流畅、精确度高的翻译文本。对未经专业翻译训练的人来说,这种文本输出几乎与人工翻译并未有区别。我们将上面这段文字输入到谷歌翻译中(中译英),输出的英文句子,让人惊叹!
垃圾邮件检测
在自动垃圾邮件检测等一些应用中,分类只有两个:垃圾邮件和非垃圾邮件。在其它情况下,分类器可以有多个分类,比如按主题组织新闻报道或按领域组织学术论文。而要是一篇博客文章谈论的是体育和娱乐又会怎样?一个分类器如何在多个选项之间选择正确的分类?那依赖于具体应用:它可以简单地选择最有可能的选项,但有时候为一个文本分配多个分类是有意义的。
问答系统
从2011年Siri诞生,到Google Now,再到Cortana和Alexa,作为语音助手,其实它们本质上都是问答系统。这几个都是面向公开领域的问答系统,在我们的日常生活中帮忙定闹钟、打电话、导航、搜索问题,偶尔还能讲讲笑话,也正让我们的生活越来越方便。
尤其是2010年后,深度学习应用于自然语言处理领域,一系列的产品功能逐渐走进我们的生活。各大企业也在纷纷布局相关产业,重金招揽相关领域人才。我国在语言文字信息处理方面就诞生了三家上市公司,从上市的顺序来说,最早是汉王,做模式识别,后来科大讯飞做语音识别,然后是拓而思的信息检索和文本挖掘。
图四 知名招聘网站岗位图