语音接口我们已站到下一个交互时代的边缘-语音交互的未来

随着计算机处理、语音识别、移动通信、云计算、神经网络等技术的发展日趋成熟，语音接口技术迎来了飞跃，虚拟语音助理业务的发展迎来了变革时期。

你或许听过这样一个故事。1979年，年轻的史蒂夫乔布斯造访了位于位于加利福尼亚州帕洛阿图市的施乐帕克研究中心(Xerox PARC)，并见证了帕克研发的计算机图形用户界面。一位PARC的工程师使用鼠标原型对计算机进行了相关操作，下拉菜单、点击互相重叠的计算机窗口。在整个演示过程中，乔布斯所看到的操作方式与以前完全不同。乔布斯后来说，“不到十分钟，我就清楚有一天所有计算机都会以这种方式运行。”

传说中乔布斯带领苹果的团队复制了PARC的用户图形界面。在随后的近四十年内，个人计算机技术开始以***的速度向前发展，从***台Macintosh一路发展至***的iPhone手机。计算机的用户图形界面克服了命令行以及文字界面的缺点，将更多的普通人带进计算机世界，使更多的人能够使用计算机，他们所需要的技能仅仅是操作鼠标指向、单击或拖动。

在并不遥远的未来，我们依旧会因PARC创造的用户图形界面和其因决策失误而导致错过个人电脑发展黄金时期而唏嘘不已。但在乔布斯造访PARC的时候，而另外一个独立团队正在研究关于人机交互的全新模式，也就是今天所说的会话用户界面。这些科学家设想了这样一个世界，在几十年后的电脑功能时如此强大，需要用户记住关于计算机操作的每一个命令是完全不切实际的。科学家想到用户会倒退回来，用一种蜕变的方式与计算机协同工作，而这种方式的接口就是普通人类语言。

在研究会话用户界面的团队中，有一位名为罗恩·卡普兰(Ron Kaplan)的科学家。他长相粗壮，说话却细声细语，留着山羊胡子，但有头发稀疏。卡普兰是一位语言学家，同时也是一位心理学家和计算机专家，其将著名语言学家诺姆·乔姆斯基的理论用于人机交互语言的重构。卡普兰指出，在上世纪70年代，他的团队所开发的会话用户界面离实际应用还有相当的距离。他们勉强开发出一个会话用户系统，用户可以使用标准英语来预定机票。但是这种技术无法用于大规模的系统性工作，因此也就无法普及。卡普兰表示，“当时这种技术的成本过高，大概要达到每个用户一百万美元。”事实上，这种技术需要更快处理速度，更为智能、更高效的分布式处理电脑。卡普兰当时估计需要15年的时间。

卡普兰现在称，“四十年后，我们终于准备好了。”

现在，卡普兰是语音识别软件公司Nuance Communications的***科学家以及副总裁。该公司是世界上***的语音接口业务公司之一。该公司为福特开发了车内语音系统Sync system，对苹果Siri的开发也至关重要，其与各行业均有良好的合作关系。但最近，Nuance发现很多公司都在涌入语音接口市常从亚马逊、Intel到微软谷歌，几乎每一个大科技公司都在研发会话用户接口，此外还有数十个初创企业也在从事相关研究。我们正处于语音接口技术的变革之中。这些公司相信，不久之后，用户能够跟自己的设备如同和朋友谈话一样交互。用户的设备能够听到用户在说什么、表达什么意思。

你或许以及过惊叹于现在社会的技术发展，但这些新的工具和接口将进一步拓展你的数字生活，克服图形用户界面在安全、友好、易用性方面的缺点。更贴近自然语言的会话接口将会进一步拉近你和技术之间的关系，更贴心，更友好，更富于个性化。

这种技术的重大转变不仅有利于硅谷，更使得普罗大众受益。史蒂夫·乔布斯在1979年就看到了图形用户界面的重要性，清楚其是拓展计算机市场的重要方式。但即便是图形用户界面，依旧把大量受众拒在赛博空间的大门之外。它依旧需要用户去学习计算机语言。而现在，随着语音技术的发展，电脑最终将学会如何直接与人类对话。在不断学习和完善中，人类将打通通向科技世界的通天塔。

但我们也要清楚，虽然语音技术已经存在多年，但迄今为止依旧不够成熟。当然，你可以举例说现在的电话自动应答系统还算不错(打进电话付款，说“支付”便可调用相应功能)。事实上，现在的语音接口都依赖于固定化的语言，而在某些情况下还不具备自然语言的功能。譬如你可以问Google Now纽约市人口数量，它对答如流;你问帝国大厦的位置，它也能应对。但倘若你问其包括帝国大厦在内的纽约市人口数量，它就会不知所云。同样，苹果语音助手Siri也一贯如此，其最主要的本领就是帮你调用谷歌搜索。现在的语音接口，与电影中描述的场景差距还很明显。

然而，当你徜徉在硅谷，和人们谈及关于语音接口的相关技术，他们的回答如出一辙：现在不同了。

在六月初的一天，语音识别技术公司SoundHound***执行官凯文·莫哈耶尔(Keyvan Mohajer)向我展示了公司耗费近十年时间研发出的应用程序原型。SoundHound此前曾发布了一款应用，可以通过语音识别并搜索流行音乐。当用户对着手机哼唱一首曲子时，该应用可以识别并搜索出所哼唱的曲子名称。事实证明，该应用仅仅是莫哈耶尔梦想的一部分：开发世界上***进的、基于语音的人工智能技术。

莫哈耶尔向我展示的这款应用原型名为Hound。莫哈耶尔手持一款智能手机Nexus 5，点击了一个麦克风图标打开程序，开始向Hound提问。开始只是一些简单的问题，诸如柏林当地时间或是日本的人口，应用程序都给出了正确的答案。随即莫哈耶尔话峰一转，问“那么它们之间的距离是多少?”

Hound通过理解之前的对话，很快给出了答案——“大约5536英里”。

这种问题开始接二连三出现，但Hound都对答如流。莫哈耶尔要求Hound根据要求的利率及条件计算出贷款一百万美元的情况下每月所还按揭，Hound也很快计算出是4270.84美元。

莫哈耶尔又问，“Space Needle所在国首都人口是多少?”

Hound指出莫哈耶尔所问的就是华盛顿的人口，并随即给出了答案。“日本和中国人口都有多少?首都在哪里?它们的国土面积有多少平方英里?有多少平方公里?有多少人住在印度?还有德国、意大利以及法国的区号是多少?”莫哈耶尔问出了一连串的问题，但Hound都作出了正确的回答。

Hound目前还处于测试阶段，但它可能是迄今为止识别速度最快，功能最为强大的语音识别系统。它可以同时进行语音识别以及自然语言处理，符合现在的技术以及市场需求。事实上，各种语音识别系统的飞速发展只是时间问题。

毕竟在当前，语音接口技术的基础技术——卡普兰所称的“门控技术”已经趋于成熟，成本也可接受。这是关于技术融合的经典：计算机处理、语音识别、移动通信、云计算、神经网络等技术的发展都已经成熟，成本也达到可以接受的水平，可以使得会话用户接口市场化。

更进一步，不仅仅是相关技术的成熟推动了会话用户接口的研发，而客观的市场需求也是推动其发展的重要因素。随着越来越多的无显示设备连入网络，诸如你家中的灯具、烟雾报警器，我们也需要一种可行的方式与设备进行交互，这种交互不需要按钮、菜单或是图标。

在另一方面，图形用户界面已经接近其自然限制。程序的功能越来越多，在图形用户界面中充斥的菜单和图标选项也越来越复杂。你可以想象一下Photoshop或者是Excel，功能强大，但有着大量的菜单项，或者需要记住各种快捷键的使用方式。即便是裁剪一张照片也要从各色工具栏中找出正确选项。卡普兰指出，“图形用户界面已经到达极限，现在它已经处于超载的边缘。”

这就是即将到来的虚拟语音助理市场，当你被淹没在纷繁复杂的界面窗口、工具栏以及菜单选项时来拯救你，在你和设备之间建立便捷、高效的联系。

也许目前我们与虚拟语音助理的关系尚不紧密，但很快这一状况就会改病埃今年秋季，随着一批新款智能手机的上市，很快相应的会话用户接口发展也将出现一次飞跃。当你升级到iOS 9、Andriod 6或是Windows 10时，你会发现直接使用内置应用的频率会越来越少，更多的是使用苹果Siri或是谷歌的Google Now以及微软的Cortana。而在不远的将来，数十亿的Facebook用户将可以打开一个聊天窗口，通过智能语音助手调用各项功能。语音接口将不再是辅助的方式，而将成为主流和***选择。甚至于在某些情况下，它将是用户的唯一选择。譬如在苹果的HomeKit系统中，确保一切设备关闭的唯一可行操作就是对苹果的语音助手说“晚安，Siri”。

这些虚拟语音助理研发的初衷是将复杂简单化。对于现在的用户来讲，频繁的下拉菜单操作过于复杂，调用一个功能需要按步骤操作，流程过于繁琐。相比于此，虚拟语音助手清楚手机内每一个程序以及每一项功能，你可以通过说话来调用这些功能。同时随着时间的推移，这种人工智能将知晓一切。

需要指明的是，语音技术并不会完全取代触控屏，甚至是鼠标和键盘。如果你需要使用台式机，肯定会保留这些人机交互方式。虽然更多时间你可能会问虚拟语音助理如何调用功能，譬如“裁剪工具在哪里?”

但是，对于某些特定群体的人来说，会话用户接口技术的发展将会在很大程度上取代其对图形用户界面的使用。诸如一些年轻人都通过麦克风输入文本而不是通过键盘。语音消息应用Cord创始人以及***执行官托马斯格诺(Thomas Gayno)指出，“他们只是不打字。”而对于更大一部分人来说，图形用户界面完全不适合其使用。那些视障者、老年人在图形用户界面前都受到了这种障碍的影响。因此，有些人称现代计算机接口为“直觉”并不十分准确。

克里斯·莫里(Chris Maury)对此深有体会。2010年夏季，这位24岁的企业家在攻读博士学位的过程中辍学转而创业。但长时间的熬夜使得其视力逐步下降，一位医生诊断其患上了斯特格氏症，这种病症会使视力逐步退化甚至完全失明。

作为一名技术人士，莫里不得不考虑如何应对无法看到电脑屏幕的状况。但在整个美国，对于2000万视障人士来说，除了屏幕阅读器别无选择。

要使用屏幕阅读器，用户需要通过键盘移动光标，选中需要阅读的屏幕文字，将其转换成一长串的URL，通过机器语言读出来。这种相关的设备高达数千美元，并且需要几十个小时的培训。随着数字环境越来越复杂，屏幕阅读器的使用越来越不方便。莫里表示，“即便是打开一个谷歌搜索也需要很多步骤，这太可怕了。”

[[185878]]

当莫里视力开始退化时，他经常访问Blind Twitter去了解情况。莫里开始明白视障人士迫切需要一种技术。他意识到语音接口对于某些特定用户更为便捷，而几乎在同一时间，相关的语音技术也风行整个硅谷。

因此，莫里开始着手为视障人士开发相关技术。他创办了一家名为Conversant Labs的公司研发语音接口技术。公司推出的***个产品是一个名为SayShopping的iPhone应用，其可以完全通过语音从Target.com上购买东西。但莫里有更大的想法，公司将于今年年底发布语音接口框架，为iOS的应用开发者提供会话接口。莫里还希望能够开发一款完全基于语音技术的计算机应用环境，同时也可通过头部运动来下达指令。莫里指出，“这些实现都是有可能的，只是需要创建。”

2014年秋季，亚马逊发布来名为Echo的新产品，这款智能控制设备内置了名为Alexa的虚拟语音助理，其广告语是“唤醒话语”。Echo采用了远场语音识别技术，甚至在嘈杂房间也可准确识别话语。此外它还具有监听功能，你可以在家中随时和其对话。

当我开始使用Alexa时，它可以告诉我天气，回答基本的问题，在智能手机上显示购物清单或者是播放音乐，并没有过多特别之处。但是随着时间推移，Alexa更聪明也更完善，它熟悉我的声音、会开玩笑、能同时运行多个计时器。测试版发布七个月后，2015年其公开版最终上线，Alexa的可用性越来越强。我了解了它，而它也在了解我。

这也是关于会话科技的深层次道理：你只有在与语音助理的深入交互中才会发现其功能。同行业的诸多公司都认识到这一点，都在努力使其语音助手达到个性化和适应性的平衡，使他们更加讨人喜欢，易于接受。譬如微软在开发语音助手Cortana时，其名称取材自游戏《光晕(Halo)》中的重要角色。Cortana工程团队主管Mike Calcagno表示，“Cortana代表了机智和坚韧”。的确，在产品早期即便其可靠性低，益处少，也会引起人们注意。

这种方式也有策略方面的考量。在微软、Nuance等公司的研究中，当语音助理无处不在、当它了解你的习惯你的环境、了解你的喜好你的生活时，它就是不可或缺的存在。通过这种人工智能控制所有应用程序和设备的方式自然也就成为必然。

为此，无论是亚马逊、谷歌、微软，还是Nuance或者SoundHound，都在致力于会话平台技术的研发。这些公司清楚，用户会选择最了解他们的语音助理。让我们做好迎接虚拟语音助理的准备。更重要的是，一旦选择了其中之一，你就不会再轻易放手。

语音接口 我们已站到下一个交互时代的边缘

语音接口我们已站到下一个交互时代的边缘