语音识别：对未来人机交互的颠覆与改变-智能语音人机交互

想象一下，当你驾驶一辆奥迪A8L行驶在路上，只需说出几个简单的词语，便可获得旅途所需的一切，车载MMI 人机交互系统可智能识别语音指令，轻松控制导航，语音通话，娱乐系统等各项功能，汽车也仿佛不再是冰冷的交通工具，而变得更有智慧。电子设备从过去的智能工具，开始成为与人交互的“伙伴”。

语音识别正以磅礴之势占据着一个时代的智能高点。美国谷歌公司发布的一项调查报告显示，13岁到18岁之间的青少年中，每天都要使用语音搜索的人数比率约55%，尤其是在每天使用智能手机时间在11小时以上的青少年用户中，比率激增至75%;而在成年人中，约有56%的人表示使用语音搜索会令他们感觉自己很懂技术。谷歌传统搜索副总裁斯科特?霍夫曼如此感言：对年轻人而言，使用语音搜索犹如应用社交媒体一样自然，并且会找到很多创新的使用方法。

随着大数据、机器学习、云计算、人工智能等技术的发展，语音识别在一步步解放用户的双手，语音输入框也大有取代鼠标、键盘之势。伴随着智能移动设备的普及，语音交互作为一种新型的人机交互方式，正越来越引起整个IT业界的重视。

业内机构预计，整个人工智能市场可在2018年达到1800亿美元的水平，其中的语音识别市场将占到整个大蛋糕中极有分量的一大块。2015年，全球语音识别市场规模约为61.9亿美元，预计到2020年可以接近200亿美元。

让智能语音如何从“听到”，进化到“听懂”，实现语音服务的通用化，更多服务于现实生活场景，更好地普惠于移动互联网用户，尽管仍有障碍亟待逾越，但这必将是规模工业化的重点突破方向。

在智能语音专家贾磊看来，剥离了诸多衍生服务、仅集中于语音技术的时代已经过去了，未来的规模工业化发展趋势已然显现，下一阶段的变革之旅正在开启。

互联网的“语音”入口

2016年年初，美国麻省理工学院(MIT)主办的知名科技期刊《麻省理工科技评论》，评选出了“2016年十大突破技术”，语音识别位列第三项，与其他技术一起“到达一个里程碑式的阶段或即将到达这一阶段。”

语音识别技术，也被称为自动语音识别，其目标是将人类语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。语音识别的目的就是让机器赋予人的听觉特性，听懂人说什么，并做出相应的动作。

与计算机进行语音交流，并让其明白用户在说什么，这是人们长期以来梦寐以求的事情。深度学习、人工神经网络等技术的发展，让这一梦想照进现实。百度语音前首席架构师贾磊预测，语音识别技术将在语音搜索领域、O2O领域、传媒信息等领域发挥巨大作用。

作为人工智能界的技术大咖，贾磊的“技术路线”着实是一条“语音路”。

1993年，贾磊保送进入西北工业大学教育改革班学习，大学期间他就对数学、计算机和声音信号处理技术产生了浓厚的兴趣。此后的20多年，贾磊一路与“语音”结缘。

2003年，在中科院拿到博士学位的贾磊加入松下中国研究开发有限公司，在工业界从事语音技术相关的研究工作，其间成功研发了手机上的英语、日语和汉语的人命数字拨号系统;两年后，贾磊离开松下，加入IBM中国研究院。在IBM工作期间，贾磊和IBM美国研究部门的同事一起构建了汉语广播识别系统。

2006年初，贾磊回到松下中国研究开发有限公司，担任松下语音技术部的高级经理，承担整合松下内部语音技术的工作，并领导松下中国部门，研发了日语汽车导航系统产品原型;四年后，贾磊回到中科院自动化研究所，主导了中科院自动化所的第一版本的云计算条件下的机器翻译系统构建工作。

2011年6月，贾磊加入百度，开始担任百度语音技术部负责人、首席研究员，负责百度语音技术的核心技术研发和互联网产业化工作。短短的6个月内，贾磊带领技术团队，实现了百度完全自主研发的语音搜索系统上线。此后，贾磊的技术团队又备受瞩目地相继完成了手机语音输入法系统、智能语音手机助手等系统的研发与上线。

2015年年底，伴随着“大众创业、万众创新”的热潮，贾磊离开百度，投身到与人工智能相关的创业领域中。“高技术人才创业是为国家作贡献的另一种方式，美国硅谷的很多公司都是从创业中诞生的，比如微软、谷歌，都是从最初的创业公司最终成长为行业巨头。”贾磊如此描述自己的创业，“在以后的人工智能时代，人类的很多活动或许会被机器替代，但置身这个行业的工作人员，一定要精准掌握制造机器、提升机器的方法。”

[[185870]]

语音识别可规模工业化的未来

过去的20多年，语音识别技术与贾磊们的“技术脑”共同进行着自我进化，而这种进化，也在潜移默化地改变着互联网、尤其是移动互联网的形态。

微软研究院首席研究员俞栋认为，在很多应用场合，语音识别成为一个入口，如果没有这个入口，大家都会觉得智能机器不够智能，或者用户会觉得与智能机器交互有困难。

新兴的万物互联时代需要新的交互方式，人们将开始从智能手机的触摸模式转向智能家居所必需的远场语音交互，这样的交互离不开智能语音语言技术作为支撑。阿里云iDST技术总监初敏认为，语音交互将会成为数据智能的第一个爆发点，“下一轮的入口之争将再次出现”。

从互联网诞生之日起，搜索框便成为人们进入互联网的重要入口，但语音识别一经出现，搜索框的地位受到动摇，在未来或将逐步被取代。微软雷德蒙德研究院副院长杜麦斯认为，深度学习技术将助力2017年的网络搜索结果，到2027年，搜索框将消失，被无所不在、嵌入式以及具备语境感知能力的搜索取代。

如今，这种“取代”已经开始萌发。11月底，搜狗、百度和科大讯飞三家公司接连召开了三场发布会，向外界展示了自己在语音识别和机器翻译等方面的最新进展，三家公司均宣布的旗下语音识别系统正确率已达到97%左右，同时有不少智能语音产品支持不同地区的方言识别。

此前，百度研发出了基于多层单向LSTM(长短时记忆模型)的汉语声韵母整体建模技术，并成功把连接时序分类(CTC)训练技术嵌入到语音识别传统技术建模框架中。该技术能够使机器的语音识别相对错误率降低15%，使安静环境下的普通话语音识别的准确率接近97%，未来将大规模应用在百度语音搜索等产品上。

贾磊表示，语音识别技术特别适合于语音识别大规模工业化，“因为这个技术应用点很多，它不但是解码速度快，而且对口音、对远场都有一定的作用，有口音的人识别率会改善很多，距离较远的时候识别率也会改善很多。”

业内人士判断，作为信息技术的重要组成部分，向更聪慧的水平进化的智能语音技术，将在人工智能、移动互联网、智能终端、智能家居、可穿戴设备等领域日益深入运用，并将在更多垂直行业深入发展，带动智能语音以及相关产业的发展，形成新的业态、新的增长点。

一甲子打磨“语音”利剑

如今的语音识别有多聪明?百度首席科学家吴恩达认为，目前的语音识别已经超过了正常人的语音识别能力。以情感合成为例，基于深度学习和大数据处理技术的语音识别，在数据采集、处理、建模等环节完成了一系列创新，可以实现更富有表现力的自然朗读效果。

在普通公众的眼里，语音识别似乎是一项横空出世的新技术，据 TechCrunch 统计，仅美国至少就有26家公司在开发语音识别技术。但在科学家与工业界人士看来，语音识别并不是一个新兴的行业。

早在1952年，美国贝尔实验室的Davis等人就研制了世界上第一个能识别10个英文数字发音的实验系统。1960年，英国的Denes等人研制了第一个计算机语音识别系统。发展至今，语音识别技术早已走过了一甲子的历程。

上世纪50年代，科学家们认为要让计算机实现语音识别这类只有人才能做的事情，必须先让其理解自然语言。这使得人类探索语音识别的路线，局限在用电脑模拟人脑上，即让计算机学习人类学习语言的方式。在这一思路的指引下，此后的20年，科学界在语音识别领域鲜有科研成果出现。

直到1970年后，统计语言学的出现让语音识别重获新生。推动这个技术路线转变的关键人物是现代语音识别和自然语言处理研究的先驱、美国工程院院士德里克·贾里尼克和他领导的IBM华生实验室。IBM采用统计的方法，将当时的语音识别率从70%提升到90%，同时语音识别的规模从几百单词上升到几万单词。这使得语音识别有了从实验室走向实际应用的可能。

此后，随着研究思路的变化，大规模的语音识别研究得以实现，科学家们在小词汇量、孤立词的识别研究方面取得了实质性的进展。20世纪80年代以后，语音识别研究的重点则逐渐转向大词汇量、非特定人连续语音识别。

20世纪90年代以后，科学界在语音识别的系统框架方面并没有什么重大突破，但在语音识别技术的应用及产品化方面出现了很大的进展。始于20世纪70年代的DARPA系统，是由美国国防部远景研究计划局资助的一项计划，旨在支持语言理解系统的研究开发工作，进入90年代， DARPA计划仍在持续进行中，其研究重点已转向识别装置中的自然语言处理部分，识别任务设定为“航空旅行信息检索”。

在这个时期，英国剑桥大学的HTK系统对语音识别贡献巨大，为很多从事语音识别的研究单位提供了结构完整、全面的一套软件基线系统。从此，语音识别研究的门槛大大降低，从而更加有效地推动了语音识别技术的快速发展和相互交流。

90年代以后直到现在，计算机界对于语音识别的研究逐渐地由朗读式语音转移到了现实生活中“真实对话语音”。进入21世纪，互联网得到普及，移动互联网技术也得到了快速发展，手机上网速度越来越快，这给语音识别技术的发展和应用带来了新的平台;硬件设备越来越廉价以及云计算技术的出现，也大大推动了语音识别的研究和应用。

中国的语音识别研究起始于1958年，由中国科学院声学研究所利用电子管电路识别10个元音，但此后，中国的语音识别研究工作一直处于缓慢发展阶段。直至1973年，中国科学院声学研究所开始了计算机语音识别。

进入80年代以来，随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展，国内许多单位具备了研究语音技术的基本条件。与此同时，国际上语音识别技术在经过多年的沉寂之后重又成为研究热点。在这种形式下，国内许多单位纷纷投入到这项研究中去。

2011年深度学习技术引入语音识别领域，推进整个工业界的人工智能技术应用进入深度学习时代。随后的几年里，CNN(卷积神经网络)、LSTM(长短时记忆模型)、CNN混合LSTM的建模技术在语音识别工业产品中不断涌现，并持续提升语音识别产品效果。

[[185871]]

技术难关有待突破

2016年6月2日，被誉为“互联网女王”的玛丽·米克尔(Mary Meeker)发布了2016年《互联网趋势报告》。报告认为，语音是最有效的计算输入形式，将成为人机交互的新范式。相比打字，语音交互的优势明显，既简单又方便，一个麦克风即可解决，尤其适合物联网的场景。

然而，任何一项新技术研发，都避免不了需要逾越和突破更多的障碍。早在2008年，比尔·盖茨就在多个场合预测“今后5年内，互联网搜索将更多地通过语音来完成”。到如今，语音搜索方兴未艾，但远没实现比尔·盖茨的猜想。玛丽·米克尔预测，未来的计算界面将从键盘进化成麦克风及键盘，“不过现在才刚刚上路”。

贾磊认为，目前语音识别技术遇到的主要难度，是对口音、噪音、远场的识别。其中基于深度学习的个性化识别，是未来语音识别技术全面普及与应用的重大挑战。

如今在多个大型科技会议现场，主办方都会安排尝试各家公司研发的语音速录系统，这大有取代传统的实时速录员之势。起初，这一高效、吸引眼球的技术着实让人们眼前一亮，但一旦会场中的演讲者带有口音，语音速录系统便频频犯错，即使有技术人员现场实时调试，也常常另其呈现在会场大屏幕上的文字语法不通、不知所云。

贾磊认为，人的口音千差万别，不可能有一个语音识别器识别所有的声音，一定要实现个性化。而这种基于深度学习的个性化识别，一定需要海量的存储空间和很大的数据吞吐传输能力，而这只有具备大数据和云计算这种服务能力的公司能够提供。

语音识别历来是人工智能和机器学习中的十大经典难题之一，该技术面临着说话人、环境、设备三方面的不确定性难点。

说话人常常来自不同的方言区、有不同的口音，说话时又有不同的方式、运用不同的情感，目前的语音识别往往难以完美识别。此外，真实的语言环境是非常复杂的，会被各种各样的噪声环绕，包括汽车喇叭声、飞机的噪声、马路上人的声音，还有一些会场的回声;而发言者使用的设备也是五花八门，除了自然发声，人们可以用手持麦克风、领夹麦克风、耳戴麦克风、近场远场的麦克风等。

在真实的应用场景下，说话人、环境、设备三个因素叠加在一起，使语音识别的应用场景更加复杂。如何处理这些不确定性，成为摆在研发人员面前的一项重大挑战。

口语化的识别需要训练语料，口音的有利信息归根结底需要大量的口音的数据才能解决。“未来会出现更大规模的语料库，要训练更大规模的语音识别系统。”贾磊认为，多种数据源的混合训练仍然是解决口音、噪音和远场问题的必要手段。

从严格意义上，目前的语音识别系统，显然还难堪完美。峰瑞资本早期项目负责人朱祎舟认为，尽管各家科技公司根据实验数据得出的语音识别准确率达到95%甚至更高，但在实际使用时并没有那么高。

阿里云智能语音技术总监鄢志杰也认为，“夸张”的准确率只可能在非常受限的场景下获得，“如果在一个热烈讨论的会议室，掏出手机做会议记录，别说97%，断断续续勉强看懂就不错了”。

“语音识别的准确率远没有新闻标题上宣传的那么高，脱离现实场景去谈准确率统统都是耍流氓。”鄢志杰认为，智能语音行业应该更严肃去思考，在学术研究上到底取得了哪些实质性的进展，应用上到底在哪些方面实实在在帮助到大众。

从“听到”到“听懂”的进化变革

语音识别、语音搜索，已然成为了移动互联网时代的“刚需”。互联网带来的用户体验却并非人人平等，在互联网用户中，仍然有相当一部分人无法畅享互联网。他们因为技术水平的差异，无法利用电脑和手机，通过“精确的文字”与互联网时代的产物发生“联动”。比如让年迈的父母重新去学习“打字”，着实不易。

智能语音很可能让以往的不平等体验趋回平衡。如今，智能客服与智能助理等已经成为互联网上的典型应用场景。接电话的客服人员，可能要渐次被人工智能和机器人替代，不少科技公司已经使用了语音自动转接、情感识别与关键词识别、语音识别和关键信息提取，还有自动化的全量检验;而智能助理则可以采用对话的声控方式，帮助用户找餐馆、安排行程、点歌、导航、找菜谱等。

为了利用语音交互的新颖和便利模式迅速占领客户群，互联网公司纷纷投入人力、物力和财力展开语音识别的研究和应用，但如果让语音识别更好地服务于诸多的真实生活场景中，显然还有长路要走。

贾磊认为，想解决口音、噪音的问题，语音识别系统的训练数据还会继续加大，现在几万个小时训练数据是工业现状，在不久的未来一定能达到十万小时。如果出现这么大的计算量，对计算能力的需求会更加强烈，“大数据和高性能计算，是语音识别发展到目前最明显和清晰的趋势”。

“语音识别正处于产业化爆发的边缘，但机器计算成本是一个很大的瓶颈。如果线上50%的搜索都由语音完成，而计算成本还和过去一样，那么没有公司能承担得起。”贾磊表示，语音服务要想大规模普及、服务大众，必须降低后台服务器开销。

在贾磊看来，作为明显的行业趋势，语音识别技术会和语意理解、交互技术等形成一整套语音的解决方案。

让人工智能系统根据自己被告知的内容回答问题或采取行动，真正的难度在于语义识别。目前的语音识别技术，只是把“听到”的语音高正确率转化成文字，这对于未来的需求还远远不够。从“听到”，到“听懂”，尽管一字之差，却考验重重。

如果让语音识别系统变得更加聪慧，其突破依赖于计算机硬件的进步。近几年计算机飞速的发展，特别是通用计算的发展，使人类有了强大的计算能力，使得一些过去不可能实现的人工智能算法成为可能，但如果要实现语音服务的通用化，计算能力还有提升空间。

更重要的是，人使用语音识别的目的，不只是把语音转成文字，而是使用语音去进行交互，并获得其所需的服务结果。贾磊认为，“这是未来的工业发展趋势，单纯地脱离了服务、脱离了平台、脱离了计算能力去做语音技术的时代已经过去了”。

语音识别虽然为现代生活带来了各种便捷，但距离真正实现精确无误，自主思考，显然还有很长一段路要走，只有研究者们不断执着进取，突破藩篱，才能为语音识别技术的未来带来真正的颠覆与改变。