云知声梁家恩:智能语音需攻克的难点在哪?

原创
网络 通信技术
由51CTO主办的WOTI全球创新技术峰会将在北京富力万丽酒店隆重举行。本次峰会将围绕机器学习、人机交互和智+应用三个大主题展开,数十位专家级嘉宾将带来多场精彩的技术内容分享。

【51CTO.com原创稿件】 智能语音技术包括语音降噪、语音识别、声纹识别、语义理解、对话管理、语音合成等技术,将在物联网新一代交互中占据重要地位,构建出更加丰富和自然的智能产品应用体验的基础。国内智能语音的高速发展,离不开互联网的强势推动。云知声作为国内智能语音创业企业的代表,自2012年创立以来一直受到业界关注。在2017WOTI全球创新技术峰会前夕,51CTO编辑致电访问云知声创始人梁家恩先生,针对智能语音技术在国内的发展现状,以及云知声的经营之道进行深入沟通。
 

[[197415]]
云知声CTO梁家恩


梁家恩,云知声CTO.2001年毕业于中国科技大学,2006年毕业于中国科学院自动化研究所,获博士学位,并留所负责语音技术创新和产业化;2011年加入盛大语音创新院任高级研究员;2012年创立云知声;WOTI2017全球创新技术峰会分享嘉宾。

智能语音技术在物联网中的应用

智能语音的应用从初期的手机助手形态(语音拨号、语音导航、语音搜索、语音听写等),发展到今天软硬一体的远讲降噪、语音唤醒、声纹识别、语用计算、流式交互等等。

不同于传统语音技术厂商和大型互联网企业,云知声凭借自身的技术研发优势和新兴物联网市场定位迅速占领了市场。据梁家恩先生介绍,云知声以智能语音交互技术起家,2014年开始布局物联网产业化战略,现已搭建起面向物联网的"云-端-芯"一体化智能语音交互解决方案。在应用方面,智能语音交互方案在智能家居、医疗、车载、教育等方面有很多令人看好的落地成果,在行业内处于领先地位。

云知声切入物联网应用,最早是从乐视超级电视合作开始的,当时实现了LeTV的智能语音控制和音视频资源搜索。2014年,很多家电厂商也开始寻求家电产品智能化方案,空调是相对比较刚需的,远讲语音控制成为替代传统遥控器的主要切入点。目前在空调方面,云知声和美的、格力、长虹等都进行了合作,实现了智能空调的远讲语音控制的规模化量产。此外,智能音箱也是近几年的热点,云知声在今年6月的五周年发布会上,也推出了支持流式交互的智能音箱解决方案--Pandora。
 


智能语音技术主要面临的挑战

从当前的语音识别技术发展看来,基础理论和技术框架已经基本成熟,目前主要是基于深度神经网络的识别架构,再加上大规模的真实数据训练。目前在手机端的近讲语音识别错误率可以做到3%以内,在电话语音识别错误率可以做到6%以内,基本上接近或超过人工识别的水平。语义理解和知识图谱等认知技术,目前还没有形成通用的技术框架,主要是针对具体垂直领域进行优化,这部分有待突破性进展。

目前语音交互技术面临最大的挑战还是来自产业应用层面:

首先是针对专业领域的优化,比如在医疗领域,通常专用词汇比较多,让我们普通人去听的时候可能都写不下来,只有经过专业训练的医生和护士才能准确记录;影视节目查询、商品搜索、路径导航等方面也同样需要做针对性的优化。

其次是相对复杂的口音和噪声环境,包括全国各地的口音和方言、远讲、噪声、混响等,都是比较复杂的。声音传播能量是随距离平方成反比关系的,传播距离增加一倍能量就衰减到四分之一,在五米外采集的语音能量,和在一米采集能量相比就相差25倍,但噪声并没有因为距离而降低,加上距离远之后,房间会出现多次反射和叠加,还会形成混响效果,信噪比会下降很多,都会对识别效果造成影响,这些是需要麦克风阵列结合语音声学模型去解决的问题。

第三是低功耗、低成本、高可靠的问题,智能家电需要满足绿色环保标准,需要确保24小时误唤醒低于1次,尽量不出现误操作,要实现大规模量产出货,还要降低整体方案的成本。面向物联网的智能语音交互方案,如果功耗成本下不来就不能普及,智能手表、手环等依赖电池的穿戴设备,功耗和成本问题就更加严重。

最后是语音交互设计问题,这是语音技术产品化的重中之重,现在的物联网设备,大到汽车、空调、机器人,小到玩具、穿戴设备等,有大有小、有带屏幕和不带屏幕、涉及不同的应用领域,交互方式差异非常大,需要针对性优化语义理解和知识图谱。

语音交互是未来物联网的重要交互手段,这是我们为什么把物联网列为语音技术落地主战场的原因。有了智能语音交互基础之后,我们还要做好精准和个性化的内容和服务,这才是用户真正想要的。

改变用户的使用方式

在智能语音最早进入市场时,用户会觉得比较新奇,当时用户是需要对着话筒,在近讲和安静情况下比较配合才能使用(最初还需要用户先念一段话来训练模型),所以大家觉得语音识别和人工智能技术不靠谱。最近这几年,随着深度学习技术和大数据的发展,智能语音技术的进步已经超出了很多用户的想象,用户可以无需预先训练,在真实应用场景下实现相对自然的语音交互。现阶段用户对语音交互的接受度在逐步提升,随着语音应用和服务的日臻完善,让用户会逐渐形成习惯,越来越接受这种交互方式,机器则可以通过后台数据的不断快速迭代提高精度,用户就越来越喜欢用。

云知声核心技术团队来自国内外知名企业、高校和研究所,创始团队80%以上拥有博士学位,并具有超过十年的语音识别研发和应用实战经验。核心团队的稳定、决心和专注,对技术和产业相对独立的判断和规划,这一切都是云知声对智能语音技术产业化愿景的有力支撑。在未来五年,云知声将会继续给业内带来比现在要成熟和丰富得多技术创新和产业应用。

2017年7月21日-22日,由51CTO主办的WOTI全球创新技术峰会将在北京富力万丽酒店隆重举行。本次峰会将围绕机器学习、人机交互和智+应用三个大主题展开,数十位专家级嘉宾将带来多场精彩的技术内容分享。届时,梁家恩先生将在巅峰论坛主会场与来宾分享"智能交互技术与物联网应用"主题演讲。51CTO诚邀您莅临大会,与我们共享技术带来的喜悦。

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

责任编辑:刘妮娜 来源: 51CTO
相关推荐

2017-07-21 11:29:00

2014-04-14 11:40:47

云知声语音

2015-07-03 11:19:43

火车WiFi

2019-03-27 16:17:33

云知声 AI 硬核

2014-06-12 17:40:03

世界杯

2017-03-17 19:54:51

人脸识别

2014-07-02 15:08:36

云知声

2014-04-22 09:52:13

云计算PaaS大数据

2023-07-07 15:11:51

智慧城市智能电网

2023-05-24 20:23:50

云知声AGI大模型

2015-10-14 08:58:07

2012-06-29 17:22:59

云电视

2023-09-12 11:38:18

点赞
收藏

51CTO技术栈公众号