达摩院公布语音AI新进展:移动端也能实现逼近真人的语音交互体验

人工智能
9月18日,在2020云栖大会上,达摩院公布了语音AI技术的最新突破:端上语音识别和语音合成能力首次达到媲美云端的水平,这意味着未来个人用户在移动终端即可轻松体验逼近真人的语音技术。据介绍,达摩院最新的语音技术已在淘宝直播、钉钉会议、高德导航等场景大规模应用,正全面对外开放。

 9月18日,在2020云栖大会上,达摩院公布了语音AI技术的最新突破:端上语音识别和语音合成能力首次达到媲美云端的水平,这意味着未来个人用户在移动终端即可轻松体验逼近真人的语音技术。据介绍,达摩院最新的语音技术已在淘宝直播、钉钉会议、高德导航等场景大规模应用,正全面对外开放。

语音AI的核心是让机器听懂人话、并能开口说话,语音合成和语音识别技术是实现这些目标的基础。但由于过去几年业界在语音模型上未能有突破性创新,高精度的语音交互任务长期依赖云端算力,造成了语音指令处理不可避免的延时等问题。

此次达摩院率先在算法模型上实现创新,推出E2E-ASR端到端语音识别技术及全新的端上KAN-TTS语音合成技术,首次在移动终端上实现接近云端的语音识别与合成效果。

据介绍,在语音识别方面,达摩院提出SAN-M网络结构及基于SCAMA的流式端到端语音识别框架,提升计算效率的同时,还将高难度场景中的语音识别错误率降低近三成。达摩院研发的语音识别系统,可纯离线、低成本部署在手机端,原型系统不到40MB,识别效果媲美超过100GB的达摩院上一代DFSMN-CTC云端系统。

继去年发布仿真率可达97%的自研KAN-TTS语音合成模型后,达摩院此次在移动端实现了对语音模型的“大瘦身”,相比云端,端上模型大小压缩了101倍,计算量压缩35倍,通过终端算力即可快速复现逼近真人的语音。例如,高德地图近期发布了利用达摩院全新语音技术合成的李佳琦、林志玲、小团团等明星导航语音包,语音效果较之前更自然,断网状态下语音导航也不会中断。

 

达摩院语音实验室负责人鄢志杰表示,“在终端处理语音任务一直是学术界和工业界的难题,达摩院最新的语音技术有效释放了终端设备的能力,让终端也能轻松处理语音任务,我们相信,在终端算力和云端算力的协同支撑下,未来语音交互将无处不在。”

过去几年,阿里语音AI取得了一系列突破。2019年,阿里语音AI入选《麻省理工评论》“全球十大突破性技术”,是唯一上榜的中国科技公司;今年7月IDC发布的《中国AI云服务市场半年度研究报告》显示,阿里语音AI以44%的市场份额,在云上语音AI市场中位居第一。

 

责任编辑:武晓燕 来源: 51CTO
相关推荐

2022-03-02 09:53:51

微软FlutterEngine PR

2018-06-07 16:00:28

阿里巴巴语音识别开源

2012-05-11 13:34:01

移动通信GSM亚洲移动通信博览会

2017-02-22 18:15:31

AI谷歌

2023-07-17 10:21:25

TC39JavaScript

2011-03-15 10:13:01

webOSTouchPad惠普

2021-09-14 10:03:35

RustLinux开发工作

2020-07-02 16:00:53

​Flutter桌面应用代码

2012-11-19 10:50:39

思杰CloudStack开源

2012-11-19 10:37:57

思杰OpenStack

2015-11-12 09:27:13

C++最新进展

2009-09-25 09:27:33

Ubuntu 2010最新进展Lucid Lynx

2009-07-01 08:09:23

开服时间魔兽世界

2021-09-16 10:15:56

Linux内核Rust

2018-07-23 15:26:02

Java框架应用程序

2019-11-15 10:11:03

人工智能埃博拉技术

2021-11-12 20:59:21

数字人民币数字货币区块链

2017-02-17 13:38:40

点赞
收藏

51CTO技术栈公众号