百度发布DeepVoice最终版:模仿万人、半小时学会一种口音

新闻 深度学习
搜索巨头百度推出了一个名叫 DeepVoice 的全新人工智能系统,借助热门的深度学习技术,它能够实现文本到语音(TTS)的转换。

今年早些时候,搜索巨头百度推出了一个名叫 DeepVoice 的全新人工智能系统,借助热门的深度学习技术,它能够实现文本到语音(TTS)的转换。初版 DeepVoice 可以产生较短的语句,不仔细听还以为是个真人在说话。该系统还可以每次学习一种声音,在数小时后即可掌握。而今年 5 月份推出 DeepVoice 2,可以在一小时内模仿出一种口音,单系统就可以学习数百种不同的口音。 

20170526101712551.png

现在,百度推出了 DeepVoice 的“最终版”,声称可以在每半个小时内完成对 10000 种语音的数据学习。这种高效生成各种各样声音的技术,为许多用例打开了大门。

例如,在有声书或视频游戏中,每个角色都可以有自己独特的声音,以获得更强的用户体验。不过与真人配音相比,百度 DeepVoice 产出的口音,其合成感还是很明显的。

对此,百度表示这并不是他们的目标:“如果只生成一两种口音的话,我们的系统早已证实能够合成相当自然的、接近真人的口音,且可以轻易将它用作数字助理”。

Deep Voice 3 架构图

百度所要尝试的,是制造出一种能够掌握多种口音或字符间细微差别的系统:

这只是最初的工作,展示了可伸缩的可能性。我们的系统成功地量训练扩大了一个规模,此前发表的 TTS 模型中尚未达到过。

我们相信,通过使用大型高质量数据集、和额外的机器学习工程训练,其质量可在不久的将来大幅提升。

需要指出的是,百度并不是唯一一家从事计算机语音合成工作的搜索巨头,Google 旗下的 DeepMind 部门也一直在进行一个名叫 WaveNet 的类似项目。

在最新的版本中,WaveNet 已经能够在掌握口音方面做到更好,甚至像真人那样产生“唇音”。现在,它已经被用到了英语和日语版本的 Google Assistant 上。

[编译自:TheVerge , 来源:百度研究院]

责任编辑:张燕妮 来源: cnBeta
相关推荐

2012-05-28 09:30:43

JavaJFile

2009-09-28 15:28:07

Jython 2.5.

2011-12-31 10:31:06

Linux Deepi

2009-05-13 10:02:37

Tapestry 5.servletApache

2011-04-27 08:50:33

ExtJS

2022-04-22 19:14:51

LinuxUbuntu

2010-06-01 09:03:58

2012-07-20 11:05:34

Android 4.1SDKADT Plugin

2024-05-21 22:18:30

2013-09-12 14:26:47

百度云网盘

2009-05-30 10:11:08

微软Silverlight浏览器

2015-10-28 13:13:41

2012-10-19 09:47:30

百度云百度音乐云计算

2018-01-09 14:59:30

2010-11-03 09:18:03

Zend Studio

2015-09-02 11:25:31

Ubuntu下载

2021-08-18 16:40:54

百度人工智能

2011-10-31 14:19:10

Fedora 16

2018-10-19 10:05:14

区块链百度百度搜索

2011-04-20 10:21:41

苹果打印iPrint
点赞
收藏

51CTO技术栈公众号