语音合成模型Uni-TTS升级:一音色多语言,高保真高效率

人工智能 语音识别
日前,微软发布最新 Azure 神经网络语音合成技术Uni-TTSv3多语言语音合成模型。与上一代语音合成模型相比,Uni-TTSv3语音合成保真度更高、速度更快、训练时间更短,更降本增效。

   日前,微软发布最新 Azure 神经网络语音合成技术Uni-TTSv3多语言语音合成模型。与上一代语音合成模型相比,Uni-TTSv3语音合成保真度更高、速度更快、训练时间更短,更降本增效。借助Uni-TTSv3,微软升级美语合成女声 Jenny。全新升级的Jenny Multilingual Neural,拥有跨语言能力,支持14个国家和地区的语言。此外,基于Uni-TTSv3而构建的深度神经网络定制语音服务,也扩展了跨语言定制服务功能,客户只需提供一个语言的录音数据作为语料,即可训练定制模型同时说多个语言。

  Jenny Multilingual Neural音频示例

  随着技术不断迭代,微软智能语音性能已能媲美真人,并支持超过110个国家和地区的语言,提供超过270个神经网络声音。为进一步拓宽语音使用场景,满足各行业客户的多元化需求,微软智能语音也在不断探索新的服务和能力:

  l 跨语种语音技术需求:仅用一个音色就能生成同时覆盖全球用户的多语言应用需求,譬如在虚拟游戏中创建具有多语言能力的 NPC (Non-Player Character ,非玩家角色),在智能客服等场景中使用多种语言与用户交谈,提升用户体验。

  l 稳定高效的平台需求:使语音模型更加鲁棒(robust,系统稳定性),即使在定制服务场景中,也可以不受外界环境影响,稳定、高效的处理不同类型的训练数据。

  新一代神经网络语音合成技术Uni-TTSv3的提出,旨在解决上述诉求并完善如下功能:

  保真度高

  Uni-TTSv3是非自回归语音合成模型,基于FastSpeech 2(快速高质量语音合成模型) 构建,通过直接使用真实语音进行训练,并引入更多有关语速、语调、重音模式等语音变化信息,提高合成语音质量。经行业公认的、专业评估语音自然度的 MOS(Mean Opinion Score平均意见评分)评测结果显示,智能合成女声Jenny Multilingual Neural 的各语种语音平均评分达到 4.2 分以上(总分5分),语音保真度高。

Uni-TTSv3模型结构图

  多语言通用

  Uni-TTSv3是强大的多语言语音模型,在多语言和多说话人数据集上训练。Uni-TTSv3通过训练来自50多个不同地域和口音的发音人在不同场景下录制的超过 3,000个小时的语音数据,构建多语言通用基础语音模型,确保 AI 语音在语速、语调和重音模式等不变的情况下演绎多国语言。

  训练时间更短

  Uni-TTSv3授权 Azure 语音合成平台和自定义神经语音支持多语种语音。借助Uni-TTSv3升级自定义神经语音训练管道,支持客户用更短的训练时间创建高质量的语音模型。与上一代语音合成模型相比,Uni-TTSv3调优过程简单,尤其在声学训练部分, 训练时间显著减少 50% 左右,更加降本增效。

Uni-TTSv3 模型训练示意图

  想即刻试用体验Uni-TTSv3多语言语音合成模型吗?想使用微软 Azure 有声内容制作平台制作高质量合成语音吗?请点此立即试用吧!

责任编辑:张洁 来源: 互联网
相关推荐

2023-08-09 09:36:04

Azure AI微软

2014-04-16 14:50:20

Spark

2024-03-04 14:15:16

OpenAI语言嵌入模型

2021-04-14 14:50:27

计算机模型 技术

2012-04-19 11:40:21

Titanium

2011-08-05 17:54:33

Cocoa Touch 多语言

2014-07-09 09:20:06

WPFWPF应用

2009-08-25 10:44:50

C#实现多语言

2023-04-14 14:02:40

视觉AI

2024-05-09 08:14:09

系统设计语言多语言

2022-08-09 07:22:15

语言数据库程序

2013-07-04 10:54:27

Windows 8.1系统升级

2023-05-23 14:14:14

技术模型

2023-01-09 13:18:59

AI

2009-11-09 15:55:41

2023-08-04 10:18:15

2021-09-07 10:17:35

iOS多语言适配设计

2021-06-29 21:48:32

开源语言架构

2021-05-12 07:55:02

.Net语言配置
点赞
收藏

51CTO技术栈公众号