近期,微软发布了最新中文晓晓语音升级,中文晓晓新增了 10 种风格。升级后的该语音模型风格多达 14 种,处于行业领先水平。新增风格分别是适用于聊天(Chat)场景的语音,还有平静(Calm)、开心(cheerful)、悲伤(Sad)、愤怒(Angry)、 恐惧(Fearful)、 不满(Disgruntled)、 严厉(Serious)、撒娇(Affectionate)、温柔(Gentle)等。此次,微软升级的多情感技术,极大丰富了听众的收听体验,尤其在长文本收听过程中,可以很大程度缓解听觉疲劳,提升收听舒适度。
升级前微软中文晓晓语音拥有 4 种不同风格,分别是新闻(newscast)、客服(customer service)、助理(assistant)、抒情(lyrical),升级后支持多达 14 种不同风格,能在丰富的情绪和场景中自由转换,比如多情感有声读物、新闻、客服、助理、聊天等。可以满足不同领域客户的多样化定制需求。
微软发布的智能语音合成技术通过应用语音表现力迁移技术,仅利用少量表现力语料数据,便可以训练出具有高质量、高自然度表现力语音生成能力的源模型。该源模型通过对人类语音表现力特征的深入挖掘,获取了稳定性高,适应性强的语音情感表征,极大地丰富了合成语音的表现力与可控性,赋予了合成语音拟人的喜怒哀乐,弥补了传统人工智能语音合成技术中「人情味」不足的缺憾。
理想的多情感技术将是每个声音都拥有几十种甚至上百种丰富细腻的情感表达,可以驾驭不同场景,根据内容表达自动适配情感。
微软智能语音多情感技术发布,标志了语音合成发展的新趋势,将成为智能语音应用的「标准配置」,实现用户体验新的突破。