谷歌开源AI能区分声音 准确率达92%

新闻 人工智能 CIOAge
据 VentureBeat 报道,Google 人工智能研究部门在语音识别方面取得了新的进展,能从嘈杂的环境中分辨声音,准确率高达 92%。

[[249335]]

 据 VentureBeat 报道,Google 人工智能研究部门在语音识别方面取得了新的进展,能从嘈杂的环境中分辨声音,准确率高达 92%。Google 人工智能研究部门在一篇名为《Fully Super vised Speaker Diarization》的论文中描述了这一新的 AI 系统,称它“能以一种更有效的方式识别声音”。

这套强大的 AI 系统涉及到 Speaker diarization 任务,需要标注出“谁”从“什么时候”到“什么时候”在说话,将语音样本分割成独特的、同构片段的过程。还能将新的演讲者发音与它以前从未遇到过的语音片段关联起来。

其核心算法已经开源可用。它实现了一个在线二值化错误率(DER),在NIST SRE 2000 CALLHOME基准上是7.6%,这对于实时应用来说已经足够低了,而谷歌之前使用的方法DER为8.8%。

谷歌研究人员的新方法是通过递归神经网络(RNN)模拟演讲者的嵌入(如词汇和短语的数学表示),递归神经网络是一种机器学习模型,它可以利用内部状态来处理输入序列。每个演讲者都从自己的RNN实例开始,该实例不断更新给定新嵌入的RNN状态,使系统能够学习发言者共享的高级知识。

研究人员在论文中写道:“由于该系统的所有组件都可以在监督环境下学习,所以在有高质量时间标记演讲者标签训练数据的情况下,它比无监督系统更受青睐。我们的系统受到全面监督,能够从带有时间戳的演讲者标签例子中学习。”

在未来的工作中,研究团队计划改进模型,使其能够集成上下文信息来执行脱机解码,他们希望这将进一步减少DER。研究人员还希望能够直接对声学特征进行建模,这样整个Speaker diarization系统就可以进行端到端训练。

责任编辑:张燕妮 来源: 网易科技
相关推荐

2019-11-20 15:01:55

开源技术 趋势

2022-09-14 09:55:32

人工智能AI解码技术

2020-11-20 17:03:11

AI 数据人工智能

2019-08-05 08:02:31

AI 数据人工智能

2022-04-09 10:16:52

神经网络深度学习AI

2023-06-28 13:49:12

AI人工智能

2021-11-22 12:26:18

AI人工智能说谎

2022-09-14 13:30:33

AI手机程序

2020-10-09 08:31:00

AI

2023-12-26 14:50:07

2019-01-03 09:04:04

谷歌系统机器

2022-08-02 14:45:16

AI微软工具

2020-02-17 11:08:06

AI 数据人工智能

2019-10-15 09:07:30

AI 数据人工智能

2023-06-21 09:15:30

AI 技术神经网络

2023-08-15 14:55:57

2023-05-04 09:39:16

AI模型

2024-09-29 16:00:26

2023-07-26 15:13:33

人工智能OpenAI

2022-04-13 10:31:04

微软Jigsaw大型语言模型
点赞
收藏

51CTO技术栈公众号