数据开源 | 高质量双工自然对话中文语音数据集,引领AI实时交互新体验

业界
在快速发展的人工智能领域,技术突破与用户体验提升正引领着语音对话模型迈向新的高度。从最初的简单问答到如今复杂多变的对话场景,人机交互正经历着前所未有的深刻变革。

在快速发展的人工智能领域,技术突破与用户体验提升正引领着语音对话模型迈向新的高度。从最初的简单问答到如今复杂多变的对话场景,人机交互正经历着前所未有的深刻变革。传统的训练数据已难以适应当前的需求,现代交互要求系统不仅能理解语言的上下文,还需快速识别用户的需求并作出恰当反馈。


在此背景下,晴数智慧联合中国科学院声学研究所,共同开源了“双工自然对话语音数据集_中文”,为语音对话模型提供更加真实、细腻的训练数据。通过对每位说话者语音的独立分析,该数据集让语音对话模型能够洞察对话中的上下文变化、语调起伏以及情感波动,从而生成更加自然、准确的回应。同时,双工分离数据让端到端模型的构建更为精准,反馈速度更快。



数据集描述


晴数智慧开发的多通道自然对话语音数据集,旨在解决当前语音对话模型面临的两大问题:一是如何在复杂对话环境中准确捕捉并区分每位说话者的语音信息;二是如何使AI模型更好地理解并适应自然对话中的打断、交互等动态过程。


微信图片_20250109151150.jpg微信图片_20250109151150.jpg


上图为双工语音交互模型架构图。双工语音交互模型(如 dGSLM [1]、Moshi [2]和SLIDE [3])突破了传统单工语音交互模型一问一答的僵化响应模式,实现了同步听说以及在交互过程中自然的打断与插话。然而,这些模型的训练高度依赖双工自然对话语音数据。而此类数据的稀缺,尤其是在中文领域,严重限制了上述模型的性能提升。


为解决这些问题,我们采取了创新的数据采集与处理策略。首先,通过独立采集每位说话者的音轨,并单独对每个说话人做分类标注,完整的保留了对话过程中自然的打断,交互等过程。其次,通过将每位说话者的音频分离,我们能够提供更清晰、更精准的训练数据,使模型更专注于理解和响应自然说话的交互过程。


为了让大家更直观地了解我们的多通道数据,我们特别选取了5小时的对话内容作为本次开源数据集。本数据可以用于模型的微调或者测试使用(非商用)。



数据集优势与亮点


自然度:捕捉真实场景下的自然对话,确保数据的高度自然流畅;

领域多样性:覆盖多个行业与话题,满足跨领域应用需求;

地域多样性:融入不同地域的语音特征,增强模型的泛化能力;

副语言标签:特别标注副语言信息,如语气、停顿等,为深度情感分析与交互体验升级提供有力支持。


除了中文双工对话数据开源之外,我们同样开源了英语双工对话数据,对英语双工数据感兴趣的朋友,欢迎通过以下链接下载并使用,探索更多可能~



责任编辑:企业资讯
相关推荐

2020-01-09 11:30:40

AI 数据人工智能

2023-09-01 14:42:39

数据研究

2010-03-19 16:10:01

SharePoint

2018-09-13 10:45:17

Webex思科协作

2018-05-29 11:22:06

数字化

2014-03-17 09:10:16

甲骨文云计算

2023-04-25 18:55:28

Commvault

2011-10-08 16:38:35

金山快盘

2020-09-27 16:21:28

AI数据

2011-05-31 13:43:46

外链

2017-07-14 09:54:47

代码函数程序

2013-01-10 17:07:28

Windows 8邮件功能

2010-06-03 11:21:35

Windows Ser

2022-08-25 16:46:29

人工智能AI

2021-07-21 18:22:20

创维

2010-04-22 15:06:14

2017-06-19 07:58:40

点赞
收藏

51CTO技术栈公众号