数据开源 | 高质量双工自然对话中文语音数据集，引领AI实时交互新体验-51CTO.COM

在快速发展的人工智能领域，技术突破与用户体验提升正引领着语音对话模型迈向新的高度。从最初的简单问答到如今复杂多变的对话场景，人机交互正经历着前所未有的深刻变革。传统的训练数据已难以适应当前的需求，现代交互要求系统不仅能理解语言的上下文，还需快速识别用户的需求并作出恰当反馈。

在此背景下，晴数智慧联合中国科学院声学研究所，共同开源了“双工自然对话语音数据集_中文”，为语音对话模型提供更加真实、细腻的训练数据。通过对每位说话者语音的独立分析，该数据集让语音对话模型能够洞察对话中的上下文变化、语调起伏以及情感波动，从而生成更加自然、准确的回应。同时，双工分离数据让端到端模型的构建更为精准，反馈速度更快。

数据集描述

晴数智慧开发的多通道自然对话语音数据集，旨在解决当前语音对话模型面临的两大问题：一是如何在复杂对话环境中准确捕捉并区分每位说话者的语音信息；二是如何使AI模型更好地理解并适应自然对话中的打断、交互等动态过程。

微信图片_20250109151150.jpg

上图为双工语音交互模型架构图。双工语音交互模型（如 dGSLM [1]、Moshi [2]和SLIDE [3]）突破了传统单工语音交互模型一问一答的僵化响应模式，实现了同步听说以及在交互过程中自然的打断与插话。然而，这些模型的训练高度依赖双工自然对话语音数据。而此类数据的稀缺，尤其是在中文领域，严重限制了上述模型的性能提升。

为解决这些问题，我们采取了创新的数据采集与处理策略。首先，通过独立采集每位说话者的音轨，并单独对每个说话人做分类标注，完整的保留了对话过程中自然的打断，交互等过程。其次，通过将每位说话者的音频分离，我们能够提供更清晰、更精准的训练数据，使模型更专注于理解和响应自然说话的交互过程。

为了让大家更直观地了解我们的多通道数据，我们特别选取了5小时的对话内容作为本次开源数据集。本数据可以用于模型的微调或者测试使用（非商用）。

数据集优势与亮点

自然度：捕捉真实场景下的自然对话，确保数据的高度自然流畅；

领域多样性：覆盖多个行业与话题，满足跨领域应用需求；

地域多样性：融入不同地域的语音特征，增强模型的泛化能力；

副语言标签：特别标注副语言信息，如语气、停顿等，为深度情感分析与交互体验升级提供有力支持。

除了中文双工对话数据开源之外，我们同样开源了英语双工对话数据，对英语双工数据感兴趣的朋友，欢迎通过以下链接下载并使用，探索更多可能～