从数据集到模型:视频和音频情绪分析的综合研究

发布于 2024-12-16 10:24
浏览
0收藏

情绪分析作为自然语言处理和人工智能领域的重要研究方向,近年来受到了广泛关注。情绪分析技术能够自动识别和理解文本、音频、视频等多种数据中的情绪信息,在社交媒体监控、客户服务、心理健康评估等多个领域具有重要应用价值。例如,通过情绪分析,企业可以更好地了解客户反馈,改进产品和服务;心理健康专家可以通过分析患者的情绪变化,提供更精确的诊断和治疗建议。

然而,单一模态的情绪分析(如纯文本或纯音频)存在一定的局限性。文本情绪分析往往难以捕捉语调、语速等音频信息,而音频情绪分析则可能忽略面部表情、肢体语言等视频信息。这些信息的缺失可能导致情绪识别的准确性下降。因此,单一模态的情绪分析在处理复杂情绪表达时,往往显得力不从心。

多模态情绪分析通过综合利用文本、音频、视频等多种数据源,能够更全面、准确地识别和理解情绪信息。12 月 14 日,来自西班牙马德里IE大学科学技术学院,银河生命、机器人和人工智能实验室研究团队提出了一种基于视频和音频输入的多模态情绪分析方法,通过融合视频和音频数据,提升情绪识别的准确性和鲁棒性。具体而言,研究团队设计了一种多模态融合模型,能够有效地整合视频和音频特征,从而实现更高效的情绪分析。

研究团队由来自知名高校和研究机构西班牙马德里IE大学科技学院Cyphy Life机器人与人工智能实验室的专家Antonio Fernandez和Suzan Awinata组成,他们的技术论文《Multimodal Sentiment Analysis based on Video and Audio Inputs》在第 15 届新兴普适系统和普适网络国际会议 (EUSPN 2024) 上以全文形式发表,展示了研究团队在多模态情绪分析领域的最新成果和技术突破。

研究背景

多模态情绪分析是一种利用多种数据源(如文本、音频、视频)来识别和分析情绪的技术。相比于单一模态,多模态情绪分析能更全面、准确地捕捉和理解复杂的情绪表达。随着计算机视觉、自然语言处理和深度学习技术的发展,多模态情绪分析逐渐成为一个重要的研究领域。

早期的情绪分析主要集中在文本数据上,通过分析文本内容来推测情绪。然而,文本情绪分析受限于缺乏语调、语速等音频信息,这些信息在情绪表达中扮演着重要角色。随之而来的音频情绪分析,虽然弥补了这一缺陷,但仍然忽略了面部表情和肢体语言等视频信息。因此,单一模态的情绪分析在处理复杂情绪时常常力不从心。

近年来,研究人员开始探索多模态情绪分析,通过综合利用音频、视频和文本数据,提高情绪识别的准确性和鲁棒性。例如,某些研究利用视频中的面部表情和音频中的语调信息来识别情绪,取得了显著效果。其他研究则尝试融合多种模态的信息,进一步提升模型的性能。

在这一背景下,研究团队提出了一种基于视频和音频输入的多模态情绪分析方法。通过使用先进的音频和视频模型,他们旨在证明这种多模态情绪分析方法的有效性。具体而言,他们选用了CREMA-D数据集用于音频模型训练,RAVDESS数据集用于视频模型训练,并分别使用了Facebook的wav2vec2-large模型和Google的vivit-b-16x2-kinetics400模型。

研究团队的目标是通过综合利用视频和音频数据,提升情绪识别的准确性和鲁棒性。他们设计了多种融合策略,包括加权平均法、置信水平阈值法、基于置信度的动态加权法和规则逻辑法,旨在找到最佳的决策框架。

方法论

在多模态情绪分析的研究中,数据集的选取和特征提取方法至关重要。研究团队选用了两个具有代表性的数据集,分别用于音频和视频情绪识别任务,并采用先进的模型进行特征提取和多模态融合。

从数据集到模型:视频和音频情绪分析的综合研究-AI.x社区

图1:模块的整个过程

数据集选取及其特点

CREMA-D数据集(Crowd-sourced Emotional Multimodal Actors Dataset)是一套广泛使用的音频数据集,专门用于情绪识别研究。该数据集包含7442个声音片段,由91名演员录制,这些演员年龄从20到74岁不等,涵盖了多种种族和族裔背景,如非裔美国人、亚裔、白人、拉丁裔等。

在录制过程中,演员们被要求大声朗读12个预选句子,每个句子用六种不同情绪(愤怒、厌恶、恐惧、快乐、悲伤、中性)和不同强度(低、中、高、不明确)来表达。音频片段的标签包含在文件名中,例如“1001 IEO ANG HI.wav”,其中包括演员ID、句子、情感和情感强度的信息。为了与视频数据集的标签统一,情感标签被标准化为anger、disgust、fearful、happy、neutral和sad。

RAVDESS数据集(Ryerson Audio-Visual Database of Emotional Speech and Song)是一套高质量的视频数据集,用于情绪识别和分析。该数据集包含7356个文件,分别由24名专业演员录制,这些演员均以标准的北美口音发音,并表达多种情感。

数据集分为四个主要类别:音频演讲、音频歌曲、视频演讲和视频歌曲。情感类别包括中性、冷静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶,每种情感有两种强度(正常和强烈)。视频数据集中特殊之处在于,每个含音频的视频都有一个不含音频的变体,研究团队训练时仅使用不含音频的视频,以专注于视觉情感的分析。

特征提取方法

在多模态情绪分析中,音频和视频特征的提取是至关重要的一步。研究团队分别使用了先进的音频和视频模型来提取特征,确保了高质量的输入数据。

音频特征提取采用了Facebook的wav2vec2-large模型。该模型是一种基于多层卷积特征编码器的音频模型,可以接收原始音频输入,并在固定的时间步内输出潜在的语音表示。通过使用这种模型,可以有效地捕捉和表示音频中的情感信息,为情绪分析提供强有力的支持。

视频特征提取使用了Google的vivit-b-16x2-kinetics400模型。这是一种基于变换器的先进视频分类模型,可以接收视频帧样本,并基于训练标签进行分类。该模型能够有效地从视频中提取面部表情、肢体语言等视觉特征,为情绪分析提供了丰富的信息。

多模态融合策略

为了综合利用音频和视频特征,研究团队设计了多种多模态融合策略,以提升情绪识别的准确性和鲁棒性。

加权平均法通过对每种情感的概率进行缩放和平均,以综合音频和视频模型的预测结果。这种方法在两个模型准确性相似的情况下效果较好,因为可以平衡两种输入的权重,从而提高整体预测的准确性。

置信水平阈值法根据视频模型的置信度优先级别来进行决策。如果视频模型的置信水平超过0.7,则直接采用视频模型的预测结果;否则,使用音频和视频概率的平均值作为最终预测结果。这种方法在视频模型较为准确时,能够充分利用其高置信度的预测,提高整体预测的可靠性。

基于置信度的动态加权法通过根据预测结果的置信度进行动态加权。当模型的预测置信度较高时,赋予其更大的权重;当置信度较低时,则赋予较小的权重。这样可以根据不同情感的置信度动态调整模型的影响力,提高预测的精度。

规则逻辑法通过设定一系列规则来综合模型的预测结果。例如,当两个模型对情感的预测一致且置信度均超过0.5时,返回一致的情感预测结果;否则,根据置信度较高的模型进行决策。这种方法能够充分利用模型的一致性,提高预测的准确性和鲁棒性。研究团队在多模态情绪分析中,通过选取高质量的数据集、使用先进的模型进行特征提取,并设计多种融合策略,力求提高情绪识别的准确性和鲁棒性。

实验设计与结果

在研究过程中,实验设计和设置是确保结果可靠性的关键因素。研究团队利用Kaggle平台进行模型训练,有效解决了CUDA环境问题,保障了模型训练的顺利进行。

从数据集到模型:视频和音频情绪分析的综合研究-AI.x社区

图 2:在Kaggle笔记本电脑的多模态情绪分析测试框架V1[25]、多模态情感分析测试框架V2[26]和下图中看到这些测试的结果。

实验环境和设置

为了确保实验的可重复性和可靠性,研究团队在Kaggle平台上进行了模型训练。Kaggle提供了良好的硬件资源和环境支持,特别是在处理CUDA环境时,可以避免环境冲突和内存溢出等问题。然而,由于免费版本的Kaggle在GPU内存方面的限制,研究团队在训练过程中必须谨慎处理内存管理,以防止内存超载。

音频模型训练结果

音频模型的训练过程分为几个关键步骤,首先对数据进行探索性数据分析(EDA),以深入了解数据的分布和特点。随后,加载模型及其处理器,并修改模型配置以适应六种情感标签。研究团队创建了两个函数,分别用于从数据中提取特征和标签,并将其转换为Dataset对象。数据集被分为训练集和测试集,测试集占比20%。

在音频数据的预处理过程中,创建了数据整理器和预处理函数,以确保输入数据的格式正确。最后,研究团队定义了模型训练的参数,并选择了步数作为评估策略,以便持续监测模型性能。在训练过程中,每500步记录一次模型性能,以跟踪模型的改进情况。

音频模型的训练持续了约1小时15分钟,共进行了6个epoch,这是在内存限制下可以训练的最大epoch数。训练结束后,模型在测试集上的准确率达到了72.59%。训练过程中模型性能的详细数据记录在Kaggle笔记本中,显示了每500步的训练损失、验证损失和准确率的变化情况。

视频模型训练结果

视频模型的训练过程采用了类似的步骤。首先,对数据进行EDA,以了解数据的基本分布情况。由于RAVDESS数据集中情感类别较多,研究团队删除了冷静和惊讶情感,以保持与音频数据集一致的六种情感标签。

随后,创建了用于处理标签预处理的函数,并从vivit transformers文档中修改了两个函数,以将视频帧调整为224x224像素,确保与模型兼容。另一个函数则用于从视频中选择合适的帧进行训练。数据集被分为训练集和测试集,测试集占比20%,并创建了数据加载器,以防止Kaggle GPU过载。

视频模型的训练持续了约7小时,共进行了10个epoch。训练结束后,模型的训练损失为0.1460,验证损失为0.4049,显示了模型在训练过程中的稳定性和良好的性能。

多模态框架的测试结果

在测试多模态情绪分析框架时,研究团队设计了多种融合策略,包括加权平均法、置信水平阈值法、基于置信度的动态加权法和规则逻辑法。每种方法的性能进行了详细的对比分析。

加权平均法通过对每种情感的概率进行缩放和平均,综合了音频和视频模型的预测结果。在两个模型准确性相似的情况下,这种方法表现出色。

置信水平阈值法根据视频模型的置信度优先级别进行决策。如果视频模型的置信水平超过0.7,则直接采用视频模型的预测结果;否则,使用音频和视频概率的平均值作为最终预测结果。该方法在视频模型较为准确时,能够充分利用其高置信度的预测。

基于置信度的动态加权法通过根据预测结果的置信度进行动态加权。当模型的预测置信度较高时,赋予其更大的权重;当置信度较低时,则赋予较小的权重。这样可以根据不同情感的置信度动态调整模型的影响力,提高预测的精度。

规则逻辑法通过设定一系列规则来综合模型的预测结果。例如,当两个模型对情感的预测一致且置信度均超过0.5时,返回一致的情感预测结果;否则,根据置信度较高的模型进行决策。

讨论

多模态情绪分析通过结合视频和音频输入,能够更全面地捕捉情感信息,从而显著提升情绪识别的效果。这一优势在于能够利用多种信号源,弥补单一模态的局限性。例如,音频信号中的语调和语速可以揭示语者的情感状态,而视频信号中的面部表情和肢体语言则提供了视觉上的情感线索。两者结合,使得情绪识别变得更加准确和鲁棒。

多模态情绪分析也面临着一些挑战。首先是数据的多样性和质量问题。现有的数据集往往是在控制环境下收集的,这意味着模型可能难以在实际应用中推广。这种数据集的局限性主要表现为两个方面:文化背景的单一性和环境条件的稳定性。在单一文化背景下收集的数据,可能无法代表不同文化中的情感表达方式,从而导致模型在跨文化应用中的泛化能力不足。而在控制环境下收集的数据,缺乏自然环境中的变化,如不同的光线条件、背景干扰等,这也可能限制模型在实际环境中的适用性。

为了克服这些局限性,未来的研究需要在数据多样性和自然环境采集方面进行改进。一方面,增加数据集的多样性,特别是收集来自不同文化背景和环境条件的数据,可以帮助模型更好地适应各种情感表达方式。另一方面,在自然环境中收集数据,有助于模型处理复杂的现实场景,提高其鲁棒性。此外,结合更多模态信息(如文本数据)和改进多模态融合策略,也是未来研究的重要方向。

目前的多模态情绪分析模型虽然在特定条件下表现良好,但其实际应用还需进一步验证和优化。例如,在模型的设计和训练过程中,可以引入更多的优化技术,如增强学习、自适应学习等,以提高模型的适用性和泛化能力。同时,进一步的研究也应关注多模态情绪分析在实际应用中的可行性和效果,如在心理健康辅助、客户服务提升等领域的具体应用。

未来工作与展望

在基于视频和音频输入的多模态情绪分析研究中,还有许多可探索的方向和潜在应用。通过不断创新和改进,我们可以进一步提升模型的性能和实际应用效果。

引入第三个基于音频转录文本的情绪识别模型

目前的研究主要集中在音频和视频输入的融合上,而忽略了文本信息的潜力。音频的转录文本可以提供丰富的语义信息,对于情绪识别也有重要的辅助作用。未来的研究可以考虑引入一个基于自然语言处理技术的情绪识别模型,对音频的转录文本进行分析。这种方法可以综合三种模态的信息,进一步提高情绪识别的准确性。例如,可以结合BERT等先进的文本分析模型,对转录文本进行细致的情感分析,与音频和视频模型的结果进行融合。通过实验,测量三种模型的组合效果,以及音频-文本、音频-视频、文本-视频等不同对组合的性能,找出最佳的融合方案。

结合多模态模型在心理健康辅助机器人中的应用前景

多模态情绪分析不仅在情绪识别方面具有重要意义,在心理健康领域也有广泛的应用前景。随着心理健康问题日益受到关注,智能助手和辅助机器人在心理健康干预中的作用也越来越重要。通过将多模态情绪分析模型应用于辅助机器人中,可以帮助其更好地理解和响应用户的情感状态,为心理健康治疗提供支持。

例如,未来可以开发一种智能心理健康辅助机器人,通过实时视频和音频输入,分析用户的情绪变化,提供及时的心理干预。这种机器人可以在与用户对话时,实时捕捉和分析用户的表情、语音特征和语义信息,生成对用户情感状态敏感的回应,增强用户的心理舒适感和信任度。同时,这种机器人还可以记录和分析用户的情绪变化数据,为心理健康专家提供参考,帮助制定更有效的治疗方案。

法律和伦理考虑

在开发和应用情绪识别技术时,必须考虑法律和伦理问题。尤其是在欧盟,情绪识别系统被认为是高风险技术。根据2024年欧洲议会通过的人工智能法案,情绪识别系统由于其有限的泛化能力和潜在的歧视风险,被认为是高风险技术。因此,研究团队在开发和应用这些技术时,必须确保符合伦理和法律要求,避免滥用和隐私侵犯。

为了确保技术的合法和伦理应用,未来的研究需要与法律专家密切合作,确保技术的开发和应用符合相关法规。同时,在设计和应用情绪识别系统时,应重视用户隐私保护,建立透明的数据使用和管理机制,确保用户数据的安全性和隐私性。此外,在应用于心理健康辅助领域时,必须确保技术的使用不对用户造成二次伤害,建立严格的伦理审查和监管机制,保障用户的权益。

基于视频和音频输入的多模态情绪分析在未来具有广泛的研究和应用前景,通过引入更多模态的信息、结合心理健康辅助机器人等实际应用,并在法律和伦理框架内进行技术开发,可以进一步提升情绪识别的性能和应用效果,推动这一领域的发展与创新。(END)

参考资料:https://arxiv.org/abs/2412.09317

本文转载自​大噬元兽​,作者: FlerkenS ​​

收藏
回复
举报
回复
相关推荐