
大模型在零样本面部情绪标注中的突破与应用 精华
情绪识别作为人机交互中的关键一环,能够提升智能系统的反应灵敏度和人性化程度。但是传统的情绪标注方法面临着诸多挑战和局限性,人工情绪标注过程既耗时又昂贵,并且标注员可能会因个人主观性带来不同的评估标准,从而影响标注的一致性和准确性。
人工标注不仅成本高且效率低下,标注员需要长时间精心标注数据,这不但要求大量人力资源,还会引入人类认知中的固有变异性和潜在偏见。情绪标注任务的主观性和细微差别增加了标注的复杂性。探索高效、准确的自动化情绪标注方法迫在眉睫,以减轻人工负担并提高标注质量。
2 月 20 日,arXiv发表的《Benchmarking Zero-Shot Facial Emotion Annotation with Large Language Models: A Multi-Class and Multi-Frame Approach in DailyLife》探索了大型语言模型(LLMs)在零样本面部情绪标注中的可行性,并评估其在多类和多帧情绪分类任务中的性能。通过采用GPT-4o-mini模型进行快速零样本标注,研究团队希望发现一种既能减少标注成本,又能提高标注效率的新策略。研究还将探讨多帧整合和情绪分类简化方法在提高标注准确性方面的作用,为今后大规模情绪标注任务提供指导。
本研究由宾夕法尼亚州立大学信息科学与技术学院的He Zhang和中国清华大学未来实验室的Xinyi Fu共同完成。He Zhang专注于人工智能、计算机视觉和自然语言处理技术的应用,尤其是情绪识别和人机交互领域。Xinyi Fu则致力于人工智能与多模态交互的应用,特别关注提升大规模数据处理和注释的效率与准确性。两位华人研究者结合跨国合作的优势,旨在探索LLMs在情绪标注中的应用潜力,推动技术进步并为实际应用提供成本效益高且可扩展的解决方案。
相关工作
在情绪标注领域,传统的人工标注方法一直占据主导地位。标注员通过观察视频或图像,依靠自身的理解和判断,对人类情绪进行分类和标注。虽然这种方法能提供高度准确的标注,但由于其劳动密集型特性,导致了高成本和低效率。此外,标注员之间的主观性差异和评估标准的不同,使得标注结果存在一致性问题,这进一步加剧了标注过程的复杂性。
为了提高标注效率和降低成本,研究人员提出了半自动化和自动化的情绪标注方法。半自动化方法结合了人工和自动化标注技术,通过模型初步标注后再由人类标注员进行审核和修改。这种方法在一定程度上提高了效率,但仍无法完全摆脱人工干预。随着计算机视觉和机器学习技术的发展,全自动化的标注方法逐渐兴起。这些方法依赖于训练好的模型来自动识别人类情绪,大大减少了人工参与,显著提高了标注效率。
众包标注是一种加速标注过程的有效手段。通过将标注任务分配给大量的众包人员,可以快速完成大量数据的标注工作。然而众包标注在处理需要细致理解和专家判断的任务时,常常表现不足。众包标注的质量控制也是一大挑战,需要设计合理的机制来确保标注结果的准确性和一致性。
大型语言模型(LLMs)的崛起为情绪标注领域带来了新的机遇。LLMs 在自然语言处理中的成功使其在多模态任务中的应用成为可能。近年来研究人员开始探索LLMs在文本、图像和音频等多模态数据中的应用,尤其是在情绪识别和标注任务中的表现。
现有的研究表明,LLMs在情绪识别和标注任务中具备一定的潜力。例如,一些研究评估了LLMs从图像生成的字幕中预测情绪的能力、进行图像检索和生成描述性字幕的能力。值得注意的是,2024年初的一项研究将GPT-4和Bard等LLMs与卷积神经网络(CNNs)等传统监督模型在图像数据情绪识别方面的性能进行了比较。结果表明,专门为此任务训练的深度学习模型通常比LLMs具有更高的准确性,但LLMs在降低训练和应用成本方面表现出色。
虽然传统的监督模型在准确性上仍占据优势,但LLMs通过优化提示工程和重组标注策略,能够实现与传统模型相当的性能,同时具备更高的成本效益和可扩展性。因此,研究人员不断探索LLMs在情绪标注任务中的应用,特别是在多模态数据处理和零样本学习方面,LLMs展示出巨大的潜力。
方法
在本研究中,研究团队探索了大型语言模型(LLMs)在零样本面部情绪标注中的可行性,并评估了其在多类和多帧情绪分类任务中的性能。
数据集选择
研究团队选择了公开的FERV39k数据集,该数据集包含了丰富的视频片段,涵盖多种日常生活中的情绪表达。FERV39k数据集中的DailyLife子集尤为重要,因为它包含了日常活动、互动和情绪表达的场景,是现实条件的代表,增强了研究团队研究工作的可转移性和适用性。
在该数据集中,情绪被分为七类:“愤怒”、“厌恶”、“恐惧”、“快乐”、“中立”、“悲伤”和“惊讶”。这些情绪类别为情绪识别任务提供了一个全面的分类框架。研究团队之所以选择DailyLife子集,是因为它包含2339个视频片段,每个片段都被手动标注了明确的情绪标签,并基于上下文和可见的情绪线索提供了准确的标签。这为研究团队的研究提供了一个广泛认可的基准。
模型选择
研究团队选择了GPT-4o-mini模型,这是GPT-4架构的一个变体,优化了效率和快速推理能力。选择GPT-4o-mini的理由主要有两个方面:首先,它具备强大的零样本学习能力,能够在无需特定任务训练的情况下执行任务;其次,它集成了视觉能力,能够接受图像输入并解释图形信息,适合多模态处理。
在成本和性能方面,GPT-4o-mini在保证高效性能的同时,能够平衡操作成本,成为本研究的理想选择。
标注过程设计
在标注过程中,研究团队采用了零样本标注策略,直接应用LLMs进行情绪分类。模型根据简单的预定义指令对提取的关键帧进行标注,无需额外的训练或微调。这种策略不仅加快了标注速度,还降低了操作成本。
提示工程(Prompt Engineering)
为了有效利用GPT-4o-mini模型进行图像情绪标注,研究团队精心设计了提示,以指导模型生成准确的情绪标签。初始提示设定模型为“专业图像情绪分析助手”,明确列出了预定义情绪标签,确保模型在期望的上下文中操作并理解分类框架。每个图像(或多帧整合图像)的分析提示中,包括了文本指令和图像本身,通过这种多模态输入的方式,使模型能够同时处理视觉和文本数据。
标注策略
研究团队采用了多种标注策略,以评估大型语言模型(LLMs)在不同情绪分类任务中的表现。这些策略分为七类情绪分类策略和三类情绪分类策略。
图1:视频(图像/片段)数据中情感识别的多策略注释框架说明
七类情绪分类策略
策略A1:单帧标注
该策略基于对每个视频片段中的五个选定帧进行独立标注。这些选定帧包括初始帧、Q1位置帧、中间帧、Q3位置帧和最终帧。每个帧被独立地标注为七类情绪中的一种:“愤怒”、“厌恶”、“恐惧”、“快乐”、“中立”、“悲伤”和“惊讶”。每个帧的预测情绪标签与数据集中提供的真实标签进行比较,以计算准确性。
策略B1:多数投票决定主要情绪
在策略B1中,所有五个标注帧的情绪标签进行汇总,以确定整个视频片段的主要情绪。如果某种情绪在标注帧中占绝对多数,则该情绪标签被分配给整个视频片段。在情绪分布平局的情况下,选择中间帧的情绪标签作为视频片段的整体情绪状态。
策略C1:排除“中立”后的多数投票
策略C1在确定主要情绪时排除“中立”类别。如果在排除“中立”后某种情绪在标注帧中占绝对多数,则该情绪被分配给视频片段。如果五个帧均被标记为“中立”,则该片段被分配“中立”标签。在情绪分布平局的情况下,选择中间帧的情绪标签代表整个视频片段的情绪状态。这一方法旨在通过聚焦更明显的积极或消极情绪状态,提高标注准确性,减轻LLMs在分类“中立”情绪时的歧义性。
策略D1:多帧整合后整体标注
策略D1采用多帧整合方法,将五个选定帧连接成一个复合输入。具体而言,将初始帧、Q1位置帧、中间帧、Q3位置帧和最终帧按顺序连接形成统一的图像输入,并将其提交给GPT-4o-mini模型进行单步骤标注。通过整合多个帧,该策略利用时间上下文,使模型能够考虑视频片段内情绪的进展,提高标注准确性,捕捉单个帧标注可能错过的情绪过渡状态。
大模型在零样本面部情绪标注中的突破与应用-AI.x社区
图2:七类和三类注释策略的精度比较。这两张图都展示了每种策略的单独指标和总体平均值(宏观和加权)
三类情绪分类策略
策略A2:将七类映射为三类进行标注
策略A2将策略A1的结果应用于三类情绪分类。在此策略中,策略A1中的每个标注帧直接映射到三个更广泛的类别之一:“积极”、“中立”或“消极”。具体而言,被分类为“愤怒”、“厌恶”、“恐惧”和“悲伤”的情绪归类为“消极”,而“快乐”和“惊讶”归类为“积极”。“中立”标签保持不变。每个帧的七类标签根据此映射转换为相应的三类标签,然后计算准确性,以评估模型在简化情绪分类任务中的表现。
策略B2:三类情绪的多数投票
策略B2首先应用策略A2,将七类标签重新组织为三类。然后采用类似于策略B1的方法,返回占绝对多数的情绪标签,或在情绪趋势得分平局时使用中间帧的情绪标签。
策略C2:排除“中立”后的三类多数投票
策略C2首先应用策略A2,将七类标签重新组织为三类,然后采用类似于策略C1的方法,减轻LLMs在分类“中立”情绪时的歧义性。
策略D2:多帧整合后的三类情绪标注
策略D2类似于策略D1的多帧整合方法,但使用三类分类方法。在此策略中,五个选定帧被连接成一个复合输入,并将其提交给GPT-4o-mini模型,为整个视频片段分配单一的三类情绪标签(“积极”、“中立”或“消极”)。
这些标注策略为研究团队提供了全面评估LLMs在零样本情绪标注任务中的性能的机会,并帮助研究团队发现最佳的标注方法,以提高准确性和效率。
实验结果与分析
在评估情绪分类策略时,研究团队采用了精度、召回率、F1分数、支持度和准确率等指标。精度(Precision)衡量的是模型正确预测的正样本占所有预测为正样本的比例。召回率(Recall)反映了模型能识别出所有真实正样本的能力。F1分数是精度和召回率的调和平均数,平衡了二者,特别适用于类别分布不均的情况。准确率(Accuracy)则是所有正确预测样本占总样本的比例。此外,研究团队还报告了宏平均(Macro Average)和加权平均(Weighted Average)两个指标。宏平均将每个类别视为同等重要,计算各类别精度和召回率的平均值,而加权平均则根据每个类别的支持度(Support,即每个类别的真实样本数量)进行加权,以反映类别不平衡的影响。
七类情绪分类结果
对于七类情绪分类,研究团队采用了四种不同的标注策略(A1、B1、C1和D1)。策略A1的整体准确率为38%,在“快乐”类别的精度达到0.84,但在“厌恶”类别的精度仅为0.04,显示出模型在某些情绪分类上的显著挑战。策略B1通过多数投票的方式,略微提升了整体准确率至41%,尤其在“快乐”类别上精度上升至0.89,而“厌恶”类别也有小幅改善。策略C1通过排除“中立”类别的多数投票,将整体准确率提升至46%,特别是在“悲伤”类别的召回率提高到0.76,显示出通过专注于更明显的情绪状态,可以减轻“中立”分类带来的不准确性。策略D1采用多帧整合方法,与策略C1达到相同的46%准确率,通过整合多个帧的时间上下文,捕捉到情绪动态变化,进一步提高了模型的情绪识别能力。
分析混淆矩阵可以发现,各策略在区分“中立”和“快乐”等细微情绪变化时仍存在挑战,但通过聚合多个帧或排除“中立”类别,可以显著提升某些类别的识别准确率。
三类情绪分类结果
对于三类情绪分类(A2、B2、C2和D2),策略简化显著提高了模型性能。策略A2实现了57%的准确率,“积极”类别精度为0.72,而“中立”类别表现一般,精度为0.27,召回率为0.41。策略B2通过多数投票,准确率提高至65%,“积极”类别精度上升至0.79,“消极”类别表现强劲,精度为0.70,召回率为0.74。策略C2采用排除“中立”类别的多数投票,也达到了65%的准确率,“消极”类别精度为0.67,召回率提升至0.87,而“积极”类别保持一致性能。策略D2采用多帧整合方法,同样实现了65%的准确率,通过利用时间上下文和简化情绪类别,确保了高效且准确的标注。
图3:使用混淆矩阵的分类策略的性能比较。每个混淆矩阵代表数据集上特定策略的分类结果。
通过混淆矩阵分析,可以看到,三类分类策略在“中立”和“积极”情绪之间的混淆情况较多,而对“消极”情绪的识别准确性较高。这表明在简化情绪分类的情况下,模型能够更有效地区分主要情绪状态,从而提升整体性能。
不同策略的性能总结
在七类和三类情绪分类任务中,各种标注策略展现了不同的性能。通过实验,研究团队发现策略的聚合和整合方法在提升标注准确性方面尤为有效。策略B1、C1和D1中的多数投票和多帧整合策略在情绪识别中表现出色,通过汇总多个标注帧或整合时间上下文,能够捕捉到视频片段内的情绪进展,增强了模型对情绪动态变化的理解。这些策略在处理复杂多变的情绪表达时,显著提高了模型的表现。
聚合和整合方法的有效性
聚合方法通过汇总多个帧的情绪标注,减少了单一帧标注带来的误差和不一致性。在多数投票策略下,通过对视频片段内多个帧的情绪进行综合考虑,能够提高整体标注的准确性。多帧整合策略则通过将多个关键帧整合为一个复合输入,使模型能够考虑情绪的时间上下文。这种方法不仅提高了标注的准确性,还能够捕捉到单个帧标注可能错过的情绪过渡状态,从而提供更全面的情绪识别。
时间上下文在情绪识别中的作用
在情绪识别中,时间上下文起到了至关重要的作用。情绪的表达往往是一个动态的过程,通过整合多个时间点的情绪信息,模型能够更好地捕捉到情绪的变化和发展趋势。多帧整合策略利用时间上下文,通过考虑视频片段内情绪的进展,显著提高了模型的情绪识别能力。时间上下文的引入,使模型能够更准确地识别情绪过渡和细微变化,从而提高整体标注的质量。
与基线的比较
为了验证研究团队标注策略的有效性,研究团队将其与随机猜测基线和现有训练模型基线进行了比较。
随机猜测基线
在七类情绪分类任务中,随机猜测的预期准确率约为14.3%。在三类情绪分类任务中,随机猜测的预期准确率为33.3%。研究团队的实验结果表明,所有提出的策略均显著超过了随机猜测的基线水平。例如,在七类分类任务中,表现最好的策略(C1和D1)达到了46%的准确率,是随机猜测基线的三倍多。在三类分类任务中,策略B2、C2和D2达到了65%的准确率,几乎是随机猜测基线的两倍。这一显著的改进表明,研究团队的聚合和整合方法在基于LLMs的零样本分类任务中提高了标注准确性。
现有训练模型基线
为了进一步验证研究团队的标注策略,研究团队将其与FERV39k数据集论文中报告的基线模型进行了比较。基线模型包括ResNet-18(R18)、ResNet-50(R50)、VGG13(VGG13)、VGG-16(VGG16)及其LSTM增强变体。这些模型的性能指标包括加权平均召回率(WAR)和非加权平均召回率(UAR)。其中,VGG13-LSTM和Two VGG13-LSTM模型表现最佳,分别达到46.07%和46.92%的WAR。
相比之下,研究团队的策略D1(多帧整合)在七类分类任务中实现了46%的WAR,接近这些顶尖基线模型的性能。此外,策略D1还显著超过了基线模型的平均WAR(约38.98%)。在UAR方面,策略D1在各类情绪的召回率方面表现优异,超过了所有基线模型。这表明研究团队的策略不仅在整体加权表现上表现出色,还确保了所有情绪类别的公平识别,包括不常见的类别。
成本效益与可扩展性
研究团队详细考虑了模型的成本效益和可扩展性,这对于大规模情绪标注任务尤为关键。
模型成本考虑
最初,研究团队测试了全帧率标注方法,即为每秒的视频片段标注25帧图像。然而,由于任务量巨大,该方法的财务可行性极低。根据初步估算,这种全帧率标注的API成本大约为每11,000张图像100美元,显然这种高成本方法无法在大规模应用中持续进行。因此,他们需要找到一种更具成本效益的解决方案。
全帧率标注的成本估算
对于每秒25帧的全帧率标注,成本快速累积。假设每帧图像的标注成本为0.01美元,对于一个包含2,339个视频片段、每个视频片段时长为1-2秒的数据集,总成本将达到数千美元。这种高昂的成本使得全帧率标注在实际应用中难以维持。
采用关键帧和多帧整合策略的成本节约
为了降低成本,研究团队采用了关键帧选择和多帧整合策略。具体而言,从每个视频片段中选择五个关键帧(初始帧、Q1位置帧、中间帧、Q3位置帧和最终帧),并将这五个帧整合为一个复合输入。这种方法不仅减少了标注的帧数,还显著降低了令牌使用量。通过这种策略,研究团队大幅度减少了API请求的数量,从而降低了整体标注成本,同时保持了较高的标注准确性。
运营成本与标注效率的权衡
在平衡运营成本与标注效率时,研究团队的策略显示出了明显优势。通过零样本标注,研究团队能够在无需特定任务训练的情况下,快速部署和适应各种标注任务,极大地提高了标注效率。与传统的监督模型相比,零样本标注不仅减少了训练成本,还避免了因数据标注需求而产生的额外资源消耗。这使得研究团队的标注方法在大规模应用中更加经济可行。
零样本标注在实际应用中的经济可行性
本研究中的零样本标注方法展示了良好的经济可行性。通过采用GPT-4o-mini模型,研究团队能够在不进行特定任务训练的情况下,快速且准确地进行情绪标注。这种方法不仅降低了模型训练和应用的成本,还提高了标注任务的扩展性,使其能够适应不同情绪标注任务的需求。
大规模情绪标注任务的可扩展性
研究团队的零样本标注策略在大规模情绪标注任务中展现了极大的可扩展性。通过关键帧选择和多帧整合策略,研究团队能够在降低成本的同时,保持较高的标注准确性。这种高效的标注方法为大规模情绪识别任务提供了一种可行的解决方案,适用于各种实际应用场景,如驾驶员注意力检测、直播平台内容管理和健康管理系统。
讨论
自动化标注的效率和速度是LLMs的显著优势。通过利用大型语言模型,研究团队能够在零样本的情况下,快速进行情绪标注,而无需花费大量时间进行特定任务的模型训练。LLMs能够根据预定义的指令和提示,在没有先验知识的情况下,准确分类和标注情绪,这大大提高了标注效率和速度。
然而,LLMs在辨别细微情绪差异时仍存在挑战。尽管模型在处理主要情绪类别时表现出色,但在区分类似情绪如“快乐”和“惊讶”时,准确率会有所下降。这主要是因为情绪表达的主观性和复杂性,加之LLMs在处理多样化和细微变化的数据时,容易受到模型本身的局限性影响。
聚合技术和时间上下文在情绪识别中的影响非常重要。多帧信息的整合显著提高了情绪识别的准确率。通过聚合来自多个时间点的情绪数据,模型能够更全面地捕捉情绪的动态变化,从而提供更准确的标注结果。时间上下文的整合使模型在识别连续变化的情绪时表现更佳,避免了单帧标注可能导致的误差和不一致性。
排除“中立”类别的策略效果显著。通过专注于更加明显的积极或消极情绪状态,模型在情绪分类任务中的表现得到了提升。这一策略有效地减轻了LLMs在分类中立情绪时的歧义性,增强了情绪标注的准确性。
简化情绪分类对提升模型性能有显著作用。三类情绪分类法(“积极”、“中立”和“消极”)通过降低分类的复杂度,使模型能够更有效地区分主要情绪状态,提高了整体准确率。在复杂任务中,降低分类复杂度有助于提升模型的表现,同时减少分类错误。
任务复杂度与模型性能之间存在显著关系。通过简化分类任务,模型能够更专注于主要情绪类别,减少因多样化数据带来的分类挑战,从而提高标注的准确性和可靠性。
大型语言模型在情绪标注任务中的成功应用,展示了其在其他多模态数据标注任务中的巨大潜力。LLMs可以扩展到更广泛的应用场景,如驾驶员注意力检测、直播平台内容管理和健康管理系统,通过高效的自动化标注,提高各类多模态数据处理的效率和准确性。
在实际应用中,LLMs的高效性和可扩展性对人机交互和情感计算领域有深远影响。通过自动化情绪识别,智能系统可以更灵敏地响应用户的情绪变化,提供更人性化和个性化的服务,提升用户体验。此外,LLMs在情感计算中的应用,将进一步推动人机交互技术的发展,实现更加自然和流畅的交流互动。(END)
参考资料:https://arxiv.org/pdf/2502.12454
本文转载自独角噬元兽,作者: FlerkenS
