《自然》科学期刊:多模态融合解码人类决策过程的新策略 精华
多模态融合技术已成为人工智能重要领域,它涉及将来自不同传感器、时间和空间的数据进行有效整合,以提高决策系统的性能。特别是在高风险的决策环境中,如医疗诊断、金融市场分析和国防安全,准确预测人类决策表现对于避免错误和提高效率至关重要。多模态融合技术的应用前景广阔,它能够结合人类的生理信号(如脑电图EEG数据)和外部信息(如视觉图像),为我们提供了一种全新的预测和分析人类行为的方法。
本文解读的研究成果由一支跨学科团队完成,他们在多模态数据融合领域的探索为我们预测人类决策表现提供了新的视角。研究团队由Xuan-The Tran、Thomas Do、Nikhil R. Pal、Tzyy-Ping Jung和Chin-Teng Lin等专家组成,他们分别来自澳大利亚科技大学的GrapheneX-UTS HAI Centre、印度统计研究所的Electronics and Communication Sciences Unit以及加州大学圣地亚哥分校的Institute for Neural Computation和Institute of Engineering in Medicine。这个团队汇集了工程技术、通信科学、神经计算和医学工程等领域的顶尖专家,他们的合作研究不仅拓宽了多模态融合技术的应用范围,也为相关领域的研究提供了宝贵的经验和见解。6月8日,他们的论文《Multimodal fusion for anticipating human decision performance》在《自然》科学期刊发表。
他们研究的主要贡献包括:
1.引入了一种具有挑战性的决策制定范式,通过提供六个决策选项来降低正确猜测的可能性。
2.确定了作为决策准确性有效区分器的重要EEG特征。
3.提出了新的图像特征提取方法以增强决策预测准确性。
4.展示了多模态EEG和图像特征融合在预测人类决策表现方面优于单一模态特征的优越性。
在接下来我们将深入探讨这项研究的方法论、实验设计、数据分析和得出的结论,以及这些发现对未来研究的启示和影响。通过这篇解读,我们将能够更好地理解多模态融合技术在预测人类决策表现中的重要性和潜力。
相关工作
这项研究提出了一种多模态机器学习方法,利用图像特征和脑电图(EEG)数据来预测人在复杂视觉搜索任务中的反应正确性。研究中使用了一个新颖的图像特征集,这些特征涉及到对象关系,并通过Segment Anything Model (SAM)提取,与传统特征相比,这些特征能够提高预测准确性。此外,该方法有效地结合了EEG信号和图像特征,简化了随机森林分类器(RFC)所需的特征集,同时保持了高准确率。这项研究的发现对于开发先进的故障警报系统具有重大潜力,特别是在医疗和防御等关键决策环境中。
决策理论是研究个体或集体如何做出选择的学科,它涉及心理学、统计学、经济学和管理学等多个领域。在实验心理学中,决策理论尤其关注如何在不确定性下做出最优选择。基本模型包括期望效用理论、前景理论以及信号检测理论等。这些模型试图解释和预测人们在面对不同选项时的行为模式,如何权衡风险与回报,以及如何处理概率信息。在高风险环境中,如医疗诊断或金融投资,这些理论对于设计决策支持系统和评估决策质量具有重要意义。
脑电图(EEG)是一种记录大脑电活动的技术,它通过测量头皮上的电位变化来捕捉神经元的群体活动。在决策研究中,EEG被用来揭示决策过程中的神经机制。特定的EEG波形,如事件相关电位(ERP)组件,可以反映决策相关的认知过程,例如注意力分配、信息加工和记忆检索。通过分析这些波形,研究人员能够更深入地理解决策过程中的大脑活动,以及如何通过生理信号来预测决策结果。
多模态融合是指将来自不同传感器、模态或来源的数据结合起来,以提高信息的准确性和完整性。这项技术的发展始于早期的传感器融合研究,随着时间的推移,它已经扩展到包括视觉、听觉、触觉和生理信号在内的多种模态。在人工智能和机器学习的推动下,多模态融合技术已经取得了显著进展,特别是在图像和语音识别、情感分析以及社交媒体分析等领域。当前的研究正在探索如何将这些技术应用于更复杂的任务,例如预测人类决策表现,其中EEG数据的融合为理解和预测决策提供了新的可能性。
研究还介绍了一种基于视觉搜索的新决策制定范式,通过结合EEG脑成像信号来分析参与者在更具挑战性的情境中的决策过程。为了增加视觉搜索任务的复杂性和挑战性,研究中使用了伪装对象。这种范式涉及在图像中的六个子区域中识别伪装目标对象,从而将正确猜测反应的概率降低到1/6。此外,研究利用EEG和图像特征来预测参与者决策的正确性,并应用多模态方法结合图像(作为信息来源)和EEG(作为大脑对信息的反应)特征来预测在具有挑战性的视觉搜索任务中人类决策的准确性。
研究方法
本研究的实验设计旨在通过多模态融合技术预测人类在复杂视觉搜索任务中的决策表现。实验包括了使用图像特征和脑电图(EEG)数据作为输入,以训练机器学习模型进行预测。参与者由14名健康成年志愿者组成,他们在接受了详细的实验说明并签署知情同意书后参与了实验。实验任务要求参与者在一系列视觉搜索任务中识别伪装的动物,这些任务设计来模拟现实生活中的决策场景。实验流程包括了提示阶段、注视期、图像展示、反应时间和反馈,旨在捕捉参与者在每个决策点的行为和生理反应。
EEG数据的收集使用了Neuroscan Synamps 2放大器和64通道Quik-Cap,以1000 Hz的采样率记录参与者在实验过程中的脑电活动。图像数据则来自公开可用的伪装图像数据集COD10K,这些图像经过调整以适应实验的视觉要求。所有数据收集均在严格遵守伦理标准和隐私保护的前提下进行。
从EEG数据中提取的特征包括事件相关电位(ERP)组件和振幅值,这些特征反映了大脑在决策过程中的活动。图像数据的特征提取则包括颜色、对比度和图像质量等基本视觉属性,以及利用Segment Anything Model(SAM)提取的高级特征,如目标对象的大小、遮挡情况和中心偏见。这些特征被用于训练随机森林分类器,以预测参与者在视觉搜索任务中的决策正确性。
随机森林分类器的参数设置对模型的性能有着重要影响。在本研究中,分类器包含100棵树,每棵树的最大深度设置为10,以捕捉数据中的复杂模式同时避免过拟合。分类器的训练采用了引导抽样方法,并设置了“gini”作为分裂质量的衡量标准。此外为了确保结果的可重复性,设置了固定的随机状态,并采用了平衡类权重的方法来调整训练过程中的类频率。这些参数的选择旨在优化分类器的预测能力,确保在多模态融合任务中达到最佳性能。
图1:随机森林分类器的性能在组级使用来自14名受试者的数据进行训练,使用各种特征集:前10个脑电图特征、前10个图像特征,以及前5个脑电图和5个图像特征的组合作为多模式方法。误差条表示5倍交叉验证的标准偏差。
图2:通过随机森林分类器识别的前10个关键图像和脑电图特征是重要特征分析。
在这项研究中,通过使用排列测试和Bonferroni校正(EEGLAB工具箱中)进行了大平均事件相关电位(ERP)分析,以确定哪些EEG通道及其时间段在正确和错误反应之间有显著差异。研究发现,九个ERP成分在正确和错误反应之间表现出统计学上的显著差异,这些成分分布在四个大脑区域(12个EEG通道)中。正确反应的振幅一致高于错误反应。这些ERP成分的识别导致提取了540个EEG ERP特征,使用了五种特征提取方法。
此外研究还进行了重要特征分析,以确定对随机森林分类器最有影响的EEG和图像特征,并选择特征进行多模态分类器训练。结果显示,多模态特征在准确性、精确性和F1分数方面(分别为0.85、0.85和0.91)优于单一的EEG特征(0.79、0.80、0.85)和图像特征(0.76、0.77、0.84)。
在个体数据集水平上训练随机森林分类器,以评估分类器模型预测参与者决策的能力。研究比较了模型的准确性与反映参与者决策行为表现准确性的“参考准确性”。如果模型的准确性超过参考准确性,表明它可以有效地识别正确和错误的参与者反应。关键发现包括:
1.多模态EEG-图像特征在所有受试者数据集中均优于单一的EEG特征(t(14) = 3.05, p = 0.009)和图像特征(t(14) = 4.52, p = 0.0006)。
2.使用多模态EEG-图像特征的随机森林分类器的准确性在所有受试者数据集中均超过了参考准确性(t(14) = 7.34, p = 5.67e–6)。
3.EEG特征的表现并不比图像特征明显更好(t(14) = 1.51, p = 0.15)。
4.在比较单一特征时,使用图像特征的分类器的准确性并没有显著更好(t(14) = 1.14, p = 0.28),在S03、S05、S07和S14中未能超过参考准确性。相比之下,使用EEG特征的随机森林分类器的准确性显著高于参考准确性(t(14) = 3.13, p = 0.008),但在S05、S12和S14中未能超过参考准确性。
5.在个体水平训练中,随机森林分类器的平均准确性高于群体水平训练的所有图像、EEG和多模态图像-EEG特征。具体来说,使用所有特征的群体水平训练的准确性、精确性和F1分数低于单一受试者训练。
从公开可用的伪装图像数据集COD10K29中选取了200张图像。这些图像特征是在一个寻找动物的挑战场景中的单个动物。为了增强视觉清晰度并最小化搜索动物对象时的头部移动,所有图像都被调整大小到1000×600像素。图3展示了每次试验的过程。在每次试验开始时,会显示一个2秒的提示,显示动物的种类,然后是1秒的注视期。随后,包含动物的图像显示3秒,由细网格线划分为六个等大小的区域。参与者被指示定位并指出动物所在的区域。在1秒的注视期后,他们有2秒时间通过按键盘上的1到6号键做出决策。一旦他们做出选择,对象的正确位置就会被突出显示2秒,然后是下一个试验开始前的2秒休息时间。
图3:试验表现:在试验过程中,参与者识别出图像中的一只动物,并将其物种作为提示。参与者通过按下键盘上的数字1-6来指示动物的位置。然后揭示正确的位置,让参与者评估他们的反应。例如,如果正确的位置在区域2中,则绿色边界框会高亮显示该区域。
图4:本研究中的伪装物体与图像背景具有相似的颜色和形状特征。(a) 示例图像展示了各种目标对象特征,包括目标对象大小(VM-非常小、M-小、L-大和VL-非常大)、没有中心偏移(NoCB-位于图像的侧子区域1、3、4和6中的目标对象)、存在中心偏移(CB-位于图像的中心子区域2和5中的目标物体)、没有遮挡(NoOC-未被图像中的另一个对象覆盖的目标目标物体)和遮挡(OC-被另一个物体部分覆盖的目标物体。边界框用于在视觉上表示图像中目标对象的子区域位置。由分段任意模型(SAM)分割的目标对象的例子证明了分割方法的高质量,即使对于小的或被遮挡的对象也是如此。(b) 热图显示了图像数据集中八个目标对象特征(NoCB、CB、NoOC、OC、VM、M、L、VM)的分布。(c) 弦图描绘了图像数据集中的八个目标对象特征之间的相关性。目标对象大小(L、M和VM)与其他目标对象特性之间的相关性表现出良好的平衡关系。相反,可能由于图像数据集中VL目标对象的数量有限,涉及VL对象大小的相关性较低。此外,虽然CB和NoCB与其他目标对象特性的相关性是平衡的,但涉及OC和NoOC的相关性往往偏向于NoOC特性。
实验结果
这项研究的主要目标是识别能够区分正确和错误决策的重要EEG特征。ERP分析突出了枕叶、顶叶和中央顶叶大脑区域内的关键片段,作为预测决策准确性的重要区分因素。进一步分析确定了对随机森林分类器重要的EEG特征,强调了顶叶区域EEG通道的重要性。这一发现与之前的研究一致,强调了顶叶皮层在视觉搜索和决策任务中的关键作用。
研究的第二个重要目标是评估图像特征对决策结果的预测能力。通过使用传统和创新的特征提取方法,包括SAM,研究了基于图像的信息对决策正确性的影响。SAM方法明确了基本图像和目标对象特征之间的关系,对分类器特别有效。这突出了视觉信息在认知结果中的预测价值,与Li等人和Iigaya等人的研究结果相呼应,他们分别展示了图像特征在分类视觉质量和预测参与者选择行为中的潜力。
第三个目标是确定多模态融合的EEG和图像特征是否能够在预测决策准确性方面超越单一模态特征。通过严格训练分类器使用多模态和单一模态特征集,我们一致观察到多模态方法的优越性。这一发现与认知神经科学和机器学习领域日益增长的共识一致,即整合多个数据源可以显著提高模型准确性。类似的好处已经在使用多模态数据的研究中报告,例如EEG和眼动追踪用于情感和注意力分类,以及EEG与面部表情或语音信号用于情感识别。他们的结果进一步证实了多模态特征整合的有效性,表明这是一个提高认知科学和决策研究中预测模型的有前景的方向。
他们引入了一个以视觉搜索任务为中心的新颖决策制定实验范式。这种范式旨在解决传统歧视性决策任务的局限性,特别是正确猜测的高可能性,通过将伪装对象作为目标。这种方法增加了任务的复杂性,要求参与者更多的注意力,从而引发了分析所必需的更明显的认知模式。这种方法论创新是创造一个挑战参与者并引发决策过程中强大神经生理标记的任务环境的关键。
通过参与具有伪装目标的要求严格的视觉搜索任务,他们进入了一个可能与现有关于决策中大脑动态的发现不完全一致的领域。他们的方法与Luck的研究有相似之处,该研究也探讨了在复杂视觉场景中的决策过程。这项研究强调了EEG成分在视觉处理中的重要作用,主要观察到后脑区域的EEG成分。我们的发现证实了这些成分在受试者进行的视觉搜索任务中的参与,并且我们还识别了与决策过程和受试者重新评估其决策相关的晚期正电位(LPP)和晚期负电位(LNP)成分。这种解释得到了最近研究的支持,丰富了我们对在视觉复杂任务中决策的神经基础的理解。
此外,这项研究比较了使用单一模态EEG特征与图像特征的分类器性能,以及群体水平和个体水平训练之间的性能差异。他们的结果表明,EEG特征在一致性上超过了图像特征,这一趋势我们归因于EEG数据的动态性质。与缺乏时间信息的静态图像特征不同,EEG数据在整个试验过程中连续收集,捕捉大脑的快速反应以及试验和参与者之间的固有变异性。这丰富的时间信息提供了与决策准确性相关的大脑活动的更详细理解。个体水平和群体水平训练之间性能的区别是由参与者和实验条件之间的变异性驱动的。
在本研究中,EEG特征的分析揭示了决策过程中大脑活动的复杂性。通过事件相关电位(ERP)组件的观察,研究团队能够识别出与决策正确性相关的显著脑区和时间段。例如,ERP成分如P300,其振幅变化与决策任务中的注意力分配和工作记忆处理密切相关。这些发现不仅支持了先前的神经科学研究,而且还提供了一种新的视角来理解在复杂视觉搜索任务中的决策动态。通过精确测量和分析这些ERP成分,研究团队成功地预测了参与者在特定任务中的表现,准确率显著高于随机水平,这证明了EEG特征在预测人类决策表现中的有效性。
图像特征的分析侧重于从视觉信息中提取决策相关的线索。研究中使用的图像特征包括颜色、对比度、图像质量以及利用Segment Anything Model(SAM)提取的目标对象特征。这些特征反映了图像的视觉复杂性和目标对象的难以识别性,对于预测参与者在视觉搜索任务中的表现至关重要。实验结果表明,图像特征,特别是SAM提取的特征,能够显著提高预测模型的准确性。这些特征通过揭示图像中的隐蔽信息,为理解决策过程中的视觉处理提供了宝贵的洞见。
将EEG和图像特征结合起来的多模态方法在预测人类决策表现方面显示出了显著的优势。多模态特征融合通过整合来自大脑活动和视觉感知的信息,提供了一个更全面的决策表现预测框架。实验结果证实,多模态融合模型在准确性、精确性和F1分数等关键性能指标上均优于单一模态模型。这表明,多模态融合技术能够有效地利用不同数据源中的互补信息,从而提高决策预测的准确性和可靠性。
总体而言,这些实验结果强调了多模态融合在提高决策预测性能方面的潜力,为未来在高风险决策环境中开发先进的预测和警报系统提供了坚实的科学基础。
讨论
这项研究也有一些值得关注的局限性。首先,相对较小的数据集(只有14个受试者)可能限制了我们ERP发现的普遍性,并可能影响群体水平上分类器训练结果的稳定性或可靠性。其次尽管图像特征提供了检测目标对象的挑战洞见,但需要进行更全面的行为实验,具有不同的难度水平和受控条件,以准确确定每张图像的复杂性。这样的数据将使我们能够更细致地分析与对象检测任务相关的大脑动态。他们计划扩大和多样化EEG和行为数据收集,以解决这些限制并增强他们发现的稳健性。
他们的研究有效地展示了利用多模态EEG和图像特征来预测人类决策准确性的实用性。他们的结果表明,特别是来自顶叶皮层的EEG特征,显著增强了分类模型的区分能力,这一点通过改进的分类指标得到了证明。此外他们引入了SAM作为提取图像特征的技术,这在提高分类器性能方面已被证明是有益的。通过在视觉搜索和决策任务中加入伪装对象来模拟现实世界的复杂性,他们的实验范式紧密地反映了实际决策情境中遇到的挑战,需要增加参与者的参与度。这些洞见为开发旨在预先提示基于决策准确性预测模型的潜在人为错误的先进故障警报系统铺平了道路。
本研究通过多模态融合技术,即结合EEG和图像特征,为预测人类在复杂视觉搜索任务中的决策表现提供了新的视角。研究结果对于理解人类决策过程具有重要意义,尤其是在揭示大脑如何处理多种信息源以做出决策的机制方面。这些发现在实际应用中的潜在价值巨大,特别是在需要快速准确决策的高风险环境中,如医疗诊断、紧急响应和安全监控等领域。通过预测可能的错误决策,可以及时采取干预措施,从而减少不良后果。
尽管研究成果令人鼓舞,但也存在一些局限性。首先样本大小相对较小,仅包括14名受试者,这可能限制了研究结果的普遍性和分类器训练结果的稳定性。其次,特征选择可能受到了现有技术和理论的限制,未来的研究可能会发现更有效的特征组合。此外,模型的泛化能力也是一个关键问题,当前的研究可能无法完全捕捉到不同个体和复杂环境下的决策行为。
未来的研究可以在多个方向上进行拓展。首先可以通过增加样本量和多样性来验证和改进模型的泛化能力。其次可以探索更多种类的数据源和特征提取方法,以进一步提高预测准确性。此外,研究可以扩展到其他类型的决策任务,以测试模型在不同情境下的适用性。研究可以考虑实时数据处理和决策预测,这对于开发实时监控和预警系统尤为重要。通过这些努力,多模态融合技术在预测人类决策表现方面的应用前景将更加广阔。(END)
参考资料:https://www.nature.com/articles/s41598-024-63651-2