【LLM】大语言模型的情感理解和共情能力

sbf_2000

发布于 2024-6-4 09:09

浏览

0收藏

【LLM】大语言模型的情感理解和共情能力-AI.x社区

一、结论写在前面

同理心是促进亲社会行为的基础，可以通过分享个人经历的故事来唤起。虽然同理心受到叙事内容的影响，但直觉上，人们也通过叙事风格对故事的讲述方式做出反应。然而，同理心与叙事风格之间的关系尚未完全明了。

论文通过大型语言模型（LLMs）和大规模众包研究实证检验并量化了这种关系。论文引入了一种新颖的理论基础分类法，HEART（人类同理心与叙事分类法），该分类法阐述了叙事风格中的元素，这些元素能够引导听众对故事讲述者产生同理心。

论文展示了LLMs在从HEART中提取叙事元素方面的表现，表明使用论文的分类法进行提示能够产生合理的、达到人类水平的注释，超越了先前基于词汇的方法。为了展示论文分类法的实证应用，论文通过一项大规模众包研究收集了一个包含2，624名参与者对故事同理心评价的数据集。

论文发现，通过LLMs提取的叙事元素，特别是情感的生动性和情节的丰富度，能够阐明叙事风格如何培养对个人故事的同理心。论文的工作表明，这类模型可以用于叙事分析，从而获得以人为中心的社会和行为洞察。

二、论文的简单介绍

2.1 论文的背景

同理心是一种基础的心理过程，驱动着许多亲社会功能，通常通过讲故事和分享个人经历来传达。故事唤起的同理心反应受到故事内容之外的因素影响——传递方式、情境和读者特征都对此有所贡献。

【LLM】大语言模型的情感理解和共情能力-AI.x社区

图1：叙事风格可以通过讲述故事的方式唤起叙事共鸣。本研究引入了HEART，一个理论驱动的叙事元素分类法，这些元素有助于产生共鸣

叙事的情感共鸣。大多数关于叙事共鸣及其相关构念的研究集中在读者的特征和故事内容上。然而，直觉上，人们也会对故事的讲述方式或叙事中使用的文体手法做出反应（图1）。

自然语言处理（NLP）社区中叙事分析的一个关键挑战是，提取与共鸣相关的文体特征并非易事。先前的工作使用基于词数的方法或对极其有限的故事集使用手工制作的特征（来量化叙事元素。然而，更复杂的叙事手法，如情节转折或情感的生动性，仅凭词汇更难以概括。尽管有少数工作探索了使用大型语言模型（LLMs）进行更复杂的叙事分析任务，但文体手法的建模程度以及LLM提取的特征如何用于下游社会洞察的研究尚未充分展开。

叙事风格及其在共情中的作用。先前的工作理论化了叙事风格的转变如何影响故事的共情效果。Keen（2006）提出了一种叙事共情理论，该理论利用叙事技巧来增强共情，例如，角色的平坦或圆润性，角色的意识模式，以及对场景的生动运用。van Krieken等人(2017)提出了一种语言线索框架，用于衡量与叙事角色的认同，包括角色的维度，如故事的情感或感知主体。该框架涵盖了故事的背景元素，这些元素可以促进沉浸式体验，以及前景元素（如比喻语言），这些元素有助于与文本的美学体验(Jacobs， 2015)。

【LLM】大语言模型的情感理解和共情能力-AI.x社区

图2：叙事共情与风格分类，理论界定了与对叙事的共情相关的叙事风格方面

读者特征与叙事共情。尽管叙事风格可以影响共情，但其他因素，如读者的特征或阅读过程中的经历，也会影响共情。例如，心理学、经济学和神经科学研究表明，性别对人们的认知共情有显著影响，女性在各个年龄段表现出比男性更高的认知共情。叙事共情的水平也可能受到个人特质共情水平（Kon-rath et al.， 2018）、阅读时的情绪状态或对文学的一般接触的影响。解开这些因素的影响可能具有挑战性，已有一些先前的研究尝试，但结果各异。

2.2 HEART共情与叙事风格分类法

基于上述理论和实证研究，论文提出了HEART，一种能够导致共情的叙事风格元素的分类法。在《叙事共情理论》中，Keen认为角色塑造、叙事情境、内部视角以及表现角色意识的技巧等方面可以促进叙事共情。论文利用这些概念作为开发HEART的前导。论文的理论模型作为理解叙事特征的哪些方面可能引发共情以及论文如何使用计算方法来衡量这些因素的起点。

图2展示了论文的完整分类法，该分类法通过四个主要类别来界定叙事风格与叙事共情之间的关系：(1) 角色认同 (2) 情节 (3) 观点 (4) 背景。

角色认同论文提到的角色认同元素是指吸引读者进入叙述者视角的故事方面，无论是跨越内部维度（情感/认知）还是外部维度（感知/时间）。论文定义了六个高级分类法元素，这些元素可以在故事中促进与角色的认同，主要基于van Krieken等人(2017)关于角色认同的工作：

1.角色的扁平/圆形，包括通过故事过程中的角色发展或角色脆弱性表现出的角色深度。

2.情感主体，指情感在语气和情感生动性方面的表达方式。

3.认知主体，捕捉诸如思考、计划和决策等认知表达。

4.道德主体（，主要指通过故事传达的叙述者评价或意见表达。

5.行动主体，指角色行动的表达。

6.主体感知，捕捉角色经历的感知和身体感觉的生动性。

7.时间参照，包含表达的怀旧（回顾过去）或预测和期待（展望未来）。

【LLM】大语言模型的情感理解和共情能力-AI.x社区

表1：两位专家人类注释者在论文分类法的叙事元素上的一致性。分数乘以100并四舍五入以提高可读性，并按KA排序。斯皮尔曼相关性p表示显著性

情节定义情节一直是叙事分析中的关键任务，并通过在关键时刻增强叙述者的故事来促进共情。论文界定了与叙事共情相关的三个情节方面：

1.情节容量捕捉了故事中事件的频率和重要性。

2.情感变化指示了故事整体情感轨迹的波动（如从低到高价值反之亦然）。

3.解决捕捉了角色经历主要冲突后的紧张释放。

视角先前的研究指出，视角可以影响对叙述者的共情（Eekhof 等人，2023；Fernandez-Quintanilla，2020；Spitale 等人，2022）。例如，第一人称视角可以强调故事的个人性质，并使读者深入叙述者的角色。

背景最后，叙述者的环境和背景可以促进叙事共情（Pille-mer，1992；van Krieken 等人，2017），例如通过构建世界来增强叙事传递。论文通过叙事中背景描述的生动性来捕捉这一要素。

2.3 HEART-felt Stories 数据集标注

论文对 HEART-felt Stories 数据集进行了标注，这是一个包含专家对部分故事评级的个人叙事语料库。

2.3.1 故事数据集

为了实证观察 HEART 的叙事元素，论文从 EMPATHICSTORIES（Shen 等人，2023）和 EMPATHICSTORIES++（数据集中选取了一个种子数据集，这些数据集专门设计来包含意义深远且脆弱的个人故事，涵盖了多样化的叙述者和话题（如人际关系、心理健康、职业和学业等）。

EMPATHICSTORIES 数据集包含来自社交媒体网站（Facebook、Reddit）、众包个人叙事和转录播客的 -1，500 个个人叙事。EMPATHICSTORIES++ 数据集包含约 500 个自动转录的与 AI 互动的对话式个人故事。论文过滤掉了可能有害的话题（如提及性侵犯、过度咒骂），并排除了字数少于 200 字的故事（可能不包含丰富的叙事风格元素），最终得到一个包含 874 个个人故事的数据集。

2.3.2 专家叙事风格标注

论文从最终的874个故事数据集中随机抽样了50个故事，以获取专家对叙事元素的标注，并验证大型语言模型（LLM）在该任务上的表现。论文从分类法中选取了12个难以从现有NLP工具包中提取的叙事元素，这些元素需要人类判断，因为任务的主观性。论文的研究团队中三位具有文本分析和标注专业知识的独立成员，通过迭代设计了一个编码本（附录C），其中包含评估每个元素存在的指导和示例。

随后，两位独立的专家标注员对50个采样故事中12个叙事元素的存在情况进行了评分。表1显示了使用Krippendorf的α系数(KA)、成对一致性百分比(PPA)和Spearman相关系数(ρ)计算的2位标注员之间的一致性。所有评分都呈正相关，但不同的叙事元素有不同程度的一致性。

【LLM】大语言模型的情感理解和共情能力-AI.x社区

表2：论文分类法中叙事元素的聚合人类标注者（黄金评分）与GP1-4评分之间的协议。

【LLM】大语言模型的情感理解和共情能力-AI.x社区

2.4 用于叙事风格提取的大型语言模型

在表2中，论文报告了同样50个采样故事上人类评分平均值和GPT-4评分之间的一致性。论文观察到GPT-4和人类标注员之间的一致性模式与论文两位专家标注员之间的一致性相似。GPT-4为人物脆弱性、乐观性和故事结局等叙事特征提供了高度一致的评分。因此，论文使用GPT-4提取语料库中所有剩余故事的叙事元素，并在后续的实证研究中排除与人类黄金标准标签一致性低的特征。

2.4.1 大型语言模型与词典的性能比较

论文发现，GPT-4提取的乐观基调、生动情感和人物脆弱性特征与人类评分的一致性优于LIWC对应项，尽管只有人物脆弱性在统计学上显著更高(Fisher精确检验的p值<0.001)。然而，LIWC在认知类别上优于GPT-4，尽管统计学上不显著。论文在下面的错误分析中讨论了使用GPT-4提取叙事认知水平的潜在错误来源。

2.4.2 错误分析

论文观察到，与人类注释者相比，GPT-4在评估故事中表达的评估和认知水平时始终过高。通过定性分析GPT-4和人类在故事上存在较大分歧的示例（，GPT-4通常将情感反应与评估、归因或欲望混为一谈（例如：“它让我想起了我第一次上大学的情景...我的父母多么为我兴奋和害怕。我自己也是既兴奋又害怕。”）。对于认知错误，论文发现这些系统性错误通常是由于GPT-4将回忆与认知演示混淆，而实际上故事中并没有包含更多的内在思考过程。

最终，论文的验证研究表明，LLMs可以近似提取与共情相关的叙事元素，这与先前的工作（相印证，但某些特征对模型来说更难以识别。论文在下一节中展示，即使没有完全一致，GPT-4的叙事评分仍然揭示了关于叙事共情的趣味行为见解。

2.5 测量共情的人类研究

这里论文将讨论论文的研究参与者、任务程序以及论文的数据收集和使用的度量。

2.5.1 参与者

论文在Prolific上招募了2，624名参与者，以阅读并评价对个人故事的共情。参与者的概况见附录A。参与者性别平衡，主要是白人，平均具有较高的特质共情。

2.5.2 研究程序

在获得IRB批准的研究开始时，参与者首先评价他们当前的情绪状态（唤醒/效价），然后阅读一个个人故事。阅读故事后，他们被要求评价对故事的共情程度，并检查论文的分类法中哪些叙事元素对其对故事的情感反应贡献最大。论文还提出了一个开放式问题，询问叙事风格的哪些方面使他们与故事产生共鸣。

在此之后，论文要求参与者回答与以下内容相关的问题：(1) 叙述-读者互动效应，这包括与阅读叙述过程相关的读者因素（叙述传输、与故事中发生的事件相关的先前经验，以及与叙述者的感知相似性）；(2) 读者特征（年龄、性别、种族、特质同理心、他们阅读娱乐的频率、流利语言和教育水平）。调查测量和选择这些测量的理由将在下一部分详细说明。所有参与者回答调查后获得1美元报酬，参与者平均花费7分钟完成整个任务。874个故事中的每一个都至少被独立读者评价了3次，总计产生了2，624次对故事的同理反应。

2.5.3 数据收集与测量

论文的用户研究旨在捕捉对多样叙述集合的同理心，这些叙述集合由具有不同读者特征的多样参与者组成，此外还包括可能调节叙述风格对同理心影响的变量。基于探索与同理心相关因素的实证工作，论文设计了以下调查（所有调查均包含在附录E中以供可重复性。论文公开了数据集，以促进对叙事共情分析的深入研究。

【LLM】大语言模型的情感理解和共情能力-AI.x社区

图3：叙事风格元素和读者特征如何影响读者对叙事的体验（叙事-读者交互效应)的可视化。所有这些组件结合起来进而影响下游的叙事共情

共情与叙事风格偏好论文通过状态共情量表来衡量对故事的共情。为了评估叙事风格偏好，参与者从论文的分类法中勾选出那些他们认为有助于对故事产生共情的元素。此外，论文还要求提供关于哪些叙事风格元素有助于对故事产生共情的定性自由反馈。

叙事-读者交互效应论文将读者特征与阅读叙事体验的交集处的影响定义为叙事-读者交互效应。这些包括：(1) 叙事沉浸，通过沉浸量表简版/TS-SF测量；(2) 先前经验，通过利克特量表衡量读者认为自己与叙述者所处情境的相似程度；(3) 对叙述者的感知相似性，通过感知关系多样性量表（Clark， 2002）测量。这些特征使论文能更好地理解叙事风格元素如何通过与叙事-读者交互作用导致下游共情的途径。

读者特征论文基于与共情相关的属性的全面文献回顾收集读者特征。这些特征包括：(1) 读者在阅读故事前的情绪状态，通过唤醒/效价量表测量；(2) 基本人口统计信息，包括年龄、性别、种族，（3）参与者为了娱乐而阅读的频率，以及（4）特质共情，通过单一项目特质共情量表/SITES和多伦多共情问卷/TEQ进行测量。Prolific 自动提供参与者的额外人口统计信息，如流利语言、国籍、就业和学生身份。

【LLM】大语言模型的情感理解和共情能力-AI.x社区

图4：比较每种叙事特征高与低存在时的平均共情，论文发现，在角色发展和情节量更多的故事中，共情显著增加

2.6 叙事共情的实证洞察

通过注释的叙事元素、个人故事的多样共情评分以及读者特征，论文展示了论文的分类法在探索与数据集中相关特征子集有关的共情实证问题方面的有效性。

叙事风格影响共情首先，论文通过取3位评分者的平均值来聚合每篇故事的共情评分。然后，论文将故事分为每种叙事特征的高与低存在，并对故事的平均状态共情应用Mann-Whitney u检验。图4显示，高度聚合的共情故事具有更多的角色发展和情节量。

叙事共情并非一刀切尽管论文之前的分析捕捉到了聚合的共情，但不同的人对同一故事可能会有不同的情感反应。在图6（附录B）中，论文展示了同一故事状态共情得分的标准差，发现平均而言，这个标准差显著大于零（p < 0.001），表明同一叙事可以引发不同水平的共情。

叙事的生动情感表达导致叙事共情鉴于论文的发现，叙事共情并非“一刀切”，论文进行了分析，考虑了每个故事ID的随机效应，使用semopy库进行结构方程建模。结构方程建模是社会科学中用于结构化假设检验的标准方法，它使用广义线性模型的表述来考虑在提出元素间关系的理论模型时固定效应和随机效应。

【LLM】大语言模型的情感理解和共情能力-AI.x社区

图5：叙事风格元素如何导致叙事沉浸的结构方程模型，同时考虑了读者与叙述者共享相似经历以及读者的基线特质共情的影响

根据论文在图3中的理论模型，论文看到情感的生动性显著影响叙事沉浸，进而影响对故事的下游共情。图5展示了叙事特征如何促进叙事沉浸，导致下游共情，并考虑了非风格因素，如读者与叙述者共享相似经历以及读者的特质共情水平。论文发现，叙述者对故事中发生的事情的先前经历以及他们的基线特质共情都是对故事共情的重要预测因子，但不如叙事沉浸那么显著。

叙事风格偏好与共情的关系是个性化的最后，论文展示了不同的群体可能偏好不同的叙事方式，其中偏好通过叙事共情来衡量。在论文的结构模型中加入交互项，论文发现生动的情感对状态共情有显著的交互效应（est = 0.252，p < 0.001）。这表明，随着特质共情的增加，生动情感与状态共情之间的关系增强，暗示叙事风格偏好因群体而异。

尽管论文的实证分析肯定不是详尽无遗的，但它展示了如何使用HEART来获得关于叙事风格如何促进同理心的有趣行为见解。特别是，论文注意到，在叙事同理心中考虑个性化，以及情境化读者因素（如他们的特质同理心水平）对于同理心预测至关重要，而这些因素在现有的同理心任务中常常被忽视。

论文标题：HEART-felt Narratives:Tracing Empathy and Narrative Style in Personal Stories with LLMs

论文链接：https://arxiv.org/pdf/2405.17633

标签

语言

模型

方程

51CTO

51CTO博客

51CTO学堂

【LLM】大语言模型的情感理解和共情能力

一、结论写在前面

二、论文的简单介绍

2.1 论文的背景

2.2 HEART共情与叙事风格分类法

2.3 HEART-felt Stories 数据集标注

2.3.1 故事数据集

2.3.2 专家叙事风格标注

2.4 用于叙事风格提取的大型语言模型

2.4.1 大型语言模型与词典的性能比较

2.4.2 错误分析

2.5 测量共情的人类研究

2.5.1 参与者

2.5.2 研究程序

2.5.3 数据收集与测量

2.6 叙事共情的实证洞察

目录