IdentifyMe:一个具有挑战性的长文本指代消解基准测试
1 引言
共指消解(CR)是文本理解的一个基本任务。尽管LLMs在广泛的NLP任务上取得了巨大进展,但它们在CR上的表现相对不尽人意,甚至在指称检测上也面临困难。通过广泛分析,Gan等人(2024)的工作已经确定,在典型的CR设置中,由于基于跨度的输出格式不适合LLMs,因此低估了LLMs出色的指称理解能力。他们建议调整CR数据集和任务指标,以支持LLMs的评估。
沿着这些思路,我们创建了IdentifyMe基准测试,用于MCQ格式的指称消解,这种格式通常用于LLMs的评估。为了构建基准测试,我们使用了来自两个长文本共指基准测试LitBank和FantasyCoref的注释。为了使基准测试具有挑战性,我们限制了它只包括代词和名词指称,并为每种指称类型应用了一些启发式方法,以过滤掉容易解决的案例。每个MCQ实例都包含了标记有感兴趣指称的文本,选项包括文本中经常出现的实体和“以上都不是”(NoA)选项。图1展示了从LitBank派生的IdentifyMe中的一个示例。
我们对闭源和开源模型进行了评估。平均而言,LLMs在代词指称上的表现比名词指称要差,代词指称由于其有限的表面信息而更难识别。对于所有模型来说,“以上都不是”作为正确答案的实例尤其具有挑战性,开源模型的准确率下降了超过50%。在嵌套指称的情况下,LLMs往往会在具有重叠指称的实体之间产生混淆。得分最高的模型GPT-4o在IdentifyMe上获得了81.9%的准确率,突显了前沿LLMs在指称能力方面的强大实力,同时也表明在这一领域仍有很大的改进空间。
2 IdentifyMe基准测试
IdentifyMe是一个基于MCQ的基准测试,给定一个带有标记指称的文档,任务是识别它所指的实体。我们从专注于文学文本的两个共指数据集LitBank和FantasyCoref中派生了这些指称。这些数据集提供了长篇上下文(FantasyCoref平均为1700个词,LitBank为2000个词),并具有多个实体及其丰富的相互依赖性(例如,Mr. 和 Mrs. Pett),这使得解决指称变得更加具有挑战性。虽然LitBank提供了多样的写作风格和语言结构,但FantasyCoref包括的实体通常会采取不同的形式(例如,伪装和变形),或者在其头衔上发生变化(例如,Prince Rudolph在加冕后被称为The Emperor),这进一步增加了实体映射的复杂性。
共指注释将指向同一实体的指称分组为未标记的簇。然而,为了创建一个以实体为选项的MCQ,我们需要为每个簇分配一个代表性短语。我们使用GPT-4o-mini(见表8)根据它们的提及和频率为每个实体生成短语。这些注释经过手动审查,以确保每个实体都有一个独特的短语。
为了防止混淆,我们丢弃并避免标记那些:(i)包含注释错误的簇(例如,由于簇合并或分裂);(ii)太小(<3个提及)或难以/模糊标记的簇(例如,像some这样的实体);(iii)复数实体,因为它们通常缺乏可以从提及中派生的明确表面形式。
使用标记簇中的提及,从文档中创建一个MCQ,所有标记的实体都作为选项提供。为了创建一个高质量的基准测试,我们排除了短上下文文档(<1000个词)或那些被丢弃的实体占超过50%提及的文档。
2.1 选择IdentifyMe的指称
基于之前利用基于规则的语言模式来执行(Zhou and Su, 2004; Lee et al., 2013)或分析(Haghighi and Klein, 2009; Otmazgin et al., 2023)共指消解的工作,我们提出了一种两步启发式方法来识别具有挑战性的指称。
步骤1:丢弃简单指称。我们应用两个标准来过滤掉由于句法相似性而可以轻松解决的指称:
A. 名词模糊分数计算名词指称与相应实体的代表性短语之间的模糊相似度(灵活对待顺序和子集扰动)。得分为75%或更高的指称被丢弃,因为我们期望它们更容易被正确识别。
B. 网络干扰分数。我们根据性别、数量和活性等属性对代词指称进行分类(LingMess)。附近具有相同类别的代词指称(代词),并且指向同一实体的,可能有助于轻松识别标记指称。另一方面,那些来自不同类别但同一实体或同一类别但不同实体的指称可能使其更难识别。我们将标记指称的网络干扰分数定义为阻碍识别的相邻代词数量减去有助于识别的数量。我们丢弃得分为≤0的指称。
步骤2:按难度对指称进行排名。过滤后的指称从最难到最易进行排名:对于名词,较低的名词模糊分数是首选;对于代词,较高的网络干扰分数是首选。此外,标记指称与同一实体的其他指称之间的距离也表明了难度。我们考虑距离最近的指称、最近的名词指称和最近的类似于代表性短语的指称作为进一步排名的标准。所有这些单独的标准结合使用Copeland的方法(Copeland, 1951),通过评估成对胜负来确定最终排名。
2.2 数据集统计
IdentifyMe包括基于上述排名方法选出的1800个最难的问题。这些问题来自159篇文档(LitBank 64篇,FantasyCoref 95篇)。其中,随机选取的600个问题用作提示调整和消融实验的验证集。所有问题都包含一个“以上都不是”(NoA)选项,以鼓励模型以更大的确定性做出回应。为了评估模型是否可以选择NoA作为正确答案,我们从10%的问题中移除了原始的正确实体。数据集在验证和测试分割中都是跨源数据集和指称类型(代词和名词)平衡的。
2.3 IdentifyMe是否包含难指称?
我们进行了一项实验,以评估我们的指称选择过程的有效性。我们没有采用上述方法,而是随机挑选指称并评估模型识别它们的能力。Mistral-7B的性能差距为9.5%,而更为稳健的GPT-4o-mini的性能差距为7.2%,这表明IdentifyMe包含了更具挑战性的指称。
3 实验
3.1 模型
在闭源模型中,我们评估了GPT-4o、GPT-4o-mini和Gemini-1.5-Flash。由于计算限制,我们将开源模型的评估限制在10B以下的变体:Llama-3.1-8B和Mistral-7B。
3.2 MCQ设置
选定的指称在原文中用特殊标记括起来。零样本提示指导模型从给定的实体集合和NoA中检索并重新解决指称,并识别它所指的人或事物。
3.3 推理细节
对于开源模型,我们使用regex-based受限解码来限制答案仅为特定的实体代表性短语。我们还尝试了链式思维(CoT)方法,指导模型在回答问题之前解释其推理过程。结果表明,使用CoT可以提高模型性能。
3.4 结果
表3展示了LLMs在IdentifyMe测试集上的整体表现,以及按名词和代词指称类型的细分。随机基线在基准测试中的准确率为8%。尽管所有LLMs都优于随机基线,但开源模型仍有很大的改进空间,Llama-3.1-8B的准确率仅为53.3%。GPT-4o是表现最好的模型,准确率为81.9%。同时,GPT-4o-mini作为一个经济实惠的闭源选项,超越了较小的开源模型,但仍落后于GPT-4o和Gemini-1.5-Flash等顶级表现者。
3.5 错误分析
比较实体与NoA。表5提供了当正确选项为实体(Ent)与NoA时的准确率分布。此外,我们将错误分为三类:(a)真实值是实体而模型选择了另一个实体(Ent-Ent),(b)真实值是实体但模型预测了NoA(Ent-NoA),以及(c)真实值是NoA但模型选择了实体(NoA-Ent)。开源模型在NoA子集上的表现极差,导致高NoA-Ent错误。在闭源模型中,Gemini-1.5-Flash在NoA MCQs上的表现较差(下降48.3%),并倾向于在选择NoA时选择实体(83/120)。有趣的是,GPT-4o和GPT-4o-mini在NoA问题上更具弹性,分别仅下降了9.6%和0.9%。
嵌套指称。数据集中包含352个嵌套指称实例,其中一个指称的范围与另一个重叠。表6显示,嵌套指称的准确率与整体准确率相当。然而,当模型在解决这些指称时出错时,约40%的错误是因为预测的实体对应于重叠的指称。
优点与创新
- 新的评估基准:引入了IdentifyMe,一个以多项选择题(MCQ)格式呈现的提及解析新基准,适用于评估大型语言模型(LLMs)。
- 长文本和多样化提及类型:IdentifyMe包含长文本(平均1700词)和多种提及类型及其对应的实体,允许对模型性能进行细粒度分析。
- 排除易识别的提及:使用启发式方法排除容易识别的提及,创建更具挑战性的任务。
- 显著的性能差距:在IdentifyMe上评估了闭源和开源LLMs,发现最先进的亚10B开放模型与闭源模型之间存在20-30%的性能差距。
- 高得分模型:最高得分的模型GPT-4o达到了81.9%的准确率,突显了前沿LLMs的强大指代能力,同时也表明仍有改进空间。
- 链式思维提示:实验中使用链式思维(CoT)方法提高了模型性能,特别是在处理“无答案”选项时。
不足与反思
- 领域限制:IdentifyMe仅限于文学领域,提及类型覆盖有限(仅有名词性和代词性提及),且实体类型不包括复数实体。
- 数据集来源:使用的数据集可在线获取,初步调查显示LLMs无法重现整个故事的CoNLL注释,尽管进行了大量处理,但仍有可能存在污染。
关键问题及回答
问题1:IdentifyMe基准测试是如何构建的?其独特之处是什么?
IdentifyMe基准测试是基于多个选择问题(MCQ)格式构建的,旨在评估大型语言模型(LLMs)在共指消解任务中的表现。其独特之处包括:
- 长文本上下文:IdentifyMe使用了LitBank和FantasyCoref两个长文本共指消解数据集中的注释,这些数据集提供了平均1700到2000词的上下文,使得任务更具挑战性。
- 多样化的提及类型:基准测试仅限于代词性和名词性提及,并对每种提及类型应用了一些启发式规则以过滤掉容易解决的案例。
- 精心设计的MCQ:每个MCQ实例由一段带有标记提及的文本组成,选择项包括文本中频繁出现的实体和“以上都不是”选项。
- 手动审核:为了确保每个实体的代表短语是独特的,使用了GPT-4o-mini生成短语,并由人工审核。
- 排除易解决的案例:通过名词模糊得分和净干扰得分筛选出难以解决的提及,并按难度进行排序。
问题2:IdentifyMe基准测试的结果显示LLMs在哪些方面存在困难?
- 代词性提及的消解:LLMs在处理没有明确表面形式线索的代词性提及时表现较差,尤其是那些缺乏足够上下文信息的代词。
- 选择“以上都不是”:当问题要求模型拒绝所有错误选项并选择“以上都不是”时,LLMs的表现尤其糟糕,开源模型在这一子集上的准确率下降超过50%。
- 嵌套提及:在处理嵌套提及时,LLMs容易混淆重叠的提及。尽管嵌套提及的准确性与整体准确性相当,但模型在解决这些提及时的错误中有约40%是因为预测的实体对应于重叠的提及。
问题3:IdentifyMe基准测试对未来的研究和模型改进有何启示?
- 改进评估方法:IdentifyMe展示了传统共指消解评估方法和输出格式无法充分捕捉LLMs的指代理解能力,提示需要开发更适合LLMs的评估方法。
- 增强模型训练:LLMs在处理代词性提及和嵌套提及时的困难表明,需要在模型训练中加强对这些复杂指代关系的理解和生成能力。
- 更多样化和复杂的基准测试:IdentifyMe的成功表明,设计多样化和复杂的基准测试可以更好地评估和改进LLMs的性能,特别是在处理长文本和多种提及类型时。
本文转载自 AI论文解读,作者:柏企