中科大提出UniMEL框架 | 革新知识图谱,引领多模态实体链接新纪元
多模态实体链接的重要性与挑战
多模态实体链接(Multimodal Entity Linking, MEL)是知识图谱领域中的一项基础任务,旨在将文档中的提及(mentions)链接到知识库中的实体。随着社交媒体和互联网的发展,文本和视觉的多模态性成为数据任务中的重要媒介。同时,线上信息的质量参差不齐,许多提及本身含糊不清,上下文信息粗糙,仅依靠文本模态往往难以进行有效消歧。然而,文本和视觉模态的结合往往能更精确、更轻松地进行消歧。例如,提及“United States”可能指代不同的实体,如国家名称、体育队伍或船只,但当同时考虑文本和视觉信息时,可以更容易地将“United States”准确链接到“美国国家轮椅橄榄球队”的实体。
尽管深度学习方法在MEL任务中取得了一定的成果,通过融合提及文本和图像获取提及表示、应用交叉注意力机制和编码图像提取特征等方法,但这些方法仍面临多个挑战:
- 实体描述冗余。通常,实体的描述过长,使得在消歧过程中难以聚焦于有效信息。
- 提及缺乏重要的语义信息。与实体不同,提及在包含的特征信息的上下文完整性上存在差异。
为了解决上述问题,我们引入了一个统一框架UniMEL,旨在使用大型语言模型处理MEL任务,充分融合多模态提及的图像和上下文,并生成实体的新简洁描述。据我们所知,这是首次在MEL任务中引入基于多模态大型语言模型(MLLMs)的方法。
论文概览:标题、作者、会议和链接
标题: UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models
作者: Qi Liu, Yongyi He, Defu Lian, Zhi Zheng, Tong Xu, Che Liu, Enhong Chen
会议: Proceedings of the 33nd ACM International Conference on Information and Knowledge Management (CIKM ’24
多模态实体链接的定义与应用场景
多模态实体链接(Multimodal Entity Linking, MEL)是一种在知识库中将文本提及(mentions)与实体相链接的任务,这些提及不仅包含文本信息,还包括视觉信息。这种链接方式在许多自然语言处理(NLP)的下游应用中非常有用,例如问题回答和推荐系统。随着社交媒体和互联网的发展,文本和视觉的多模态性成为了数据任务的重要媒介。例如,提及“美国”可能指向不同的实体,如国家、体育队伍或船只,但当同时考虑文本和视觉信息时,可以更准确地将其链接到“美国国家轮椅橄榄球队”的实体。
UniMEL框架的核心组件与工作流程
1. LLMs-based Entity Augmentation
为了解决实体描述过长和信息冗余的问题,UniMEL框架使用大型语言模型(LLMs)来有效地摘要实体描述。通过向LLMs提供实体名称和其原始描述,并设计特定指令来强调生成摘要的简洁性和内容要求,LLMs能够生成新的、简洁的、信息丰富的实体描述摘要。
2. MLLMs-based Mention Augmentation
利用多模态大型语言模型(MLLMs)的强大视觉理解和指令遵循能力,UniMEL框架增强了提及的描述信息。通过将提及的图像、名称和文本上下文输入MLLMs,并设计特定的任务指令来引导MLLMs专注于提及本身,从而生成高质量的文本描述,增强提及的信息。
3. Retrieval Augmentation
在选择最佳匹配实体之前,通常需要缩小候选集并尽可能确保其准确性。通过增强的实体和提及信息,首先将实体名称和新描述连接起来,并使用预训练的嵌入模型获取其嵌入表示。然后,计算提及嵌入与知识库中每个实体嵌入的余弦相似度,检索出相似度最高的K个实体。
4. Multi-choice Selection
在域特定任务和数据上微调LLMs可以增强其在处理特定任务中的能力。通过高质量的数据和小规模候选集,设计了一个用于LLM指令调整的提示模板。LLM根据给定的指令和文本输入预测答案,从而选择与提及最匹配的实体。
实验设计与数据集介绍
1. 数据集介绍
在本研究中,我们使用了三个公开的多模态实体链接数据集:Wikidiverse、WikiMEL和Richpedia。这些数据集包含了从不同来源收集的多模态样本,其中包括文本描述和相关图像。
- Wikidiverse数据集来源于Wikinews,涵盖了多种主题和13种实体类型(如人物、国家、组织、事件等),基于Wikipedia的知识库,总共包含约1600万个实体。
- WikiMEL包含超过22K个从Wikipedia和Wikidata抽取的多模态样本。与Wikidiverse相比,WikiMEL中的大多数实体类型是人物。
- Richpedia数据集收集了大规模多模态知识图谱Richpedia中的Wikidata实体索引,并从Wikipedia获取了多模态信息。
这些数据集的统计信息如下表所示:
数据集 | 训练集样本数 | 验证集样本数 | 测试集样本数 |
Wikidiverse | 12,800 | 1,600 | 1,600 |
WikiMEL | 15,400 | 2,200 | 4,400 |
Richpedia | 11,280 | 1,610 | 3,207 |
2. 实验设置
我们的实验设置遵循了之前的工作,数据集被划分为训练集、验证集和测试集。我们使用Wikidata作为我们的知识库,并移除了那些在Wikidata中找不到对应实体的提及。在Wikidiverse中,数据集被划分为80%训练集、10%验证集和10%测试集。在WikiMEL和Richpedia中,数据集被划分为70%训练集、10%验证集和20%测试集。
主要实验结果与分析
1. 实验结果
我们的UniMEL框架在三个数据集上的表现如下:
- Wikidiverse: Top-1准确率为92.9%,比之前的最佳方法提高了41.7%。
- WikiMEL: Top-1准确率为94.1%,比之前的最佳方法提高了21.3%。
- Richpedia: Top-1准确率为94.8%,比之前的最佳方法提高了22.3%。
这些结果表明,我们的UniMEL框架在多模态实体链接任务中具有显著的优势,并且能够有效地处理不同的数据集和实体类型。
2. 结果分析
我们的UniMEL框架通过整合文本和视觉信息,并对实体描述进行精简,有效地提高了实体链接的准确性。此外,我们还对模型进行了微调,仅调整了约0.26%的模型参数,这进一步提高了模型在特定领域任务上的表现。
通过对比不同的基线方法,我们发现即使是纯文本方法(如BERT),也能在某些数据集上展现出不错的性能。然而,结合视觉信息的方法(如我们的UniMEL)在处理含糊不清和质量较低的提及信息时,表现更为出色。
总体来说,这些实验结果验证了我们的UniMEL框架在多模态实体链接任务中的有效性和先进性。
模型的优势与挑战
1. 模型的优势
UniMEL模型在多模态实体链接任务中展现出显著的优势。首先,该模型通过结合大型语言模型(LLMs)和多模态大型语言模型(MLLMs),有效地处理了文本和视觉信息的融合问题。例如,通过MLLMs对提及的图像和文本上下文进行增强,使得模型能够更深入地理解图像与其上下文之间的语义关系。此外,UniMEL利用LLMs的总结能力,对实体描述进行精简,从而提高了实体检索的准确性和效率。
其次,UniMEL在候选实体集的缩减和重排方面也表现出色。通过嵌入模型对实体和提及的嵌入表示进行相似度计算,模型能够有效地缩小候选实体范围,并通过LLMs进行精确的多选匹配,从而提高了链接的准确性。
最后,实验结果显示,UniMEL在三个公开的多模态实体链接数据集上均达到了最佳性能,验证了其在实际应用中的有效性和优越性。
2. 模型的挑战
尽管UniMEL在多模态实体链接任务中表现出强大的能力,但仍面临一些挑战。首先,文本和视觉信息的有效融合仍是一个复杂的问题,尤其是在信息互补性不足的情况下,如何设计更有效的融合机制是提高模型性能的关键。
其次,尽管LLMs在处理文本信息方面表现出色,但它们在特定领域知识的应用上仍有限。如何让LLMs更好地适应特定领域的知识,以提高模型在特定任务上的表现,是未来研究的一个重要方向。
最后,从实体描述中提取有效信息并进行高效处理的问题也是挑战之一。当前模型虽然通过LLMs的总结能力对描述进行了精简,但如何进一步优化信息提取和处理流程,以提高处理速度和准确性,仍需进一步探索。
结论与未来工作方向
UniMEL框架通过整合LLMs和MLLMs,有效地解决了多模态实体链接任务中的关键问题,如文本和视觉信息的融合、实体描述的精简和候选实体集的高效处理等。实验结果表明,UniMEL在多个公开数据集上均取得了优异的性能,验证了其在实际应用中的有效性和前景。
未来的工作方向可以从以下几个方面进行:
- 改进信息融合机制:探索更有效的文本和视觉信息融合技术,以处理更复杂的场景和信息互补性不足的问题。
- 领域适应性增强:研究如何让LLMs更好地适应特定领域的知识,特别是在领域特定知识较为丰富的任务中,如何有效利用这些知识来提高模型的性能。
- 优化实体处理流程:进一步研究如何优化从实体描述中提取关键信息的方法,包括信息的提取、处理和表示,以提高模型在实体链接任务中的效率和准确性。
- 扩展模型应用场景:考虑将UniMEL框架应用于更多类型的NLP任务和其他需要处理多模态数据的领域,如图像标注、视觉问答等,以全面提升模型的实用性和影响力。
本文转载自 AI论文解读,作者:柏企