使用BERT的LLM提取摘要 原创
在当今快节奏的世界里,充斥着太多的信息,并且难以处理。人们越来越习惯于在更短的时间内接收更多的信息,当他们不得不阅读大量的文件或书籍时,可能会感到沮丧。这就该提取摘要发挥重要作用了。为了提取文章的核心内容,这个过程从文章、页面或段落中提取关键句子,为人们提供一些要点的快照。
对于那些无需逐字阅读就能理解大型文档的人来说,提取摘要是游戏规则的改变者。
本文深入探讨了提取摘要的基本原理和应用,并将研究大型语言模型的作用,特别是BERT(来自Transformers的双向编码器表示)以增强该过程。本文还将包括一个使用BERT进行提取摘要的实践教程,展示它在将大量文本精简成信息丰富的摘要方面的实用性。
理解提取摘要
提取摘要是自然语言处理和文本分析领域的一项重要技术。提取摘要可以从原文中精心挑选出关键的句子或短语,并将其组合起来,形成一个简洁而翔实的摘要。这包括仔细地筛选文本,以确定所选文章中最关键的元素和中心思想或论点。
在抽象摘要涉及生成源材料中通常不存在的全新句子的情况下,提取摘要则坚持原始文本。它不会改变或改写句子,而是准确地提取句子原义,保持原来的措辞和结构。这样,摘要就能与源材料的基调和内容保持一致。在信息的准确性和保留作者的原始意图成为优先事项的情况下,提取摘要技术是非常有益的。
它有很多不同的用途,例如总结新闻文章、学术论文或长篇报告。这个过程有效地传达了原始内容的信息,而不会出现转述时可能出现的潜在偏见或重新解释。
抽取摘要如何使用大型语言模型(LLM)?
1.文本分析
例如,该模型将分析一个包含四句话的段落,将其分解为以下四个句子。
- 建于古埃及的吉萨金字塔巍然屹立了数千年。
- 它们是为法老建造的陵墓。
- 大金字塔是最著名的金字塔。
- 这些金字塔是建筑的智慧象征。
2.特征提取
在这个阶段,算法需要分析每个句子,以识别特性(Characteristics)或特征(Features),这些特性或特征可能表明它们对整个文本的重要性。常见的特征包括关键词与短语的频率和重复使用、句子的长度、它们在文本中的位置及其含义,以及对文本主题中心的特定关键词或短语的存在。
以下是一个大型语言模型(LLM)如何对第一句话进行特征提取的例子:“吉萨金字塔,建于古埃及,巍然屹立了数千年。”
3.对句子进行评分
简单地说,这个过程对每个句子的潜在意义进行评估,对整个文本进行总结。
4.选择与聚合
为了创建有效的摘要,算法必须平衡包括重要句子的需求,这些句子必须简洁,避免冗余,并确保所选句子提供对整个原文的清晰和全面的概述。
建于古埃及的吉萨金字塔巍然屹立了数千年。它们是为法老建造的陵墓。这些金字塔是建筑智慧的象征。
这是一个非常基础的例子,从总共4个句子提取了3个句子,以获得最佳的整体概括。多读一个句子并没有坏处,但如果文本变长了怎么办?例如有三个段落的文本?
如何运行BERT LLM提取摘要
步骤1:安装和导入必要的软件包
!pip install bert-extractive-summarizer
from summarizer import Summarizer
步骤2
从Python中的摘要器导入的Summarizer()函数是一个提取文本摘要工具。它使用BERT模型从更大的文本中分析和提取关键句子。该功能的目的是保留最重要的信息,提供原始内容的精简版本。它通常用于高效地总结冗长的文档。
model = Summarizer()
步骤3:导入文本
text = "The history of Graphics Processing Units (GPUs) dates back to the early 1980s when companies like IBM and Texas Instruments developed specialized graphics accelerators for rendering images and improving overall graphical performance. However, it was not until the late 1990s and early 2000s that GPUs gained prominence with the advent of 3D gaming and multimedia applications. NVIDIA's GeForce 256, released in 1999, is often considered the first GPU, as it integrated both 2D and 3D acceleration on a single chip. ATI (later acquired by AMD) also played a significant role in the development of GPUs during this period. The parallel architecture of GPUs, with thousands of cores, allows them to handle multiple computations simultaneously, making them well-suited for tasks that require massive parallelism. Today, GPUs have evolved far beyond their original graphics-centric purpose, now widely used for parallel processing tasks in various fields, such as scientific simulations, artificial intelligence, and machine learning. Industries like finance, healthcare, and automotive engineering leverage GPUs for complex data analysis, medical imaging, and autonomous vehicle development, showcasing their versatility beyond traditional graphical applications. With advancements in technology, modern GPUs continue to push the boundaries of computational power, enabling breakthroughs in diverse fields through parallel computing. GPUs also remain integral to the gaming industry, providing immersive and realistic graphics for video games where high-performance GPUs enhance visual experiences and support demanding game graphics. As technology progresses, GPUs are expected to play an even more critical role in shaping the future of computing."
以下是代码块中没有包括它的文本:“图形处理单元(GPU)的历史可以追溯到20世纪80年代初,IBM和德州仪器等公司当时开发了专门的图形加速器,用于渲染图像和提高整体图形性能。然而,直到20世纪90年代末和21世纪初GPU才随着3D游戏和多媒体应用的出现而崭露头角。NVIDIA公司的GeForce 256于1999年发布,通常被认为是全球第一款GPU,因为它将2D和3D加速功能都集成在一个芯片上。ATI公司(后来被AMD公司收购)在这一时期的GPU开发中也发挥了重要作用。
GPU的并行架构有数千个核心处理器,使它们能够同时处理多个计算,非常适合需要大规模并行性的任务。如今,GPU已经远远超出了其最初以图形为中心的用途,现在被广泛用于各种领域的并行处理任务,例如科学模拟、人工智能和机器学习。金融、医疗保健和汽车工程等行业利用GPU进行复杂的数据分析、医学成像和自动驾驶汽车开发,展示了其超越传统图形应用程序的多功能性。
随着技术的进步,现代GPU不断突破计算能力的极限,通过并行计算在不同领域实现突破。GPU仍然是游戏行业不可或缺的一部分,为视频游戏提供身临其境和逼真的图形。高性能GPU增强了视觉体验,并支持要求苛刻的游戏图形。随着技术的进步,GPU有望在塑造计算的未来方面发挥更关键的作用。”
步骤4:执行提取摘要
# Specifying the number of sentences in the summary
summary = model(text, num_sentences=4)
print(summary)
摘要输出:
图形处理单元(GPU)的历史可以追溯到20世纪80年代早期,IBM和德州仪器等公司当时开发了专门用于渲染图像和提高整体图形性能的图形加速器。NVIDIA公司于1999年发布的GeForce 256通常被认为是第一款GPU,因为它在单个芯片上集成了2D和3D加速功能。如今,GPU已经远远超出了其最初以图形为中心的目的,现在广泛用于各种领域的并行处理任务,例如科学模拟、人工智能和机器学习。随着技术的进步,GPU有望在塑造未来的计算中发挥更加关键的作用。
该模型从庞大的文本语料库中提取了4个最重要的句子来生成这个摘要!
使用大型语言模型提取摘要的挑战
语境理解局限性
训练数据偏差
处理专业或技术语言
结论
很明显,提取摘要不仅仅是一个方便的工具;在信息饱和的时代,其重要性日益增长。通过利用BERT等技术的力量,可以看到复杂的文本如何被提炼成易于理解的摘要,这节省了人们的时间,并帮助他们进一步理解被总结的文本。
无论是学术研究、商业见解,还是在技术先进的世界里保持信息灵通,提取摘要都是一种实用的方法,可以在信息海洋中导航。随着自然语言处理的不断发展,像提取摘要这样的工具将变得更加重要,帮助人们快速找到并理解在这个分秒必争的世界中最重要的信息。
原文标题:Extractive Summarization With LLM Using BERT,作者:Kevin Vu
链接:https://dzone.com/articles/extractive-summarization-with-llm-using-bert。