斯坦福大学研究团队破解小规模语料库知识获取难题，提出创新的合成持续预训练方法

发布于 2024-9-19 12:14

浏览

0收藏

引言：探索小规模语料库中的知识获取

在现代的自然语言处理领域，大规模预训练模型已经显示出了在各种知识密集型任务中的卓越性能。这些模型通常依赖于大量的、结构化不强的互联网文本数据进行训练，从而获取丰富的世界知识。然而，这种知识获取方式存在一个明显的问题：数据效率低下。为了学习特定的事实，模型必须在成百上千的不同表述中进行训练，这在面对小规模、特定领域的语料库时尤为突出，因为在这些语料库中，每个事实可能很少出现或仅出现一次。

为了解决这一问题，本文提出了一种新的方法——合成持续预训练（synthetic continued pretraining）。这种方法首先利用小规模的特定领域语料库合成一个更易于学习的大规模语料库，然后在此合成语料库上继续进行预训练。通过这种方式，模型能够在没有访问源文档的情况下回答问题和遵循与源文档相关的指令。

本研究的核心贡献包括提出了一种新的从小规模语料库中获取知识的方法，并通过实验验证了该方法的有效性。此外，本文还构建了一个简单的数学模型来分析合成数据增强算法，并展示了如何通过合成数据增强来“重新排列”知识，以实现更高效的学习。

论文标题: Synthetic Continued Pretraining

机构: Stanford University

论文链接:https://arxiv.org/pdf/2409.07431.pdf

研究背景与动机

在自然语言处理领域，大规模预训练模型已经显示出了在获取世界知识方面的显著能力，这使得它们能够执行知识密集型任务。然而，这种知识获取过程是数据低效的，模型需要在成百上千的不同表达中学习到特定的事实。这在适应特定领域的小规模文档集时尤为挑战，因为在这些文档中，某些事实可能很少出现或只出现一次。

为了解决从小规模语料库中获取知识的问题，我们提出了一种使用合成数据继续预训练的方法。这种方法首先使用小规模的领域特定语料库来合成一个更适合学习的大规模语料库，然后在这个合成的语料库上进行继续预训练。这种方法的核心在于，通过合成数据增强算法来增加数据的多样性，从而提高模型的数据效率和学习能力。

斯坦福大学研究团队破解小规模语料库知识获取难题，提出创新的合成持续预训练方法-AI.x社区

方法介绍：EntiGraph合成数据增强算法

1. 算法概述

EntiGraph是一种基于实体的数据增强算法，它通过分析文档中的实体及其关系来合成新的文本数据。该算法首先从源文档中提取关键实体，然后利用语言模型生成关于这些实体之间关系的文本描述，通过这种方式迭代地填充知识图谱。

2. 实体提取

EntiGraph首先对文档进行实体提取，识别出文档中的关键实体，如人名、地点、概念等。这一步是通过向预训练的语言模型输入文档并请求它标识出文档中的主要实体来完成的。

3. 实体描述生成

对于每个提取出的实体，EntiGraph使用语言模型生成该实体在文档上下文中的详细描述。这包括实体的定义、它在文档中的作用以及与其他实体的关系等。

4. 关系分析

在实体描述生成之后，EntiGraph进一步分析不同实体之间的关系。算法会探索实体对或实体组合之间的潜在联系，并生成描述这些关系的文本。这一步骤帮助模型理解和学习实体之间复杂的相互作用和依赖。

通过这三个步骤，EntiGraph能够从一个小规模的、信息密度高的语料库中生成一个大规模的、信息丰富且多样化的合成语料库，为语言模型的继续预训练提供了更丰富的训练材料。这种方法不仅增强了模型对特定领域知识的理解，还提高了模型在面对新领域或少见事实时的适应能力和表现。

实验设置

在本研究中，我们提出了一种名为“合成持续预训练”（synthetic continued pretraining）的方法，旨在通过合成数据增强来提高语言模型从小规模语料库中学习的效率。我们使用了一个名为EntiGraph的数据增强算法，该算法通过分析和合成文档中的实体关系来生成新的文本数据。

斯坦福大学研究团队破解小规模语料库知识获取难题，提出创新的合成持续预训练方法-AI.x社区

实验设计与评估方法

我们的实验基于标准的阅读理解数据集（QuALITY, Pang et al. (2022)）。在这个设置中，我们首先从一个包含265本书籍的小规模语料库（总共1.3M个token）中，使用EntiGraph生成了600M个合成token。接着，我们在这些合成token上继续预训练一个名为Llama 3 8B的语言模型，并在QuALITY问题集上评估模型的问答准确性。

数据增强算法：EntiGraph

EntiGraph算法首先从源文档中提取关键实体，然后利用语言模型生成关于这些实体的文本描述，以及这些实体之间的关系描述。这一过程包括三个步骤：

实体提取：从文档中识别出关键实体。
单实体描述：为每个实体生成详细的文本描述。
关系分析：生成描述实体间相互关系的文本。

通过这种方法，我们能够从一个高度浓缩的知识表示中生成一个大规模、多样化的合成语料库，为模型提供更丰富的学习材料。

主要实验结果与分析

问答准确性评估

在使用EntiGraph生成的600M合成token进行预训练后，我们观察到模型在QuALITY问题集上的表现显著提升。具体来说，模型的问答准确率从基线模型的39.49%提高到56.42%。这一结果表明，合成持续预训练能够有效地提高模型处理特定领域问题的能力。

与基线模型的比较

我们还将EntiGraph预训练模型与两个基线模型进行了比较：

原始语料预训练（Raw CPT）：直接在原始QuALITY文章上进行预训练。
重述语料预训练（Rephrase CPT）：在重述后的QuALITY文章上进行预训练。

结果显示，EntiGraph预训练模型在问答任务上的表现显著优于这两个基线模型，特别是与重述语料预训练模型相比，EntiGraph模型展示了更好的知识获取和应用能力。

斯坦福大学研究团队破解小规模语料库知识获取难题，提出创新的合成持续预训练方法-AI.x社区

数据增强的影响

通过对比不同数量的合成token对模型性能的影响，我们发现模型的准确率与使用的合成token数量呈对数线性关系。这一发现支持了我们的假设：通过增加合成数据的多样性和数量，可以有效地提升模型的学习效率和最终性能。

综上所述，合成持续预训练和EntiGraph数据增强算法在提高语言模型从小规模、专业领域语料库中学习的效率方面显示出了显著的潜力。这些结果为未来在更广泛的应用中使用合成数据生成技术提供了有价值的见解和证据。

总结

本研究提出了一种新颖的合成持续预训练方法，通过EntiGraph算法生成高质量的合成数据，有效地支持了小规模语料库上的知识学习。实验结果表明，该方法能够显著提高模型在特定领域的表现，尤其是在闭书问答和指令遵循任务上。此外，我们还探讨了合成数据的多样性和质量、模型的泛化能力以及计算效率和可扩展性等未来的研究方向。

通过合成持续预训练，我们不仅提高了模型在特定领域的表现，还为未来在数据受限环境下的模型训练提供了新的思路和方法。希望未来的研究能够在此基础上，进一步探索和优化合成数据生成和模型预训练的方法，以应对更广泛的应用场景和挑战。

本文转载自 AI论文解读，作者：柏企

标签

预训练

算法

模型