Google开源ToTTo数据集，你的模型还「撑」得住吗？-谷歌数据集

近日，Google研究人员提出一个大型从表转换到文本的英文数据集，已经在Git上开源。该数据集不仅提供了一个可以受控的句子生成任务，还提供了一个基于迭代语句修订的数据注释过程。实验结果证明，ToTTo可以作为有用且高效的数据集，用来帮助其他研究者建模研究，以及开发可以更好地检测模型改进的评估指标。

在过去的几年里，自然语言生成(用于文本摘要等任务)的研究取得了巨大的进展。

然而，尽管达到了高水平的流畅性，神经系统仍然容易产生「幻觉」(即产生的文本尽管可以被理解，但是含义并不忠实于源文本)，这使得这些系统不能用于许多需要高准确性的应用。

我们可以举例说明这个问题：

这是一个来自Wikibio数据集的例子，其中，负责总结比利时足球运动员Constant Vanden Stock的维基信息框条目的神经基线模型，在经过分析之后，错误地得出了他是一个美国花样滑冰运动员的结论，如下图：

虽然评估生成的文本与源内容的真实性相比，可能会具有一定的不一致。

但当源内容是结构化的(例如，以表格格式)时，在含义上保持一致往往会更容易。

此外，结构化数据还可以测试模型的推理和数值推理能力。

这么听上去，结构化数据是蛮好的，对不对？

然而，现有的大规模结构化数据集往往有噪声(即引用的句子不能从表格数据中完全推断出来)，这使得研究人员在模型开发中对「幻觉」的测量并不可靠。

针对这一问题，Google的研究人员提出了他们的解决方案：

在《ToTTo:一个受控的表到文本生成数据集》（ToTTo: A Controlled Table-to-Text Generation Dataset）中，研究人员提出了一个开放域的表到文本生成数据集。

该数据集是由一种新的注释过程（通过句子修改）以及一个可用于评估模型「幻觉」的受控文本生成任务生成的。

在接下来的介绍中，我们将「表到文本」称为ToTTo。

ToTTo包含121,000个训练示例，以及7,500个用于开发和测试的示例。

由于标注的准确性，该数据集适合作为研究高精度文本生成的具有挑战性的benchmark。

此外，数据集和代码已经在Google的GitHub repo上开源：

Git地址：https://github.com/google-research-datasets/totto

论文地址：https://arxiv.org/pdf/2004.14373.pdf

引入受控任务，维基百科表成输入来源

ToTTo引入了一个受控的生成任务——

在该任务中，源材料是带有一组选定单元格的给定维基百科表，而生成的则是一个总结表上下文中单元格内容的单句描述。

下图中的示例，展示了该任务中包含的一些挑战，例如数值推理、大量的开放域词汇表和多种表结构等等：

在ToTTo数据集中，输入是源表和高亮显示的单元格集(上图左侧)，而目标是生成一个句子描述，例如“Target Sentence”(上图右侧)。

在这里需要注意的是，生成目标句子需要数值推理能力和对NFL领域的理解。

注释器可实现分阶段修订，目标句简洁自然有趣

接下来，研究人员要设计一个注释过程，这个注释过程可以使得从表格数据中获得语法自然又干净简洁的目标句子，而这，无疑是一个重大的挑战。

为什么呢？

一个方面来说，许多像Wikibio和RotoWire这样的数据集，会将自然产生的文本启发式地与表配对，然而，这是一个「嘈杂」的过程，因为在这个过程中，我们很难弄清楚「幻觉」主要是由数据噪声还是模型缺陷引起的。

从另一方面来说，研究者确实可以让注释器从头开始编写忠于表的目标句子，但是不好的一点是，最终的目标句子在结构和风格方面往往缺乏多样性。

相比之下，ToTTo是使用一种新的数据注释策略构建的——

在这个方法下，注释器可以分阶段修改现有的维基百科句子。

如此以来，目标句可以具有简洁干净、自然的特点，并且还能包含有趣和多样的语言特性。

具体过程是这样的：

数据收集和注释过程会从Wikipedia收集表开始，其中「给定表」会与根据启发式从支持页面上下文收集的「摘要句」配对。

这个摘要句可能包含没有表格支持的信息，也可能包含只有表格中有先行词的代词，而不是句子本身。

然后，注释器突出显示表中支持该句子的单元格，并删除表不支持的句子中的短语。

此外，注释器还将句子去语境化，使其独立成文(例如，在必要的时候使用正确的代词)，具有正确的语法。

实验结果表明，注释器对上述任务的一致性很高:

单元格高亮显示的Fleiss Kappa为0.856，最终目标句子的BLEU为67.0。

结果分析涉及话题极其广泛，「体育和国家」占比最大

Google的研究人员对ToTTo数据集进行了超过44个类别的主题分析，例如体育和国家主题。

每个主题都包含一系列细粒度的主题，例如体育的足球/奥林匹克和国家的人口/建筑，这些共占数据集的56.4%。

另外44%的话题范围更广，包括表演艺术、交通和娱乐。

此外，研究人员对随机选取的100多个实例数据集中的不同类型的语言现象进行了人工分析。

下表总结了需要参考页面和章节标题的部分例子，以及数据集中可能对当前系统构成新挑战的一些语言现象：

全新角度测试诸多先进模型，BERT-to-BERT最能还原原文含义

研究人员从文献中提供了三个最先进模型(BERT-to-BERT、指针生成器和Puduppully 2019模型)，使用了两个评估指标，即BLEU和PARENT。

除了报告整个测试集的分数外，研究人员还在一个由域外示例组成的更具挑战性的子集上评估了每个模型。

实验结果如下表所示：

我们可以发现，BERT-to-BERT模型在「亲近原文本」方面表现最好。

此外，所有模型在挑战集上的性能都相当低，这表明了域外泛化任务还是具有很强的挑战性。

虽然自动指标可以提供一些性能信息，但目前还不足以评估文本生成系统中的「幻觉」现象。

为了更好地理解「幻觉」，研究人员假设差异表明「幻觉」，并手动评估了最高表现基线，以确定目的句子对源表内容的忠实程度。

结果显示，最高表现基线下，出现「幻觉」信息的概率为20%。

当前最新模型仍有诸多不足，文本生成「路漫漫其修远兮」

在下表中，研究人员选择了观察到的模型错误，以突出显示ToTTo数据集的面临的一些更有挑战性的问题：

研究人员发现，即使使用「干净」的引用参考内容，最先进的模型也会与「幻觉」、「数值推理」和「罕见的主题」等问题「纠缠不清」(在上图中，错误用红色表明）。、

而最后一个例子表明，即使模型输出是正确的，它有时也没有原始引用提供的信息丰富——

原始引用包含了更多关于表的推理(在上图中，用蓝色显示)。

最后，除了提出的任务，研究人员还表示，希望ToTTo也可以帮助其他任务，如表格的理解和句子的修改。