华人小哥的“黑话”数据集，AI：你连dbq都不懂-51CTO.COM

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

提到“007”，你一定会想到詹姆斯·邦德。

这样具有隐藏含义的词，可以统称为Cant，包括暗语、隐语、行话等。

常见的，比如“666”，还有zqsg、xswl等网络“暗语”……

对这些词的理解，在日常生活、广告和喜剧中都十分重要。

那么，怎么能让AI理解它们？

最近，来自USCD和北航的研究者，就一边“玩游戏”，一边为Cant开发了一个数据集——DogWhistle，并且已经开源。

研究团队根据经典桌游「Decrypto（截码战）」进行改编，设计了「Decrypto Online」，利用其中的记录收集数据。

华人小哥的“黑话”数据集，AI：你连dbq都不懂，xswl |NAACL 2021

△Decrypto Online玩家界面

概括而言，Decrypto游戏就是将4个玩家分为2队，队长提供线索词B，以便让队友把它和初始词A关联起来，同时要避免对手推断出A词。

具体来说，每个队伍有序号1-4的四个初始词，只有本队成员可以知道这些词。

每一回合由队长抽取密码卡，根据卡上的3个数字，给出对应序号词的线索（Cant）。比如：初始词1是“黑色”，那么1对应的线索词可以用“夜晚”。

第一回合中，队友根据线索词，推断卡上的数字，并由队长公开是否正确。与此同时，对方将会记录这些信息。

而在第二回合，队长再次抽数字卡，并给出线索词，两队都要据此推断数字，答案正确则记一分。

也就是说，队长给出的线索词，既要让队友对应到初始词上，同时还要避免对手摸清其中的关联。

研究人员给模型设置了两个子任务，初始词分别为可见和不可见。

内部人员子任务模拟内部人员之间的通信，第一行的4个初始词作为输入内容。由于emoji表情符号在交流中起着重要的作用，因此也被允许作为有效输入。

模型通过初始词和线索词进行推断，预测并输出初始词对应的序号(灰色背景)。

而外部人员子任务中，初始词是不可见的。

模型通过猜词记录、线索词等进行推断，预测并输出记录对应的序号(灰色背景)。

为了解不同模型对Cant的理解能力，研究人员通过两个子任务进行了定量分析。

华人小哥的“黑话”数据集，AI：你连dbq都不懂，xswl |NAACL 2021

△两个子任务的准确度得分对比

在词嵌入相似度的测试中，用多样化的大型数据集训练的DSG，性能显著优于其他模型。

而具有更强计算能力的大尺寸模型，在内部任务中的表现显著优于基础尺寸模型。例如，RoBERTa-base和ERNIE-base，都优于BERT-base。

此外，采用参数共享的ALBERT-base，在两个任务上都略微低于BERT。

值得注意的是，在两个任务中表现最好的模型，分别以12.8和8.5的较大差距，落后于人类的表现。

这表明DogWhistle是一个非常具有挑战性的数据集，为下一代预训练语言模型提供了新的竞技场。

研究人员还给出了在内部任务中，BERT未能预测，但人类可以正确预测的代表性样本。

“Dancing Pallbearers（黑人抬棺舞）” 在模型发布后才出现，以至于模型可能对该话题的认识不多。

对“007”（指詹姆斯·邦德电影）的推理，需要模式对各种知识有高度理解，而不是过度拟合浅层的词汇特征，这也被认为是自然语言推理的主要缺陷。

还有“孩子都可以打酱油了”，也要求模型具有广泛的语言知识才能理解。

研究人员将DogWhistle数据集作为中间任务，通过中间任务迁移学习来提高模型的性能。

首先，在内部子任务上对模型进行微调，然后在蚂蚁金融问题匹配语料库（AFQMC）和大型中文问题匹配语料库（LCQMC）上，再次微调模型。

华人小哥的“黑话”数据集，AI：你连dbq都不懂，xswl |NAACL 2021

△原始任务和中间任务中准确度得分

结果显示，在两个数据集上，DogWhistle都帮助模型获得了更好的性能。

论文一作许灿文，曾在武汉大学就读，目前是加州大学圣地亚哥分校（UCSD）的博士研究生。

他曾在微软亚洲研究院实习，现在Hugging Face工作。主要研究方向包括：NLP中的深度学习、自然语言生成和社交媒体分析。

论文二作周王春澍，是北京航空航天大学计算机科学硕士，在微软亚洲研究院实习，致力于NLP研究。

据作者介绍，这篇论文已经被NAACL 2021接收，数据集在GitHub上开源。