挑战人类认知推理新任务，MIT等联合提出新一代视觉推理数据集-51CTO.COM

来自MIT-IBM 沃森人工智能实验室首席科学家淦创团队提出了新一代视觉推理数据集，该数据集提出了基于局部（part）的视觉推理，并融合了五类人类认知推理任务：概念型推理，关系型推理，类比型推理，数学推理和物理推理。

人类视觉感知的一个关键点是将视觉场景解析为物体，并进一步解析为物体的各个局部，从而形成部分 - 整体层次结构。这种层级结构可以诱导出丰富的语义概念和关系，从而在解释和组织视觉信息方面，以及视觉感知和推理的泛化方面发挥着重要作用。然而，现有的视觉推理数据集主要关注整个物体，而不是物体中的局部。由于更细粒度的概念、更丰富的几何关系和更复杂的物理关系，基于部分 - 整体层次结构的视觉推理比以物体整体为中心的推理更具挑战性。

因此，为了更好地阐释和理解基于局部的概念和关系，本文引入了一个新的名为 PTR 的大规模诊断型视觉推理数据集。PTR 包含大约七万 RGBD 合成图像，带有关于语义实例分割、颜色属性、空间和几何关系以及某些物理属性（例如稳定性）的物体和局部标注。这些图像配有五种类型的问题：概念型推理，关系型推理，类比型推理，数学推理和物理推理。这些类型均来自于人类认知推理的重要方面，但在以往的工作中并没有被充分探索过。

本文在这个数据集上检验了几个最先进的视觉推理模型。研究者观察到它们的表现远远不及人类表现，特别是在一些较新的推理类型（例如几何，物理问题）任务上。该研究期待这个数据集能够促进机器推理向更复杂的人类认知推理推进。

论文地址：http://ptr.csail.mit.edu/assets/ptr.pdf
项目主页：http://ptr.csail.mit.edu

1、背景介绍

视觉推理要求机器通过观察给定的场景来回答推理问题。近年来，由于在自然数据中存在大量的噪声和偏差，研究人员合成数据集。合成数据集的生成是完全可控的，因此研究者更容易诊断推理模型中的不足。CLEVR[1] 是这类数据集中的代表。然而，各类视觉推理模型在 CLEVR 上的准确率已经趋近饱和，这是因为 CLEVR 数据集的推理局限于感知层面，远远落后于人类在认知层面的推理能力。因此，本文提出了新一代视觉推理数据集，专注于对人类来说相对容易，但在机器推理领域还没有被充分发掘的新任务。

同时，之前的视觉推理数据集主要关注物体的整体特征，而不太强调详细的局部理解。然而，心理学证据表明，人类会将视觉场景解析为部分 - 整体层次结构。因此，本文提出的数据集主要专注于整体 - 部分关系的推理。