多任务实现SOTA，UBC谷歌等提出3D点云的无监督胶囊网络-51CTO.COM

这是一种为 3D 点云提出的无监督胶囊架构，并且在 3D 点云重构、配准和无监督分类方面优于 SOTA 方法。

理解对象是计算机视觉的核心问题之一。传统方法而言，理解对象任务可以依赖于大型带注释的数据集，而无监督方法已经消除了对标签的需求。近来，研究人员试图将这些方法扩展到 3D 点云问题上，但无监督 3D 学习领域却进展寥寥。

近日，包括 Weiwei Sun、Andrea Tagliasacchi、Geoffrey Hinton 等来自英属哥伦比亚大学、谷歌研究院、多伦多大学的研究者提出了用于 3D 点云的无监督胶囊网络。Hinton 对此表示：在不受监督的情况下找到一个对象的自然组件以及这些组件的内在参照系是学习将解析图像转换为局部整体层级结构的重要一步。如果以点云开始，则可以做到。

具体而言，研究者通过排列等变（permutation-equivariant）的注意力计算对象的胶囊分解，并通过训练成对的随机旋转对象来自监督该过程。本研究的核心思想是将注意力掩模聚合为语义关键点，并使用它们来监督满足胶囊不变性或等方差的分解。这不仅可以训练语义上一致的分解，还能够学习以对象为中心的推理的规范化操作。在这种情况下，既不需要分类标签，也不需要手动对齐的训练数据集进行训练。

最后，通过以无监督的方式学习以对象为中心的表征，该方法在 3D 点云重构、配准和无监督分类方面优于 SOTA 方法。研究者表示将很快公布源代码和数据集。

论文链接：https://arxiv.org/abs/2012.04718

项目主页：https://canonical-capsules.github.io/

方法

该网络在未对齐的点云上进行训练，如下图 2 所示：研究者训练了一个将点云分解为多个组件的网络，并通过 Siamese 训练设置实现不变性 / 等方差。

然后研究者将点云规范化为学习的参照系，并在该坐标空间中执行自动编码。

损失

正如无监督方法中常见的那样，该研究的框架依赖于大量的损失，这些损失控制着力图在表征中获得的不同特征。请注意所有这些损失是如何不受监督且不需要标签的。研究者根据他们监督的网络部分组织损失，包括分解、规范化和重建。

网络架构

研究者简要介绍了实现细节，包括网络架构。

编码器 E。我们的架构是基于 [42] 提出一种类似于点网的架构，具有残差连接和注意力上下文归一化；
解码器 D。公式 (4) 中的解码器基于每个胶囊运行。本研究采用的解码器架构类似于 AtlasNetV2 [13]（带有可训练的网格）。不同之处在于本研究通过相应的胶囊姿态转换每个胶囊的解码点云；

回归器 K。研究者只需连接描述符，并通过 ReLU 激活函数调用一系列全连接层，以回归 P 胶囊定位。在输出层，研究者使用线性激活函数，并进一步减去输出平均值，以使回归位置在规范化框架中以零为中心（zero-centered）；
规范化描述符。由于本研究的描述符只是近似旋转不变（通过扩展），研究者发现在规范化之后重新提取胶囊描述符β_k 很有用。

实验及结果

自动编码

研究者针对两个训练基线（在单类别和多类别变体中经过了训练）评估了用于训练网络任务（重建 / 自动编码）的方法的性能：

AtlasNetV2 [13]，一种使用基于补丁（patch-based）多头解码器的 SOTA 自动编码器；

3D-PointCapsNet [58]，一种利用胶囊架构的 3D 点云自动编码器。

下表 1 是定量分析的结果，本文方法在对齐和未对齐的设置下均取得了 SOTA 的性能结果。