开源人工智能算法一种新颖的超像素采样，网络深层特征估计超像素

作者：趣说人工智能 2018-07-31 09:20:03

开源人工智能算法一种新颖的超像素采样，网络深层特征估计超像素摘要：超像素提供图像数据的有效低/中级表示，这极大地减少了后续视觉任务的图像基元的数量。现有的超像素算法无法区分，因此难以集成到其他端到端可训练的深度神经网络中。

开源人工智能算法一种新颖的超像素采样，网络深层特征估计超像素摘要：超像素提供图像数据的有效低/中级表示，这极大地减少了后续视觉任务的图像基元的数量。现有的超像素算法无法区分，因此难以集成到其他端到端可训练的深度神经网络中。我们为超像素采样开发了一种新的可微分模型，利用深度网络来学习超像素分割。由此产生的超像素采样网络（SSN）是端到端可训练的，它允许学习具有灵活损失功能的特定于任务的超像素，并具有快速运行时间。大量的实验分析表明，SSN不仅在传统的分割基准测试中胜过现有的超像素算法，而且还可以学习其他任务的超像素。此外，SSN可以轻松集成到下游深度网络中，从而提高性能。

开源人工智能算法一种新颖的超像素采样网络深层特征来估计任务特定的超像素简介：超像素是通过基于低级图像属性对图像[33]进行分组而形成的图像的过分割。它们提供了图像内容的感知上有意义的细分，从而减少了后续图像处理的图像基元的数量。由于它们具有代表性和计算效率，超像素已经成为一种既定的低/中级图像表示，并广泛应用于计算机视觉算法，如物体检测[35,42]，语义分割[15,34,13]，显着性估计[18,30,43,46]，光流估计[20,28,37,41]，深度估计[6]，跟踪[44]等等。超像素尤其广泛用于传统能量最小化框架，其中少量图像基元极大地降低了优化复杂性。

近年来，对于广泛的计算机视觉问题采用深度学习的情况急剧增加。除了一些方法（例如，[13,18,34]），超像素几乎不与现代深度网络结合使用。这有两个主要原因。首先，形成大多数深层结构基础的标准卷积运算通常定义在规则网格上，并且当在不规则超像素网格上运算时效率低下。其次，现有的超像素算法是端到端可训练网络架构中的可区分模块。在这项工作中，我们通过提出一种用于超像素分割的新的深度差分算法来缓解第二个问题。我们首先回顾一下广泛使用的简单线性迭代聚类（SLIC）超像素算法[1]并通过放松最近邻居con将其转化为可微分算法SLIC中存在束缚。这种新的可区分算法允许端到端训练，并使我们能够利用强大的深度网络来学习超像素，而不是使用传统的手工制作功能。

开源人工智能算法一种新颖的超像素采样网络深层特征来估计任务特定的超像素贡献：这个组合了具有可微差分SLIC的深度网络构成了我们称为超像素采样网络（SSN）的端到端可训练超像素算法。图1显示了所提出的SSN的概述。给定的输入图像首先通过a深度网络在每个像素处产生特征。然后将这些深度特征传递到可微分SLIC上，SLIC执行迭代聚类，从而产生所需的超像素。整个网络是端到端的可训练的。 SSN的可区分性允许使用灵活的损失函数来学习特定于任务的超像素。图1显示了一些样本SSN生成的超像素。

包括BSDS500 [4]，Cityscapes [10]和PascalVOC [11]在内的3种不同分割基准数据集的实验结果表明，所提出的超像素采样网络（SSN）对现有的主要超像素算法表现出色，同时也更快。我们还通过简单地将我们的SSN框架集成到使用超像素的现有语义分割网络[13]中来证明，实现了性能改进。此外，我们展示了SSN在学习其他视觉任务的超像素方面的灵活性。具体来说，在Sintel光流数据集[7]的概念验证实验中，我们演示了如何学习更好地与光流边界而不是标准物体边界对齐的超像素。

与现有的超像素算法相比，所提出的SSN具有以下有利特性：- 端到端可训练：SSN是端到端的可训练的，可以轻松集成到其他深层网络架构中。据我们所知，这是第一个端到端可训练的超像素算法。-Flexible和task-speciftc：SSN允许学习灵活的损失功能，从而学习特定任务的超像素。- 最先进的性能：对各种基准数据集的实验表明，SSN优于现有的超像素算法。- 有利的运行时间：SSN在运行时方面也有利于突出的超像素算法，使其适合在大型数据集上学习，并且对实际应用也有效。

开源人工智能算法一种新颖的超像素采样，网络深层特征估计超像素

开源人工智能算法一种新颖的超像素采样网络深层特征来估计任务特定的超像素相关工作：超像素算法。传统的超像素算法可以广泛地分为基于图形和基于聚类的方法。基于图的方法将超像素分割表示为图分区问题，其中图节点由像素表示，边表示相邻像素之间的连接强度。通常，通过解决离散优化问题来执行图分区。在这个类别中，一些广泛使用的算法包括归一化削减[33]，Felzenszwalb和Huttenlocher（FH）[12]，以及熵率超像素（ERS）[26]。由于离散优化涉及离散变量，优化目标通常是不可微分的，因此很难在基于图的方法中利用深层网络。另一方面，基于聚类的方法利用传统的聚类技术，例如用于超像素分割的k均值。此类广泛使用的算法包括SLIC [1]，LSC [25]和Manifold-SLIC [27]。这些方法主要进行k均值聚类，但其特征表示不同。而SLIC [1]将每个像素表示为5维位置和Lab颜色特征（XY Lab特征），LSC [25]方法投射这些5维具有10维空间的特征，并在投影空间中执行聚类。另一方面，Manifold-SLIC [27]使用二维流形特征空间进行超像素聚类。虽然这些聚类算法需要迭代更新，但在SNIC方法[2]中提出了用于超像素分割的非迭代聚类方案。提出的方法也是基于聚类的方法。但是，与现有技术不同，我们利用深度网络通过端到端的培训框架来学习超像素聚类的功能。正如最近的一篇调查论文[36]所详述的，其他技术被用于超像素分割，包括分水岭变换[29]，几何流[24]，图形切割[39]，均值漂移[9]和山丘。 - 攀登[5]。但是，这些方法都依赖于手工制作的功能，将深度网络融入这些技术并非易事。最新的SEAL技术[38]提出了一种通过不可微的超像素算法绕过梯度来学习超像素分割的深度特征的方法。与我们的SSN框架不同，海豹突击队不是端到端可区分的。

深度聚类。受到监督任务深度学习成功的启发，有几种方法研究了深度网络在无监督数据聚类中的应用。最近，Greff等。人。 [17]提出神经期望最大化框架，他们使用的模型集群标签的后验分布深度网络并展开EM程序中的迭代步骤以进行端到端培训。在另一项工作[16]中，梯形网络[31]用于建模用于聚类的分层潜变量模型。好时等人。 [19]提出一个用于分离和分割音频的基于深度学习的聚类框架信号。谢等人人。 [40]提出了一个深度嵌入式聚类框架，用于同时学习特征表示和聚类分配。在最近的一份调查报告中，Aljalbout等。人。 [3]给出了基于深度学习的聚类方法的分类。在本文中，我们还提出了一个基于深度学习的聚类算法。与以前的工作不同，我们的算法是针对超像素分割任务而定制的，其中我们使用特定于图像的约束。此外，我们的框架可以轻松地结合其他视觉目标函数来学习任务特定的超像素表示。

预处理：SSN的核心是一种可区分的聚类技术，其灵感来自SLIC [1]超像素算法。在这里，我们在下一节描述我们的SSN技术之前简要回顾一下SLIC。 SLIC是最简单的，也是最广泛使用的超像素算法之一。它易于实现，具有快速运行时间，并且还可以生成紧凑且均匀的超像素。尽管SLIC算法有几种不同的变体[25,27]，但在原始形式中，SLIC是在五维位置和颜色空间（通常是缩放的XY Lab空间）中对图像像素执行的k均值聚类。从形式上看，给定图像I Rn×5，在n个像素处具有5维XY Lab特征，超像素计算的任务是将每个像素分配给m个超像素中的一个，即，计算像素 - 超像素关联图H 0,1，...，m 1 n×1。 SLIC算法如下操作。首先，我们在5维空间中对初始聚类（超像素）中心S0 Rm×5进行采样。这种抽样通常是在像素网格上均匀地进行，并且基于图像梯度进行一些局部扰动。给定这些初始超像素中心S0，SLIC算法以迭代方式进行，在每次迭代t中具有以下两个步骤：

开源人工智能算法一种新颖的超像素采样，网络深层特征估计超像素

开源人工智能算法一种新颖的超像素采样网络深层特征来估计任务特定的超像素网络架构：图3显示了SSN网络架构。用于特征提取的CNN由一系列与批量标准化[21]（BN）和ReLU激活交织的卷积层组成。我们使用max-pooling，在第2和第4个卷积层之后将输入下采样2倍，以增加感受野。我们对第4和第6卷积层输出进行双线性上采样，然后与第2卷积层输出连接，以传递到最终的卷积层。我们使用3 3个卷积滤波器，每层输出通道数设置为64，除了输出k 5个通道的最后一个CNN层。我们将此k 5通道输出与给定图像的XY Lab连接，从而产生k维像素特征。我们选择这种CNN架构的简单性和高效性。其他网络架构是可以想象的。得到的k维特征被传递到可微分SLIC的两个模块上，迭代地更新像素 - 超像素关联和超像素中心以进行v次迭代。整个网络是端到端的可训练的。

学习任务-Speciftc Superpixels：端到端可训练SSN的主要优点之一是损失函数方面的灵活性，我们可以使用它来学习特定于任务的超像素。与任何CNN一样，我们可以将SSN与任何特定于任务的损失函数耦合，从而学习针对下游计算机视觉任务进行优化的超像素。在这项工作中，我们专注于优化超像素的表现效率，即学习可以有效地表示场景特征的超像素，例如语义标签，光流，深度等。例如，如果我们想要学习将要成为的超像素用于下游语义分割任务，期望产生遵循语义边界的超像素。为了优化表示效率，我们发现任务特定的重建损失和紧凑性损失的组合表现良好。任务-speciftc重建损失。我们将要用超像素有效表示的像素属性表示为R Rn×l。例如，R可以是语义标签（作为一热编码）或光流图。重要的是要注意，我们在测试时间内无法访问R，即SSN仅使用图像数据预测超像素。我们仅在训练期间使用R，以便SSN可以学习预测适合表示R的超像素。如前面4.1节所述，我们可以使用列标准化关联矩阵Q，R˘= QTR将像素属性映射到超像素，其中R ˘Rm×l。所结果的然后使用行标准化关联矩阵Q 1，R * = Q〜S将超像素表示R 6映射回像素表示R *，其中R * Rn×1。

开源人工智能算法一种新颖的超像素采样，网络深层特征估计超像素

开源人工智能算法一种新颖的超像素采样网络深层特征来估计任务特定的超像素结论：我们提出了一种新颖的超像素采样网络（SSN），它利用通过端到端训练学到的深层特征来估计任务特定的超像素。据我们所知，这是第一个端到端可训练的深度超像素预测技术。实验的几个基准测试表明，SSN始终如一地在最先进的超像素技术上表现出色，同时也更快。将SSN集成到语义分段网络[13]中还可以提高性能，显示SSN在下游计算机视觉任务中的实用性。 SSN快速，易于实施，可以轻松集成到其他深层网络中，具有良好的实证性能。SSN解决了将超像素纳入深度网络的主要障碍之一，这是现有超像素算法的不可微分性质。在深度网络中使用超像素可以具有几个优点。超像素可以降低计算复杂度，尤其是在处理高分辨率图像时。超像素也可用于强制分段不变的假设，也有助于远程信息传播[13]。我们相信这项工作开辟了利用深层网络中的超像素的新途径，并激发了使用超像素的新深度学习技术。致谢。我们感谢Wei-Chih Tu提供评估脚本。我们感谢Ben Eckart对补充视频的帮助。

责任编辑：庞桂玉来源：今日头条

人工智能深度学习机器学习