COLM 2024：一种新的深度学习架构——Monotone Deep Boltzmann Machines 原创

发布于 2024-10-10 13:10

浏览

0收藏

在深度学习的世界里，Boltzmann机器是一种很有趣的模型，通过概率来理解数据。想象一下，我们有很多变量，它们之间的关系就像一张复杂的网。Boltzmann机器就是试图描述这些变量之间的概率关系。它有不同的版本，比如深Boltzmann机器（DBM）和受限Boltzmann机器（RBM）。

COLM 2024：一种新的深度学习架构——Monotone Deep Boltzmann Machines-AI.x社区

RBM是一种比较常用的形式，它避免了模型同一层内的连接，这样可以使用更高效的基于块的近似推理方法。但是，我们不禁要问，除了这种限制，还有没有其他的限制方式也能让推理变得高效呢？这就引出了我们今天要介绍的新模型——单调深度Boltzmann机器（Monotone Deep Boltzmann Machines，mDBM）。

一、背景知识

1.平衡模型及其收敛性

首先要提到的是深度平衡模型(DEQ)。它是由Bai等人提出的，就像一个神奇的公式，可以模拟一个无限深度的网络。后来，Winston和Kolter又提出了一种参数化的DEQ(monDEQ)，它可以保证收敛到一个独特的固定点。这就像给模型找到了一个稳定的“家”，让它不会乱跑。

2.马尔可夫随机场(MRF)及其变体

MRF是一种基于能量的模型，Boltzmann机器就是它的一种形式。其中，RBM是比较成功的变体，它通过特定的能量函数定义来避免层内连接。但是我们的mDBM不一样，它允许层内连接，更加灵活和强大。

3.并行和收敛的平均场

平均场更新通常使用坐标上升算法在局部收敛。但是有很多研究都在尝试并行化更新。比如Krähenbühl和Koltun提出的方法，还有Baqué等人的方法。我们的mDBM在这方面也有自己的创新，它可以保证在并行更新时收敛到一个全局最优的平均场固定点。

COLM 2024：一种新的深度学习架构——Monotone Deep Boltzmann Machines-AI.x社区

图1：不同玻尔兹曼机的神经网络拓扑结构。一般情况是一个完全图（红色虚线是玻尔兹曼机中有但受限玻尔兹曼机中没有的边的子集）。

二、单调深Boltzmann机器（mDBM）的奥秘

1.单调参数化

我们是如何让mDBM变得独特的呢?首先是参数化。我们通过一种特殊的方式来定义模型中的成对势，使得它们满足一定的单调性条件。就像给模型的各个部分设定了规则，让它们按照我们想要的方式“行动”。
具体来说，我们定义了一些矩阵和运算，比如通过对矩阵A的处理来得到成对势Φ。这样的参数化既保证了Φ矩阵的空心性，又保证了单调性。

2.平均场推理作为单调DEQ

接下来，我们把平均场推理和单调DEQ联系起来。平均场推理是为了近似条件分布，我们发现，在一定条件下，这个平均场固定点可以看作是一个类似DEQ的固定点。这就像找到了两个不同领域之间的桥梁，让我们可以更好地理解和处理模型。
而且，我们还证明了在特定条件下，对于任何输入，都存在一个独特的、全局最优的平均场分布的固定点。

3.实际建模考虑

在实际中，当我们用mDBM来建模时，需要考虑很多细节。比如变量可能代表深度学习架构中的隐藏单元，我们不能直接表示矩阵A，而是要找到一种方法来计算与A相关的乘法。
我们通常会把隐藏单元分成不同的集合，通过卷积层等方式来参数化A。这样可以处理各种复杂的网络结构，比如卷积、全连接层和跳跃连接等。

4.高效并行求解平均场固定点

虽然我们保证了单调性，但是简单的迭代不一定能收敛到我们想要的解。所以我们需要使用阻尼迭代。
这个阻尼迭代可以在网络的所有变量上并行进行，不需要像传统的平均场推理那样使用坐标下降方法。但是计算这个阻尼迭代中的近邻算子并不容易，我们通过一系列的定理和方法来解决这个问题，包括找到一种数值稳定的计算方法。

COLM 2024：一种新的深度学习架构——Monotone Deep Boltzmann Machines-AI.x社区

图2：一种可能的深度卷积玻尔兹曼机的示意图，其中单调性结构仍然可以被强制实施

三、训练mDBM的技巧

1.损失函数的选择

在训练mDBM时，我们要选择合适的方法。概率模型通常通过近似似然最大化来训练，但是对于我们的mDBM，直接使用平均场近似来训练参数可能不是最好的方法。
我们发现，基于边际的损失函数是一个更好的选择。就像给模型一个明确的目标，让它朝着正确的方向学习。

2.具体训练过程

给定一个样本，我们首先要解决平均场推理问题，找到隐藏状态的估计值。然后我们可以计算预测值和真实值之间的损失函数，通过这个损失函数来更新模型的参数。
在计算梯度时，我们要注意一些细节，比如通过隐函数定理来处理一些复杂的导数关系。而且，由于单调性约束，我们可能还需要对输出边际进行一些处理，比如使用一个可学习的温度参数来调整。

四、实验评估：mDBM的实力展示

1.在MNIST数据集上的表现

我们在MNIST数据集上测试了mDBM。我们进行了联合像素插补和分类任务，随机掩盖一部分像素，然后让模型预测缺失的像素和图像的类别。
结果显示，mDBM的测试分类准确率达到了92.95%，而传统的深RBM只有64.23%。而且从像素插补的效果来看，mDBM也远远优于RBM。我们还比较了不同比例像素被掩盖时的情况，mDBM在各种情况下都表现出了优势。
我们还测试了mDBM在一些特殊任务上的表现，比如随机掩盖14X14的补丁，mDBM也能很好地收敛和预测。

2.在CIFAR - 10数据集上的表现

在CIFAR - 10数据集上，我们同样进行了图像像素插补和标签预测任务。当50%的像素被观察时，mDBM模型获得了58%的测试准确率，并且能够有效地插补缺失的像素。
与深RBM相比，mDBM在插补误差等方面也表现出了优势。

3.与其他推理方法的比较

我们还比较了mDBM的平均场推理方法与其他一些方法，比如Krähenbühl和Koltun以及Baqué等人提出的方法。
实验结果显示，我们的方法在收敛速度上更快，而且能够保证收敛到真正的平均场固定点，而其他方法可能存在不收敛或者收敛到错误的固定点的问题。

COLM 2024：一种新的深度学习架构——Monotone Deep Boltzmann Machines-AI.x社区

图3：使用mDBM和深度RBM对CIFAR - 10进行像素填充

COLM 2024：一种新的深度学习架构——Monotone Deep Boltzmann Machines-AI.x社区

图4：仅将上半部分展示给模型时，使用mDBM对MNIST和CIFAR10进行像素填充。左：观测图像；中：填充结果；右：原始图像。

五、未来方向：探索更多可能

1.单调性条件的改进

目前定理3.1中的单调性条件只是充分条件，不是必要条件。如果我们能改进这个条件，可能会让我们的模型更加灵活和强大。

2.模型的单调性调整

我们可以思考是否可以使用一个负的参数m来让模型“有界非单调”，同时还能保持良好的收敛性质。

3.联合概率建模

我们的模型目前只学习条件概率，是否可以让它更高效地学习联合概率呢?这是一个值得探索的方向。

4.模型的扩展和优化

虽然我们已经有了一个比较高效的实现，但是与一些常见的非线性函数相比，还是比较慢。我们需要找到一种方法来更高效地扩展mDBM。

5.其他概率模型与DEQ框架的联系

我们可以探索更多的概率模型是否也可以在DEQ框架内表达，就像发现更多的宝藏等待我们去挖掘。

六、结论

在这篇文章中，我们介绍了单调深Boltzmann机器（mDBM）。它是一种很有潜力的深度学习模型，通过独特的参数化和推理方法，在处理图像数据等任务上表现出了很好的性能。我们还讨论了它的训练方法和未来的发展方向。希望这个新的模型能在深度学习的领域中开辟出一片新的天地，让我们更好地理解和处理数据。

本文转载自公众号AIGC最前线作者：实习小毕

原文链接：https://mp.weixin.qq.com/s/RF6TeDxJIA0YXRCqz2QX-g

标签

深度学习

51CTO

51CTO博客

51CTO学堂

COLM 2024：一种新的深度学习架构——Monotone Deep Boltzmann Machines 原创

一、背景知识

二、单调深Boltzmann机器（mDBM）的奥秘

三、训练mDBM的技巧

四、实验评估：mDBM的实力展示

五、未来方向：探索更多可能

六、结论

目录