站在香农与玻尔兹曼肩上，看深度学习的术与道

发布于 2024-7-26 13:07

浏览

0收藏

在《迷人的数据与香农的视角》一文中，我介绍了自己的“顿悟”：事物由不同层次的随机变量展现出来的信息来表达，不同层次上的随机变量携带不同的信息，共同组合影响上一层的随机变量的信息表达，而随机变量对外表达的信息则取决于该随机变量的条件概率分布。不少朋友赞同，同行更认为与深度学习相通。

如果真正理解了这句话的涵义，你其实已经理解了深度学习的精髓。例如识别一个人，体形、肤色、脸型、眼睛、鼻梁、嘴角等等，都是表征这个人的随机变量，用机器学习的术语叫特征，有显式有隐式。不同轮廓，不同血型，不同气质，不同性格，不同的IQ、EQ..., 不同层次的信息综合地表达了这个人。这种层级化的表达，大可以描述宇宙系统，小可以描述雨滴、微生物。

香农基于概率分布定义的信息熵，是对观测到的事物随机变量不确定度的描述，熵增加，不确定度增加；熵减小，不确定度减小。例如人脸，脸型有不同的取值可能性，眼睛大小、位置，睫毛长短，以及相互位置都有不同的取值范围与可能性。当这些不同特征的可能取值被一一观测到之后，我们也就逐步认清了这张脸。也就是如果通过观测发现，某个东西走路像鸭子，叫起来像鸭子，看起来像鸭子，ok, 我们就认为它是鸭子。

这里提到了观测，这是获取事物信息，从而认识事物的唯一途径。人们需要尽可能多的了解这个事物不同层次的特征，尽量详尽，详尽到可以把他/她/它从与他/她/它极其相似的事物中区别出来，也就是穷尽这些随机变量的可能性之后，他仍然有别于其他。说起来很拗口 :D. 这些信息被记录成数据，也某种程度上解释了为什么大数据如此火热，大其实是足够，足够详尽，足够深层次，足够及时，去识别一个事物。大数据公司常用的套路是忽悠做360度客户画像，我们需要想想什么是360度，你的亲朋好友多少度了解你，你自己360度了解自己吗？能画出3.6度吗？

观测是有误差的，而且很多情况下没法直接进行，比如计算湖泊中鱼的平均长度，但不同体长的鱼在湖水中的分布不清楚，如何捞出来量量呢？马尔科夫说这好办，你构造一个概率分布迁移的链，从初始分布 P0, 经过 n 次转移概率为P 的转移之后，肯定收敛于稳态分布 Pn。没明白？ Gibbs懂了，发明了Gibbs采样方法。不过这里的转移矩阵是需要满足细致平稳条件的，也就是互相转移的概率相等，否则就不稳定了（敲黑板），记住“平稳”这个前提。

几位哈佛物理学家在最近的论文中《Why does deep and cheap learning work so well?》，对上文的分层随机表达方式做了理论梳理，在我看来，简直就是神总结，让你不得不佩服哈佛大学物理学者的功力之深厚。不少计算机科学家嘚吧嘚的多少层花式神经网络架构，随机梯度优化求解，说不清的无厘头正则化，都是“术”，在这里找到了作为其理论基础的“道”。论文作者用下图来概括深度学习领域的三类最典型问题，无监督学习（Unsupervided learning），有监督学习的分类（Classification）与预测（Prediction），论文中看似有typo , AI 可能认不出来 :D。这三类问题归根结底都是用神经网络来近似概率分布：想象一个（x,y）的联合概率分布，或y发生条件下，x的条件概率分布，或互换，训练的过程就是找到这个近似概率分布函数的过程。

站在香农与玻尔兹曼肩上，看深度学习的术与道-AI.x社区

流行的深度学习算法怎么求解这些概率分布的呢？我们先把这些随机变量的观测数据（训练数据）所包含的香农信息熵算一下，并且认定这是系统最大可能的信息展现（最大似然），然后最小化剩余的部分，就是求极大极小值，而且是用数值的方法，这里有不少的假设，比如凸函数，比如李普希兹连续（也可以理解成某种意义上的平稳假设），不少的算“术”，比如拉格朗日乘子，比如随机梯度下降，都是“赏心悦目”的微积分。通过对这个香农熵的方式适当约束，你能得到熟悉的最小二乘法，大学物理实验的时候拟合直线你肯定用过。

通过训练寻找这些概率分布函数，其中隐含着一个基本假设，就是系统是处于相对稳定状态的，一个急速演进中的开放系统，概率的方法应该是不适合的。例如机器翻译，对于相对稳定的事物的语言描述，AI翻译应该能够胜任，对于新的网络流形语，或小众的新生事物，前几年例如甄嬛传，基于统计的AI翻译或许就没那么得心应手了。周鸿祎在360营销盛典上总结AI 在直播中的表现的时候说，''计算机就把所有的锥子脸都定义成美女"。

又比如玻尔兹曼机，基于哈密尔顿自由能的分布其实都是有隐含的系统相对稳定假设的（玻尔兹曼分布是“平衡态”气体分子的能量分布律）。对于非稳定系统，就得求助于普利高津了。所以，当我们为AI的不断进步的“智能”欢呼的时候，一定要冷静的认识到它可能不适用的情境，请相信没有放之四海而皆准的真理，除了这句话本身。只有我在怀疑这件事不能怀疑之外，其他都是值得怀疑的 :D

另外我还有个忠告，不管AI有多牛，请尽量审慎地相信基于统计的预测（prediction）, 看看这个农夫谚语，你就理解了：我只想知道将来我会死在什么地方，这样我就不去那儿了。

本文转载自清熙，作者：王庆法

标签

深度学习

函数

预测