我感到非常困惑,我几乎每天都在改变自己的观点,我似乎对这个难题无法形成一种坚实固定的看法。我不是在讨论目前的世界局势,或现任美国总统,我是在讨论对人类而言更加重要的一件事。更具体地来说,我在讨论的是研究人员与工程师们的存在和工作,我说的是深度学习。
你也许会认为我的声明有些夸张,但深度学习的出现确实引出了我们必须解决的几个关键问题。在本文中,我希望揭露这一新兴领域引发的冲突,这与图像处理领域的研究者们有关。
首先让我们简要回顾一下深度学习和神经网络的概念。神经网络已经存在了数十年,它提出了一种通用的学习机制,原则上可用于处理任何可学习的数据集。在其前馈架构中,感知层(也就是神经元)首先对输入内容进行加权平均,随后进行非线性处理,如感知器(sigmoid)或 rectified-linear 曲线。人们可以训练这种简单的系统通过多种监督回归和分类方法从给定数据中获得需要的输出。
这看起来很棒,但不幸的是这个概念在 20 世纪 80 代 90 年代并没有流行起来——在那时神经网络无法给出足够具有竞争力的表现。此外,由于有着坚实理论基础以及凸优化方式的支持向量机的出现,神经网络看起来完全没有翻身机会了。最终,神经网络进入了漫长的低潮期,只有少部分研究者还在坚持这方面的研究:Yann LeCun(纽约大学/ Facebook)、Geoffrey Hinton(多伦多大学/谷歌)、Yoshua Bengio(蒙特利尔大学)和Jürgen Schmidhuber(瑞士人工智能实验室/卢加诺大学)都在这一行列中。他们的努力产生了一系列重要的成果,如卷积和长短期记忆网络,但一开始这些研究的影响有限。随后,神经网络突然也迎来了爆发期。
在 21 世纪初,一系列论文提到了这种架构的成功应用,包括几乎所有任务的***运行结果。而这些应用不约而同地使用了同一种方法:多层神经网络,这就是「深度学习」,通过大量数据用于训练, 大量计算机集群和显卡计算资源的使用,以及采用有效初始化和逐步随机梯度学习的优化算法。不幸的是,所有这些伟大的成就都是建立在无法理解的基础范式之上的。此外,从理论的角度看,深度学习在学习过程中所采用的***化是非常不凸和难解的。
深度学习应用的大发展始于手写字符识别(见下图),随后缓慢地进入了更具挑战性的视觉、语音识别和自然语言处理任务中,并从此开始在任何任务里以有监督学习的形式出现。谷歌、Facebook 和微软这样的大公司很快意识到这一技术的潜力,它们投入了大量人力和资源来掌握这些工具,并将其投入产品中。而在学术方面,信号处理、图像处理和计算机视觉的各类大会已经被深度学习占领,它日益增长的主导地位逐渐让人工智能变得兴盛起来。
图1. 神经网络首先在手写字符识别等任务中展现出了巨大的潜力
深度学习仍在随着时间发展。为了简洁起见,我们以经典的图片去噪点任务为例(如下图)。这些年来,研究者们发表了数千份关于此任务的论文。研究人员利用偏微分方程的工具,如各向异性扩散、全变差、能量最小化、图像几何解释方法作为流型、贝特拉米流(Beltrami flow)等等,开发出了美丽而深刻的数学思想。谐波分析和近似理论同样应用于噪点任务,引出了小波理论和稀疏表示的重大突破。其他重要的思想包括低阶近似、非局部均值、贝叶斯估计和鲁棒统计。因此可以认为,我们在过去三十年中获得了丰富的图像处理知识,而这影响了许多图像处理任务,并稳固了其后的数学基础。
图2. 去噪样例。左:原始图片。中:附加高斯噪点后的图片,STD=100。右:使用了一个领先算法后的去噪结果——BM3D。
2012 年,Harold Burger、Christian Schuler 和 Stefan Harmeling 决定用深度学习来解决这个问题。他们的想法很简单:给一大批输入的干净的照片添加点合成噪音,然后输入学习系统,希望系统可以将噪音图片还原为原来干净的版本。尽管过程很让人沮丧、繁琐且冗长,其中,调整这个办法的参数以实现好的效果花费了很长时间,但是结果这个网络效果真的优于当时其他任何去噪算法。
这不是一个孤立的故事。如今,深度学习系统也可以处理许多其他图片处理需求,处理效果至今无人超越。其中,单个图片超分辨率处理、去马赛克、去模糊、分割、图片标注以及面部识别效果特别好。
我们应该对此感到高兴吗?好吧,如果你是在公司,要解决实际商业问题,比如去噪点,那么,回答当然是应该高兴。所以,正在寻找解决方案的公司应该对上面的结果感到满意。但是,科学家也应该感到高兴吗?花费大量成本解决图片去噪问题的背后,我们的真实目标到底是什么?是的,目标就是高效算法,但是,这也是只是动机的一小部分,科学家的目标更宽阔,也更深入。这个领域的研究人员旨在理解我们使用的数据。而方法就是为信息建模,解码信息的真实维度并搞清楚现象的真实面目。这些可以降噪以及解决其他图片处理中遇到的问题的模型,还远不能帮助科学家实现这些目标,但是,这些模型可以提供了从数据中提取知识、开拓新视野的新方式。
好了,现在让我们回到主要问题上来:新兴的基于深度学习的解决方案,应该让人感到欣喜吗?我们的挫败感是合乎情理的吗?成像(imaging)科学中,深度学习的角色到底是什么?当研究人员开会聚在一起时,他们就会提出这些问题,回答也是各种各样,让人疑惑。事实胜于雄辩;在绝大多数情况下,基于深度学习的解决方案缺乏数学优雅,几乎解释不清楚解决方案或者背后的情况。不过,从积极角度来看,这个现象也是极好的。显然,这不是我们被教授的研究学派,也不是我们想要付诸实践的那类科学。我们是否应该坚持更加严格的方式甚至以在输出质量上落后为代价?是否应该反击并让出自深度学习的思想拥有更加坚实的基础的办法?
说得更详细一点,深度学习做出的贡献具有某种无法被人忽视的优雅。比如,风格迁移可以生成许多惊艳的效果,或者反转所学网络风格,凭空合成图片,就像谷歌 Deep Dream 项目那样。几年前,我们压根儿没有构思如此复杂任务的念头;现在,作为深度神经网络的副产品,这个想法被扎实解决了,深度网络本来是用来解决完全不相关的视觉分类问题的。
在我看来,对深度学习近期取得的进展,从事图像处理研究的人可谓厌恶和妒忌参半。一些人已经选择继续袖手旁观,有的人却会相应地「与时俱进」,调整研究安排。我属于后者,不过是有条件的。在我看来,想象这波浪潮会像燕过无痕那样对我们的研究领域不产生重要影响,无异于掩耳盗铃。所以,我也愿意让深度学习影响研究团队的想法和行动,但是我们也会继续找寻其中的数学优雅性,清楚理解我们提出的思想。是不是在追求不可能的事情,时间会证明一切。
简单回到我的开场白,深度学习已经对人类生活产生重大影响,未来几十年,人类生活很有可能变得大不同。人形机器人和智能系统将环绕我们周围,并影响着人类活动的许多方面,就业和工作可能会成为过去式,人类关系也会经历重大变化。直白点说,你的孙子辈儿可能会有位机器人伴侣。好笑的地方在这里:这一怪异未来背后技术中,许多会源于深度学习及其后续领域。
深度学习进展迅速,但它是我们想要的未来吗?工程师和研究人员的好奇和天赋正驱动我们走向这一未来,众多公司和机构也将它视为自己的主要目标。如果我们不去讨论如何规制技术进步,将这一技术趋势导入我们想要的未来,将会发生什么?是时候认真思考一番了。
本文作者 Michael Elad 是以色列理工学院的计算机科学教授,他也是学术期刊 SIAM Journal on Imaging Sciences 的总编辑。
原文:https://sinews.siam.org/Details-Page/deep-deep-trouble-4
【本文是51CTO专栏机构机器之心的原创译文,微信公众号“机器之心( id: almosthuman2014)”】