谷歌大脑最新研究:AutoML方式自动学习Dropout模式

新闻 深度学习
深度神经网络往往存在过拟合的问题,需要Dropout、权重衰减这样的正则化方法的加持。

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

深度神经网络往往存在过拟合的问题,需要Dropout、权重衰减这样的正则化方法的加持。

而最近的研究表明,如果对Dropout“剪掉”的神经元的结构进行利用,就能实现比随机替换更好的效果。

问题是,实际应用中,针对不同的问题,利用结构的方法需要人工设计,对Dropout的模式进行调整,泛化能力不足。

那么,是否能设计一种针对CNN、Transformer这样的深度神经网络,自动学习Dropout模式的方法?

现在,谷歌大神Quoc V. Le的团队,就提出了一种名为AutoDropout的方法。

谷歌大脑<span><span><span><i style=最新研究:AutoML方式自动学习Dropout模式">

相关论文已经入选AAAI 2021。

将设计Dropout模式的过程自动化

AutoDropout的主要目的,就是将设计针对专门场景的Dropout模式这件事自动化。

研究人员为此设计了一个新的结构化Dropout模式的搜索空间。这个搜索空间囊括了许多现有的Dropout模式。

不妨先以CNN为例,来看一下该方法是如何实现的。

CNN中的Dropout模式搜索空间

在CNN中,搜索空间的基本模式是一个连续的矩形,矩形经过平铺,就会产生一个Dropout模式。

定义矩形的超参数,是高度和宽度;而定义平铺的超参数,是步幅和重复次数。

谷歌大脑<span><span><span><i style=最新研究:AutoML方式自动学习Dropout模式">

除了对矩形进行平铺之外,还需要将两个几何变换引入搜索空间:围绕空间中心旋转,沿着每个空间维度进行剪切。

在得到dropout模式之后,研究人员将其应用于批量归一化层的输出——根据研究人员的经验,在网络的其他地方进行应用,往往会导致搜索过程中训练的不稳定。

如果CNN中存在残差连接,控制器则会进一步判断,是否把dropout模式应用到残差分支中。

谷歌大脑<span><span><span><i style=最新研究:AutoML方式自动学习Dropout模式">

控制器模型和搜索算法

AutoDropout的控制器是通过强化学习来训练的。

谷歌大脑<span><span><span><i style=最新研究:AutoML方式自动学习Dropout模式">

控制器实际上是一个Transformer网络。该网络生成token以描述Dropout模式的配置。

如下图所示,对于CNN中的每一层,都需要8个token来创建Dropout模式。

谷歌大脑<span><span><span><i style=最新研究:AutoML方式自动学习Dropout模式">

不过,这样搜索算法可能需要花费大量的时间进行训练,为此,研究人员也进行了并行性方面的改善工作。

谷歌大脑<span><span><span><i style=最新研究:AutoML方式自动学习Dropout模式">

Transformer中的Dropout模式搜索空间

这样的方法同样适用于Transformer。

谷歌大脑<span><span><span><i style=最新研究:AutoML方式自动学习Dropout模式">

与CNN中最大的不同在于,搜索空间中的dropout模式可以灵活地应用于Transformer层的多个子层,比如query、key、value、softmax、输出投影和残差等。

因此,研究人员针对每一个子层,各自应用了独立的dropout模式。

谷歌大脑<span><span><span><i style=最新研究:AutoML方式自动学习Dropout模式">

实验结果

为了验证AutoDropout的效果,研究人员分别在CNN和Transformer模型中应用了AutoDropout。

对于CNN,主要应用在有监督图像分类任务和半监督图像分类任务。

对于Transformer,主要考虑语言模型和机器翻译。

谷歌大脑<span><span><span><i style=最新研究:AutoML方式自动学习Dropout模式">
谷歌大脑<span><span><span><i style=最新研究:AutoML方式自动学习Dropout模式">

可以看到,在CIFAR-10和ImageNet上,AutoDropout都有效改善了SOTA模型的结果,并且优于DropBlock等需要人工介入的方法。

而与使用Variational Dropout方法训练的Transformer-XL模型相比,AutoDropout同样带来了更好的表现。

谷歌大脑<span><span><span><i style=最新研究:AutoML方式自动学习Dropout模式">

不过,研究人员也提到,AutoDropout的缺点是搜索成本很高。

有关作者

本文有两位作者。

Hieu Pham,谷歌大脑和卡内基梅隆大学共同培养的博士生,本科毕业于斯坦福大学。

[[374972]]最新研究:AutoML方式自动学习Dropout模式">

另一位作者是Quoc V. Le大佬。他是吴恩达的学生,Google Brain的创立者之一,也是谷歌AutoML项目的幕后英雄之一。

[[374973]]最新研究:AutoML方式自动学习Dropout模式">

传送门

论文地址:
https://arxiv.org/abs/2101.01761

 

 

责任编辑:张燕妮 来源: 量子位
相关推荐

2021-10-11 09:51:38

谷歌人工智能强化学习

2021-02-21 14:08:15

谷歌Android开发者

2021-06-29 15:33:28

谷歌Transformer模型

2017-03-01 19:58:00

深度学习TensorFlow

2022-04-11 15:34:29

机器学习AutoML开源

2016-12-02 17:46:56

机器学习眼疾谷歌

2021-05-06 15:55:01

谷歌Android开发

2018-01-18 09:00:01

谷歌AI代码

2021-04-05 14:25:02

谷歌黑客网络安全

2017-10-17 14:35:50

谷歌

2019-08-07 13:04:22

谷歌AI果蝇大脑

2017-03-20 15:23:46

人工智能连续学习神经网络

2012-08-30 10:29:42

智能手机平板电脑

2021-01-08 15:41:43

谷歌研究技术

2020-01-16 15:57:36

AI 数据人工智能

2014-07-21 09:18:26

谷歌Google Brai

2020-01-23 15:19:26

谷歌Android开发者

2023-06-19 10:32:49

持续学习

2023-07-25 13:59:29

谷歌论文

2023-05-15 16:10:00

人工智能ChatGPT
点赞
收藏

51CTO技术栈公众号