一文彻底搞懂SOTA模型 - VGG(2014) 原创

发布于 2025-1-2 14:19
浏览
0收藏

一文彻底搞懂SOTA模型 - VGG(2014)-AI.x社区

VGG是在2014年由牛津大学科学工程系Visual Geometry Group组提出的。VGG网络主要证明了增加网络的深度能够在一定程度上影响网络最终的性能,并在ImageNet大规模视觉识别挑战赛(ILSVRC)中取得了显著成绩。

VGG网络在分类任务(Classification Task)中,VGG网络获得了第二名;在定位任务(Localization Task)中,VGG网络获得了第一名。

一文彻底搞懂SOTA模型 - VGG(2014)-AI.x社区

VGG

一、VGG

VGG(Visual Geometry Group)是什么?VGG是由牛津大学的视觉几何组(Visual Geometry Group)提出的一系列深度卷积神经网络模型

VGG网络的结构非常简洁和统一,主要由一系列的卷积层和池化层组成。它通过深度堆叠卷积层和池化层来构建深度网络,从而学习到更加复杂和抽象的特征表示。

  • 3x3卷积核:VGG网络使用多个小尺寸的3x3卷积核,这种设计有助于减少参数数量并增加网络的非线性。
  • 2x2最大池化层:在每个卷积层序列之后,VGG网络使用2x2的最大池化层来减少特征图的尺寸并增加特征的局部性。

一文彻底搞懂SOTA模型 - VGG(2014)-AI.x社区


VGG为什么使用3x3卷积核?3x3卷积核相较于大尺寸卷积核(如5x5、7x7等)具有更少的参数数量和计算量。VGG可以通过多次堆叠3x3卷积核来形成深度网络,捕捉到更复杂的特征信息,而无需使用大尺寸卷积核。

感受野是卷积神经网络中每个神经元能够覆盖的输入图像区域的大小。较大的感受野能够捕捉到更全局的特征信息。虽然3x3卷积核单独看起来较小,但通过多次堆叠,可以实现与大尺寸卷积核相同的感受野范围。

在深度学习和计算机视觉领域,卷积核是用于执行卷积操作的小矩阵,它在输入数据(如图像)上滑动,通过计算点积来提取特征

一文彻底搞懂SOTA模型 - VGG(2014)-AI.x社区


VGG为什么使用2x2最大池化层2x2最大池化层能够显著压缩数据的尺寸,从而减少参数数量和计算量。这有助于降低模型的复杂度和提高训练速度。

同时,最大池化层通过选取每个池化窗口中的最大值来保留最重要的特征信息。这种操作能够减小卷积层参数误差造成的估计值均值的偏移,并保留更多的纹理信息

一文彻底搞懂SOTA模型 - VGG(2014)-AI.x社区

二、网络结构

VGG的网络结构是什么?VGG网络通常包含多个卷积块(Block),每个卷积块由多个卷积层和一个池化层组成。这些卷积块后面通常跟着几个全连接层(也称为线性层)和一个softmax输出层。

VGG网络有两种常见的变体:VGG-16和VGG-19。



一文彻底搞懂SOTA模型 - VGG(2014)-AI.x社区

VGG-16的网络结构是什么?VGG-16由13个卷积层和3个全连接层堆叠而成,总层数为16层其网络结构可以表示为:卷积-池化-卷积-池化-卷积-池化-卷积-池化-卷积-池化-全连接-全连接-softmax。

一文彻底搞懂SOTA模型 - VGG(2014)-AI.x社区

VGG-19的网络结构是什么?VGG-19是由16个卷积层和3个全连接层组成,总层数为19层。它的卷积层结构分为五个阶段,前两个阶段分别包含2个3x3卷积层,后三个阶段分别包含4个3x3卷积层,每个阶段末尾跟一个2x2最大池化层。

一文彻底搞懂SOTA模型 - VGG(2014)-AI.x社区



本文转载自公众号架构师带你玩转AI 作者:AllenTang

原文链接:​​https://mp.weixin.qq.com/s/jKSdDwAA58PpDHZ6Uqd5iA​

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-1-2 14:27:44修改
收藏
回复
举报
回复
相关推荐