超强！深度学习中必知的 79 个重要概念-51CTO.COM

大家好，我是小寒。

今天给大家分享你必须知道的 79 个深度学习术语。

1.人工神经网络（ANN）

人工神经网络是一种模拟人脑神经元结构和功能的计算模型，用于处理复杂的计算和模式识别任务。

它由多个神经元（节点）组成，这些神经元通过连接权重相互连接，可以通过调整这些权重来学习和适应不同的任务。

2.激活函数

激活函数是神经网络中的一个函数，用于引入非线性，使得神经网络可以表示复杂的模式和关系。

常见的激活函数包括ReLU（修正线性单元）、Sigmoid（S型函数）和Tanh（双曲正切函数）。

3.反向传播

反向传播是一种用于训练神经网络的算法，通过计算损失函数的梯度并更新网络中的权重，使得模型的预测结果更加准确。

反向传播通常使用梯度下降法来优化权重。

4.卷积神经网络（CNN）

卷积神经网络是一种专门用于处理图像数据的神经网络结构，通过使用卷积层、池化层和全连接层来提取和学习图像的特征。

它在图像分类、目标检测和图像分割等任务中表现出色。

5.深度学习

深度学习是一种基于多层神经网络的机器学习方法，通过构建和训练深度模型来自动学习数据的复杂特征和模式。

深度学习在图像处理、自然语言处理和语音识别等领域取得了显著的成果。

6.epoch

一个epoch指的是神经网络在训练过程中遍历整个训练数据集一次。

多个epoch可以提高模型的准确性和稳定性，但过多的epoch可能导致过拟合。

7.特征提取

特征提取是从原始数据中提取有用特征的过程，这些特征可以帮助模型更好地理解和预测数据的模式。

特征提取可以是手工设计的，也可以是通过深度学习模型自动学习的。

8.梯度下降

梯度下降是一种优化算法，用于最小化损失函数。

通过计算损失函数相对于模型参数的梯度，并沿着梯度的反方向更新参数，使得损失函数逐渐减小。

9.损失函数

损失函数用于衡量模型预测值与真实值之间的差异。

常见的损失函数包括均方误差（MSE）、交叉熵损失（cross-entropy loss）等。

10.循环神经网络（RNN）

循环神经网络是一种处理序列数据的神经网络结构，它通过在网络中引入循环连接，使得模型能够记住之前的输入信息，并用于后续的预测和决策。

11.迁移学习

迁移学习是一种将一个任务中学到的知识应用到另一个相关任务中的方法。

通过迁移学习，可以利用预训练模型的权重和特征，减少新任务的训练时间和数据需求。

12.权重

权重是神经网络中连接各个神经元的参数，用于调节输入信号的强度。

通过训练过程，权重会不断调整，以使得模型的预测结果更加准确。

13.偏置

偏置是神经网络中的一个附加参数，它与权重一起用于调整模型的输出。

偏置可以帮助模型在没有输入信号的情况下也能产生输出，从而提高模型的灵活性和准确性。

14.过拟合

过拟合是指模型在训练数据上表现良好，但在测试数据上表现不佳的情况。

过拟合通常是由于模型过于复杂，捕捉到了训练数据中的噪声和细节，导致其泛化能力下降。

15.欠拟合

欠拟合是指模型在训练数据和测试数据上都表现不佳的情况。

这通常是由于模型过于简单，无法捕捉数据中的重要模式和关系。

16.正则化

正则化是一种防止过拟合的方法，通过在损失函数中加入惩罚项，限制模型的复杂度，使得模型能够更好地泛化到未见过的数据。

常见的正则化方法包括L1正则化和L2正则化。

17.Dropout

Dropout 是一种正则化技术，通过在训练过程中随机丢弃一部分神经元及其连接，使得模型更具鲁棒性，防止过拟合。

18.批量标准化

批量标准化是一种加速神经网络训练并提高稳定性的方法，通过在每一层对输入数据进行标准化，使得数据的均值为 0，方差为1，从而减少内层协变量偏移。

19.自动编码器

自动编码器是一种用于无监督学习的神经网络，通过将输入数据编码为低维表示（编码器）并从低维表示重建原始数据（解码器），自动编码器可以用于数据降维、特征提取和异常检测。

20.生成对抗网络（GAN）

生成对抗网络是一种用于生成新数据的模型，由生成器和判别器两个部分组成。

生成器生成伪造数据，判别器判断数据的真假，两者相互竞争，最终生成器可以生成逼真的数据。

21.注意力机制

注意力机制是一种提高模型处理长序列数据能力的方法，通过为每个输入元素分配不同的权重，使得模型能够更关注重要的信息，广泛应用于自然语言处理和图像处理任务。

22.嵌入层

嵌入层是一种将高维离散数据（如单词）映射到低维连续向量空间的技术，用于捕捉数据之间的语义关系，常用于自然语言处理任务中的词向量表示。

23.多层感知器（MLP）

多层感知器是一种基本的神经网络结构，由输入层、隐藏层和输出层组成。

每层的神经元通过权重连接，MLP可以用于分类和回归任务。

24.规范化

规范化是将数据按比例缩放到特定范围的方法，常见的规范化方法包括最小-最大规范化和z-score规范化。

规范化有助于加速模型的训练并提高模型的性能。

25.池化层

池化层是一种用于减少特征图尺寸的层，通过取邻近区域的最大值或平均值，减少参数数量和计算量，同时保留重要特征，常用于卷积神经网络中。

26.序列到序列模型

序列到序列模型是一种用于处理序列数据的模型结构，通过编码器将输入序列编码为固定长度的向量，再通过解码器将向量解码为输出序列，广泛应用于机器翻译和文本生成等任务。

27.张量

张量是深度学习中用于表示数据的多维数组。

张量可以是标量、向量、矩阵或更高维度的数据结构，是构建和训练神经网络的基本数据单元。

28.骨干网络

骨干网络（Backbone）是深度学习中用于特征提取的主要网络结构。它通常是一个预训练的神经网络模型，用于从输入数据中提取高层次的特征表示。这些特征然后被用作下游任务（如分类、检测、分割等）的输入。

29.微调

微调是指在预训练模型的基础上，对特定任务进行进一步训练和调整，使模型更适应新的任务。

微调可以减少训练时间和数据需求，提高模型的性能。

30.超参数

超参数是模型训练前设置的参数，不会在训练过程中更新。

常见的超参数包括学习率、批次大小、网络层数等。

超参数的选择对模型的性能有重要影响。

31.学习率

学习率是梯度下降法中的一个重要参数，决定了每次更新权重的步长大小。

学习率过大会导致训练不稳定，学习率过小会导致训练速度慢。

32.Softmax 函数

Softmax 函数是一种归一化函数，将输入的实数向量转换为概率分布，使得输出的所有元素之和为1，常用于多分类任务的输出层。

33.长短期记忆（LSTM）

长短期记忆是一种改进的循环神经网络结构，通过引入记忆单元和门机制，解决了标准RNN的梯度消失和梯度爆炸问题，能够更好地捕捉序列数据中的长依赖关系。

34.梯度消失问题

梯度消失问题是指在深度神经网络中，随着反向传播过程中梯度逐层传递，梯度值会变得非常小，导致前几层的权重几乎无法更新，影响模型的训练效果。

35.梯度爆炸问题

梯度爆炸问题是指在深度神经网络中，随着反向传播过程中梯度逐层传递，梯度值会变得非常大，导致权重更新过度，影响模型的稳定性。

36.数据增强

数据增强是一种通过对原始数据进行随机变换（如旋转、翻转、裁剪等）来生成更多训练数据的方法，以提高模型的泛化能力和鲁棒性。

37.批次大小

批次大小是指在一次迭代中用于训练模型的数据样本数量。

较大的批次大小可以加速训练过程，但需要更多的内存；较小的批次大小则更具噪声，可能导致训练不稳定。

38.优化器

优化器是用于更新神经网络权重的算法，根据损失函数的梯度计算权重的更新值。

常见的优化器包括SGD（随机梯度下降）、Adam、RMSprop等。

39.F1-score

F1-score 是用于衡量分类模型性能的指标，是精准率和召回率的调和平均值。

F1-score 的值介于0和1之间，值越大表示模型性能越好。

40.精准

精准率是指在所有被预测为正类的样本中，实际为正类的样本所占的比例。

它衡量了模型预测结果的准确性。

41.召回

召回率是指在所有实际为正类的样本中，被正确预测为正类的样本所占的比例。

它衡量了模型对正类样本的识别能力。

42.ROC 曲线

ROC曲线（接收者操作特征曲线）是一种用于评价分类模型性能的图形，通过绘制真阳性率和假阳性率之间的关系来展示模型在不同阈值下的表现。

43.曲线下面积（AUC）

AUC是ROC曲线下的面积，用于衡量分类模型的整体性能。AUC值介于0和1之间，值越大表示模型性能越好。

44.提前停止

提前停止是一种正则化技术，通过在验证集上监控模型的性能，如果性能不再提升或开始下降，提前停止训练，以防止过拟合。

45.特征缩放

特征缩放是将特征数据按比例缩放到特定范围的方法，常见的特征缩放方法包括标准化和归一化。

特征缩放有助于加速模型的训练并提高模型的性能。

46.生成模型

生成模型是指通过学习数据的分布来生成新数据的模型。

常见的生成模型包括GAN、变分自编码器（VAE）等。

47.判别模型

判别模型是指通过学习数据的决策边界来进行分类或回归的模型。

常见的判别模型包括逻辑回归、支持向量机（SVM）等。

48.数据不平衡

数据不平衡是指训练数据中不同类别样本数量差异较大的情况，可能导致模型偏向多数类样本，影响分类性能。

49.降维

降维是将高维数据转换为低维数据的过程，以减少数据的维度，降低计算复杂度，同时保留数据的主要特征。

常见的降维方法包括PCA、t-SNE等。

50.主成分分析（PCA）

主成分分析是一种线性降维方法，通过寻找数据中方差最大的方向，将数据投影到低维空间，以保留数据的主要特征。

51.非线性激活函数

非线性激活函数是神经网络中的一种函数，用于引入非线性，使得神经网络能够表示复杂的模式和关系。

常见的非线性激活函数包括ReLU、Sigmoid、Tanh等。

52.批量训练

批量训练是指在训练过程中将数据分成多个小批次，每次使用一个批次的数据来更新模型的参数。

这种方法可以加速训练过程并提高模型的稳定性。

53.随机梯度下降（SGD）

随机梯度下降是一种优化算法，通过对每个样本或小批次样本计算梯度并更新模型参数，以最小化损失函数。

SGD 在大规模数据训练中表现良好。

54.注意层

注意层是一种用于提高模型处理长序列数据能力的层，通过为每个输入元素分配不同的权重，使得模型能够更关注重要的信息，广泛应用于自然语言处理和图像处理任务。

55.跳过连接

跳过连接是指在深度神经网络中通过增加跨层连接，使得输入信号可以直接传递到后面的层，缓解梯度消失问题，提高模型的训练效果。

ResNet是典型的应用跳过连接的模型。

56.自监督学习

自监督学习是一种通过生成和利用数据中的内在结构和关系进行训练的方法，不需要大量的标注数据，常用于图像、文本和音频等领域。

57.交叉熵损失

交叉熵损失是一种用于分类任务的损失函数，通过衡量模型预测的概率分布与真实分布之间的差异，来指导模型参数的更新。

58.序列建模

序列建模是指通过模型来捕捉和预测序列数据中的模式和关系，常用于时间序列分析、自然语言处理和音频信号处理等任务。

59.知识蒸馏

知识蒸馏是一种通过将大模型（教师模型）的知识传递给小模型（学生模型）的方法，使得小模型能够在保持较高性能的同时减少参数数量和计算量。

60. 神经风格迁移

神经风格迁移是一种通过深度学习模型将一种图像的风格应用到另一种图像上的技术，常用于图像生成和艺术创作。

61. 标签平滑

标签平滑是一种正则化技术，通过在训练过程中将真实标签分布进行平滑，使得模型的预测更加鲁棒，减少过拟合的风险。

62.T-SNE

T-SNE 是一种用于数据可视化的降维方法，通过将高维数据嵌入到低维空间中，保留数据点之间的相对距离和结构，以便于观察和分析。

63.梯度剪切

梯度剪切是一种防止梯度爆炸的方法，通过将超过阈值的梯度进行剪裁，使得梯度保持在合理范围内，提高模型的训练稳定性。

64.元学习

元学习是一种学习如何学习的技术，通过在多个任务上进行训练，使得模型能够更快地适应新任务和新数据，提高学习效率和泛化能力。

65.量化

量化是将神经网络中的权重和激活值从浮点数表示转换为低精度表示（如整数），以减少模型的计算量和存储需求，提高模型的运行效率。

66.自注意力

自注意力是一种用于捕捉序列数据中各元素之间依赖关系的机制，通过计算序列中各元素对其他元素的注意力权重，使得模型能够更好地理解和处理长序列数据。

67.Transformer 模型

Transformer 模型是一种基于自注意力机制的神经网络结构，广泛应用于自然语言处理任务，如机器翻译、文本生成等。

Transformer 模型通过并行计算和全局依赖关系捕捉，显著提高了模型的性能和训练效率。

68.BERT

BERT（Bidirectional Encoder Representations from Transformers）是一种基于Transformer的预训练语言模型，通过双向编码器捕捉句子中的上下文信息，广泛应用于各种自然语言处理任务。

69.词嵌入

词嵌入是一种将词语表示为连续向量的方法，通过捕捉词语之间的语义关系，使得词语能够在低维向量空间中进行计算和比较。

常见的词嵌入方法包括Word2Vec、GloVe等。

70.位置编码

位置编码是一种在 Transformer 模型中用于表示序列中每个元素位置的信息，使得模型能够捕捉序列数据中的顺序关系，常用的方式包括正弦和余弦函数编码。

71.图神经网络（GNN）

图神经网络是一种用于处理图结构数据的神经网络，通过对图中节点和边的信息进行传递和聚合，使得模型能够捕捉图结构中的关系和模式，应用于社交网络分析、推荐系统等任务。

72.强化学习

强化学习是一种通过与环境互动来学习最优策略的机器学习方法，通过奖励和惩罚信号指导智能体的行为选择，应用于游戏、机器人控制等领域。

73.模型修剪

模型修剪是一种减少神经网络中冗余连接和参数的方法，通过删除不重要的连接，使得模型更加紧凑、高效，同时保持或提高模型的性能。

74.偏差-方差权衡

偏差-方差权衡是指模型在拟合训练数据和泛化到未见数据之间的平衡。

偏差表示模型对训练数据的拟合能力，方差表示模型对训练数据变化的敏感度。

合适的权衡可以提高模型的泛化能力。

75.多模式学习

多模式学习是指同时处理多种类型的数据（如图像、文本、音频等）并学习它们之间的关联关系，使得模型能够更全面地理解和处理复杂任务。

76.异常检测

异常检测是指识别和检测数据中异常或异常模式的任务，广泛应用于故障检测、欺诈检测和安全监控等领域。

77.卷积

卷积是一种用于提取数据局部特征的操作，通过在输入数据上应用卷积核（滤波器），生成特征图，使得模型能够捕捉数据中的模式和结构，常用于图像处理任务。

78.池化

池化是一种用于减少特征图尺寸的操作，通过取邻近区域的最大值或平均值，减少参数数量和计算量，同时保留重要特征，常用于卷积神经网络中。

79.扩张卷积

扩张卷积是一种改进的卷积操作，通过在卷积核之间插入空洞，使得卷积核能够覆盖更大的感受野，从而提取更多的上下文信息，常用于图像分割任务。