最强总结,机器学习中必会的 15 个关键术语!!

人工智能 机器学习
一起来了解一下机器学习中必会的 15 个关键术语都有哪些吧!

1.算法

算法是一系列明确的步骤或规则,用于解决特定问题或完成特定任务。

在机器学习中,算法用于从数据中学习模式,并做出预测或决策。

示例:线性回归、决策树、支持向量机(SVM)、神经网络等都是常见的机器学习算法。例如,线性回归根据历史数据预测连续值(如房价)。

2.模型

模型是通过机器学习算法从数据中学习到的数学表示。它能够对新数据进行预测或分类。

示例:决策树模型可以根据输入特征来决定输出类别;神经网络模型可以识别图像中的物体。

3.训练数据

训练数据是指用于训练机器学习模型的数据集。

它由输入输出对组成,可帮助模型学习所需的任务。

训练数据越多样化、越有代表性,模型的性能就越好。

示例:对于预测房价的模型,训练数据可能包括房屋特征(如大小、卧室数量)及其相应的价格。

4.测试数据

测试数据是一个单独的数据集,用于评估机器学习模型在未知数据上的表现。

这有助于防止过度拟合,即模型在训练数据上可能表现良好,但在新数据上却表现不佳。

示例:训练垃圾邮件过滤器后,你可以在以前从未见过的电子邮件上对其进行测试,以检查其准确性。

5.特征

特征是模型用来进行预测的数据的单个可测量属性。

在机器学习的背景下,选择正确的特征对于构建良好的模型至关重要。

示例:在预测房价时,特征可能包括卧室数量、面积和位置。

6.标签

标签是与每个训练样本关联的目标值或类别。

在监督学习中,模型使用这些标签来学习输入和输出之间的关系。

示例:在预测电子邮件是否为垃圾邮件的模型中,标签将是“垃圾邮件”或“非垃圾邮件”。

7.过度拟合

过度拟合是指模型对训练数据(包括噪声和异常值)的学习过于深入,导致新数据上的表现不佳。

这意味着模型与训练数据的拟合程度过高,使其通用性较差。

示例:由于过度拟合,模型在训练数据上表现完美,但在测试数据上表现不佳。

8.欠拟合

当模型过于简单,无法捕捉数据中的模式时,就会发生欠拟合,从而导致训练和测试数据的性能不佳。

示例:使用线性回归来拟合一个明显非线性的关系,导致预测误差较大。

9.准确性

准确性是衡量分类模型正确预测的比例。计算方法是正确预测的数量除以总预测数量。

示例:如果一个模型能够正确识别 100 封电子邮件中的 90 封是否为垃圾邮件,则其准确率为 90%。

10.精确率和召回率

精确率和召回率是评价分类模型的重要指标,尤其是在不平衡的数据集中。

  • 精确率:在所有被模型预测为正类的样本中,实际为正类的比例。
  • 召回率:在所有实际为正类的样本中,模型正确预测为正类的比例。

示例:在疾病筛查中,高精确率意味着大多数被诊断为患病的人确实患病;高召回率意味着大多数实际患病的人被成功识别。

11.学习率

学习率是一个超参数,它控制模型权重相对于损失梯度的更新程度。

较高的学习率可能会导致模型收敛过快而错过最优解,而较低的学习率则可能导致训练过程过慢。

示例:在神经网络中,学习率决定了模型在训练期间从错误中学习的速度。

12.epoch

一个 epoch 是指在模型训练过程中对整个训练数据集进行一次完整的遍历。

多个 epoch 可以让模型更好地学习,因为它会在每次遍历中调整其权重。

示例:如果有1000个训练样本,1个epoch意味着模型已经看过所有1000个样本一次。

13.超参数

超参数是在训练之前设置的参数,用于控制学习过程和模型结构。

与模型参数不同,超参数不能通过训练直接学习到。

示例:学习率、批量大小(batch size)、神经网络的层数和每层的神经元数量等都是常见的超参数。

14.损失函数

损失函数用于衡量模型预测值与真实值之间的差距。

训练过程中,模型通过最小化损失函数来进行优化。

示例:均方误差(MSE)常用于回归任务,交叉熵损失常用于分类任务。

15.正则化

正则化是一种技术,用于防止模型过度拟合。

它通过在损失函数中添加惩罚项,限制模型的复杂度。

示例

  • L1正则化:通过加上权重绝对值的和,促使一些权重变为零,实现特征选择。
  • L2正则化:通过加上权重平方和,限制权重的大小,防止过度拟合。
责任编辑:华轩 来源: 程序员学长
相关推荐

2024-09-09 14:42:09

2024-09-11 08:32:07

2024-08-15 14:48:57

2024-07-29 15:07:16

2018-10-26 14:10:21

2020-04-26 10:32:00

机器学习技术工具

2021-03-01 11:39:34

机器学习深度学习人工智能

2019-07-29 15:11:04

区块链网络存储

2020-04-26 12:05:53

机器学习工具人工智能

2011-05-07 14:39:00

投影

2024-10-10 08:12:12

2021-04-18 22:06:29

机器学习算法数据

2021-01-20 15:43:01

机器学习深度学习科学

2020-12-17 07:57:18

机器学习算法

2024-05-30 07:34:42

2020-06-10 12:19:21

机器学习技术人工智能

2015-11-11 14:26:31

数据可视化术语

2023-04-19 19:05:08

机器学习零售业

2018-09-15 16:06:55

机器学习神经网络框架

2023-06-16 10:59:34

点赞
收藏

51CTO技术栈公众号