免费Python机器学习课程一:线性回归算法

人工智能 机器学习 算法
如今,可用的高级机器学习算法,库和技术如此之多,以至于线性回归似乎并不重要。但是,学习基础知识总是一个好主意。这样,您将非常清楚地理解这些概念。在本文中,我将逐步解释线性回归算法。

最基本的机器学习算法必须是具有单个变量的线性回归算法。如今,可用的高级机器学习算法,库和技术如此之多,以至于线性回归似乎并不重要。但是,学习基础知识总是一个好主意。这样,您将非常清楚地理解这些概念。在本文中,我将逐步解释线性回归算法。

[[358749]]

想法和公式

线性回归使用非常基本的预测思想。公式如下:

Y = C + BX

我们在学校都学过这个公式。提醒您,这是一条直线方程。在此,Y是因变量,B是斜率,C是截距。通常,对于线性回归,它写为:

免费Python机器学习课程一:线性回归算法

在这里," h"是假设或预测的因变量,X是输入特征,theta0和theta1是系数。Theta值从头开始随机初始化。然后使用梯度下降,我们将更新theta值以最小化成本函数。这是成本函数和梯度下降的解释。

成本函数和梯度下降

成本函数确定预测与原始因变量的距离。这是公式

免费Python机器学习课程一:线性回归算法

任何机器学习算法的想法都是最小化成本函数,以使假设接近于原始因变量。为此,我们需要优化theta值。如果我们分别基于theta0和theta1取成本函数的偏导数,则会得到梯度下降。要更新theta值,我们需要从相应的theta值中减去梯度下降:

免费Python机器学习课程一:线性回归算法

经过偏导数后,以上公式将变为:

免费Python机器学习课程一:线性回归算法

此处,m是训练数据的数量,而alpha是学习率。我正在谈论一种变量线性回归。这就是为什么我只有两个theta值的原因。如果有很多变量,则每个变量都有theta值。

工作实例

我将要使用的数据集来自安德鲁·伍(Andrew Ng)的Coursera机器学习课程。这是在Python中逐步实现线性回归的过程。

(1) 导入包和数据集。

  1. import numpy as np 
  2. import pandas as pd 
  3. df = pd.read_csv('ex1data1.txt', header = None
  4. df.head() 
免费Python机器学习课程一:线性回归算法

在此数据集中,列零是输入要素,列1是输出变量或因变量。我们将使用列0使用上面的直线公式预测列1。

(2) 将第1列与第0列相对应。

免费Python机器学习课程一:线性回归算法

输入变量和输出变量之间的关系是线性的。当关系为线性时,线性回归效果最佳。

(3) 初始化theta值。我正在将theta值初始化为零。但是任何其他值也应该起作用。

  1. theta = [0,0] 

(4) 根据前面讨论的公式定义假设和成本函数。

  1. def hypothesis(theta, X):  
  2.     return theta[0] + theta[1]*X 
  3.  
  4. def cost_calc(theta, X, y):  
  5.     return (1/2*m) * np.sum((hypothesis(theta, X) - y)**2) 

(5) 计算训练数据的数量作为DataFrame的长度。然后定义梯度下降函数。在此函数中,我们将更新theta值,直到cost函数达到最小值为止。可能需要任何数量的迭代。在每次迭代中,它将更新theta值,并使用每个更新的theta值来计算成本以跟踪成本。

  1. m = len(df) 
  2. def gradient_descent(theta, X, y, epoch, alpha): 
  3.     cost = [] 
  4.     i = 0 
  5.     while i < epoch: 
  6.         hx = hypothesis(theta, X) 
  7.         theta[0] -alpha*(sum(hx-y)/m) 
  8.         theta[1] -= (alpha * np.sum((hx - y) * X))/m 
  9.         cost.append(cost_calc(theta, X, y)) 
  10.         i += 1 
  11.     return theta, cost 

(6) 最后,定义预测函数。它将从梯度下降函数获得更新的theta并预测假设或预测的输出变量。

  1. def predict(theta, X, y, epoch, alpha): 
  2.     theta, cost = gradient_descent(theta, X, y, epoch, alpha) 
  3.     return hypothesis(theta, X), cost, theta 

(7) 使用预测函数,找到假设,成本和更新的theta值。我选择学习率为0.01,然后将这个算法运行2000个时期或迭代。

  1. y_predict, cost, theta = predict(theta, df[0], df[1], 2000, 0.01) 

最终theta值为-3.79和1.18。

(8) 在同一图中绘制原始y和假设或预测y。

  1. %matplotlib inline 
  2. import matplotlib.pyplot as plt 
  3. plt.figure() 
  4. plt.scatter(df[0], df[1], label = 'Original y'
  5. plt.scatter(df[0], y_predict, label = 'predicted y'
  6. plt.legend(loc = "upper left"
  7. plt.xlabel("input feature") 
  8. plt.ylabel("Original and Predicted Output") 
  9. plt.show() 
免费Python机器学习课程一:线性回归算法

假设图是公式中所预期的一条直线,并且该直线正在最佳位置通过。

(9) 记住,我们在每次迭代中都跟踪成本函数。让我们绘制成本函数。

  1. plt.figure() 
  2. plt.scatter(range(0, len(cost)), cost) 
  3. plt.show() 
免费Python机器学习课程一:线性回归算法

如前所述,我们的目的是优化theta值以最小化成本。从该图可以看出,成本从一开始就急剧下降,然后稳定下来。这意味着theta值已按照我们的预期正确优化。

我希望这可以帮到你。这是本文中使用的数据集的链接:

https://github.com/rashida048/Machine-Learning-With-Python/blob/master/ex1data1.txt。

 

责任编辑:赵宁宁 来源: 今日头条
相关推荐

2020-12-20 20:31:56

Python机器学习多元线性回归

2020-12-23 07:54:56

Python机器学习逻辑回归算法

2020-12-22 07:09:01

Python机器学习多项式回归

2020-12-24 06:54:45

Python机器学习多类分类逻辑回归

2020-12-25 10:08:53

Python机器学习神经网络算法

2020-12-27 21:14:06

Python机器学习算法

2014-08-22 10:06:46

机器学习

2020-11-10 08:37:05

Python线性回归机器学习

2017-05-17 08:24:08

TensorFlow机器学习线性回归

2020-12-29 06:45:30

Python机器学习K均值聚类

2021-01-01 14:59:51

Python机器学习算法

2020-12-28 08:26:51

Python机器学习数据集

2020-07-01 08:48:01

Python机器学习工具

2014-06-30 10:58:02

机器学习

2020-12-16 15:56:26

机器学习人工智能Python

2024-03-01 07:26:49

RustPolars机器学习

2018-08-03 10:30:16

算法回归机器学习

2023-11-29 14:34:15

机器学习统计学

2017-03-10 12:16:46

机器学习

2024-10-22 10:23:58

点赞
收藏

51CTO技术栈公众号