一文彻底搞懂机器学习 - 朴素贝叶斯(Naive Bayes) 原创
在机器学习中,朴素贝叶斯(Naive Bayes)是一种分类算法,它基于贝叶斯定理,并假设输入数据的特征之间相互独立。
朴素贝叶斯算法利用贝叶斯公式计算样本的后验概率,即属于某一个类别的概率,然后选择具有最大后验概率的类别作为样本的类别。
它在多个领域都有广泛的应用,如文本分类、垃圾邮件的分类、信用评估、钓鱼网站检测等。
Naive Bayes
一、贝叶斯定理
什么是贝叶斯定理(Bayes' Theorem)?贝叶斯定理是一种描述两个条件概率之间关系的定理,它允许我们根据新的证据或数据来更新我们对某一事件或参数的信念。
什么是贝叶斯统计(Bayesian Statistics)?贝叶斯统计是一种基于贝叶斯定理的统计推断方法,它利用先验信息和样本数据来更新我们对未知参数或事件概率的信念。
- 先验分布:在统计推断开始之前,基于历史数据、专家经验或主观信念,对未知参数所做的初步判断或假设,这种判断不必完全客观。
- 后验分布:它是结合先验分布与样本信息后,通过贝叶斯定理计算得到的未知参数的新分布。后验分布综合了先验知识与样本数据的信息,是贝叶斯推断的基石。
什么是贝叶斯网络(Bayesian Network)?贝叶斯网络是一种基于有向无环图和条件概率表的概率图模型,用于表示和推理随机变量间的依赖关系,解决复杂系统中的不确定性推理问题,其核心理论基础是贝叶斯定理。
贝叶斯定理是关于随机事件条件概率的定理,它描述了如何在已知某些事件发生的条件下,计算其他事件的概率。
贝叶斯网络则是基于贝叶斯定理构建的一种概率图模型,用于表示和推理随机事件之间的概率关系。
二、朴素贝叶斯
什么是朴素贝叶斯(Naive Bayes)?朴素贝叶斯是一种基于概率理论的分类算法,其理论基础是贝叶斯定理与特征条件独立假设。
- 贝叶斯定理:描述了事件的条件概率之间的关系,常用于分类问题中样本类别与特征间的概率推理。
- 特征条件独立假设:朴素贝叶斯分类器基于输入特征相互独立的假设,简化计算并高效处理高维数据。
朴素贝叶斯假设给定目标值时,属性之间相互条件独立,通过已给定的训练集学习从输入到输出的联合概率分布。基于学习到的模型,输入新的样本数据,求出使得后验概率最大的输出,即该样本所属的类别。
朴素贝叶斯的分类器有哪些?朴素贝叶斯分类器有多种类型,取决于数据集中特征的类型。
- 高斯朴素贝叶斯(Gaussian Naive Bayes):适用于连续型特征,假设特征服从高斯(正态)分布。
- 多项式朴素贝叶斯(Multinomial Naive Bayes):适用于离散型特征,特别是文本数据,它计算的是词频(词项出现的次数)。
- 伯努利朴素贝叶斯(Bernoulli Naive Bayes):也适用于离散型特征,但它是基于二项分布(即特征出现或不出现)的。
本文转载自公众号架构师带你玩转AI 作者:AllenTang