数据科学异常值检测原理之经验法则

大数据
数据样本符合标准正态分布,正态分布的核心是中心极限定理即:如果一个事物受到多种因素的影响,不管每个因素本身是什么分布,它们加总后,结果的平均值就是正态分布。

前提:

数据样本符合标准正态分布,正态分布的核心是中心极限定理即:如果一个事物受到多种因素的影响,不管每个因素本身是什么分布,它们加总后,结果的平均值就是正态分布。如果要符合正态分布则这些因素必须彼此独立,彼此不独立的各项因素会互相加强影响,那么就构不成正态分布。(还有对数正态分布是指各种因素对结果的影响不是相加,而是相乘)

经验法则原理:

标准正态分布下的曲线为钟型曲线,期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。因此对于一组数据,如果符合正态分布,则可以通过经验法则来检测异常值,同图中可以发现,68.2%的测量值落在μ值处正负一个标准差σ的区间内,95.4%的测量值将落在μ值处正负两个标准差σ的区间内,99.7%的值落在μ值处正负三个标准差σ的区间内。因此,对于一组符合正态分布的数据,如果某个值距离μ值超过三个标准差σ则可以判断这个值属于异常数据。

数据科学异常值检测原理—经验法则

计算步骤:

μ值:μ是遵从正态分布的随机变量的均值,由于前提是各种因素对结果的影响为相加,因此μ值的计算可以为样本数据的算术平均值。

标准差σ:所有数据减去其平均值的平方和,所得结果除以该组数之个数N(数据集为总体数据情况,一般用于大数据算法)或者个数N减1(数据集为样本数据情况,认为数据集不是总体数据而是总体数据的一部分,一般用于统计学),再把所得值开根号,所得之数就是这组数据的标准差。

数据科学异常值检测原理—经验法则

判断逻辑:计算μ+3σ,μ-3σ,当单个数据大于μ+3σ或者小于μ-3σ时,认为此数据为异常值,因为按照经验法则,此数据在数据集的99.7%范围外。

 

责任编辑:未丽燕 来源: 阿里云栖社区
相关推荐

2018-08-16 10:05:07

2018-09-17 15:30:05

机器学习密度异常值

2024-01-25 08:00:00

机器学习异常值检测方法

2022-09-22 15:42:02

机器学习异常值工具

2019-09-09 15:28:04

数据科学帕累托法则工具

2022-09-21 23:41:40

机器学习开源数据

2020-09-04 16:17:15

数据科学离群点检测

2011-07-07 18:15:41

软件开发

2020-11-02 13:44:35

算法数据科学Python

2010-11-24 09:15:02

JavaScriptWeb开发者

2009-12-22 16:03:03

WCF异常

2020-12-06 15:42:22

数据科学家数据科学人工智能

2020-06-16 13:32:02

数据科学家大数据系统

2019-01-23 09:36:02

数据科学项目数据科学数据科学家

2021-01-15 12:22:35

异常检测工具

2021-09-14 10:39:16

入侵检测数据泄露日志文件

2013-05-06 10:45:34

数据科学家数据分析

2019-09-11 09:04:47

编程语言代码程序

2017-04-07 10:11:42

AR教育经验

2009-07-30 18:32:42

点赞
收藏

51CTO技术栈公众号