本文将介绍使用 Python 对数据快速进行统计分析的 30 个经典操作,包括计算平均值、中位数、众数、方差、移动平均、相关系数等。每个操作都附有代码实现和输出结果,大家动手练起来吧.
导入库并创建数据
首先,我们需要导入必要的库,并创建一个简单的列表数据,后续对该列表进行相应的数据统计分析。
1. 计算平均值、最大值、最小值、中位数、众数、方差、标准差、极差
输出结果:
平均值: 4.909090909090909
最大值: 10
最小值: 1
中位数: 4.0
众数: 4
方差: 6.2727272727272725
标准差: 2.5045410659520024
极差: 9
2. 计算分位数
输出结果:
第一四分位数: 3.0
第三四分位数: 5.0
第90百分位数: 9.6
3. 计算偏度
输出结果:
偏度:0.865996160689023
4. 计算峰度
输出结果:
峰度: -0.9444444444444444
5. 计算相关系数
输出结果:
相关系数: 1.0
6. 计算协方差
输出结果:
协方差: 7.5
7. 计算累积和
输出结果:
累积和: [ 1 3 6 10 15 25 29 34 44 48 53]
8. 计算累积积
输出结果:
累积积: [ 1 2 6 24 120 1200 4800 24000 240000 960000 4800000]
9. 计算累积最大值和最小值
输出结果:
累积最大值: [ 1 2 3 4 5 10 10 10 10 10 10]
累积最小值: [1 1 1 1 1 1 1 1 1 1 1]
10. 计算累积平均值
输出结果:
累积平均值: [1. 1.5 2. 2.5 3. 4.16666667
4.14285714 4.25 4.88888889 4.8 4.81818182]
11. 计算累积方差
输出结果:
累积方差: [0. 0.25 0.66666667 1.25 2. 4.44444444
4.44444444 4.44444444 5.2345679 5.2345679 5.2345679 ]
12. 计算累积标准差
输出结果:
累积标准差: [0. 0.5 0.81649658 1.11803399 1.41421356 2.10818511
2.10818511 2.10818511 2.2883519 2.2883519 2.2883519 ]
13. 计算移动平均
输出结果:
移动平均: [2.0, 3.0, 4.0, 6.333333333333333, 6.333333333333333, 6.333333333333333, 6.333333333333333, 6.333333333333333, 6.333333333333333]
14. 计算指数加权移动平均(EWMA)
输出结果:
指数加权移动平均: [1.0, 1.5, 2.25, 3.125, 4.0625, 7.03125, 5.515625, 5.2578125, 7.62890625, 5.814453125, 5.4072265625]
15. 计算列表元素的 Z 分数(标准分数)
输出结果:
Z 分数: [-1.559935305422552, -1.169951454068414, -0.779967602714276, -0.389983751360138, 0.0, 2.034071464252568, -0.389983751360138, 0.0, 2.034071464252568, -0.389983751360138, 0.0]
16. 计算列表数据的累积密度函数(CDF)
输出结果:
累积密度函数: [0.09090909090909091, 0.18181818181818182, 0.2727272727272727, 0.36363636363636365, 0.45454545454545453, 0.5454545454545454, 0.6363636363636364, 0.7272727272727273, 0.8181818181818182, 0.9090909090909091, 1.0]
17. 计算概率密度函数(PDF)
输出结果:
概率密度函数: [0.09090909 0.18181818 0.18181818 0.18181818 0.18181818 0.18181818
0. 0. 0. 0. ]
区间边界: [ 1. 2.8 4.6 6.4 8.2 10. 11.8 13.6 15.4 17.2 19. ]
18. 计算列表的排序索引
输出结果:
排序索引: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
19. 计算列表的逆序对数量
输出结果:
逆序对数量: 10
20. 计算列表的中位数绝对偏差(MAD)
输出结果:
中位数绝对偏差: 1.0
21. 计算列表元素的二阶矩(M2)
输出结果:
二阶矩: 6.2727272727272725
22. 计算信息熵
输出结果:
信息熵: 1.5709505944546686
23. 计算列表的自动相关性
输出结果:
自动相关性: 0.5050505050505051
24. 计算 Pearson 相关系数矩阵
输出结果:
Pearson 相关系数矩阵:
0 1
0 1.000000 1.000000
1 1.000000 1.000000
25. 计算 Jackknife 统计量
输出结果:
Jackknife 统计量: [1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0]
26. 计算列表的元素频率
输出结果:
元素频率: {1: 1, 2: 1, 3: 1, 4: 4, 5: 3, 10: 2}
27. 生成数据的频率分布表
输出结果:
频率分布: [1 1 1 1 1 1 0 0 0 0]
区间边界: [ 1. 2.8 4.6 6.4 8.2 10. 11.8 13.6 15.4 17.2 19. ]
28. 计算列表的中位数绝对偏差比率(MAD Ratio)
输出结果:
中位数绝对偏差比率: 0.3992884814006364
29. 检测列表中的线性趋势
输出结果:
斜率: 0.9090909090909091, 截距: 1.0, 相关系数: 0.5050505050505051
30. 计算列表的三角矩(Trimmed Mean)
输出结果:
三角矩: 4.5
总结
本文介绍了使用 Python 对数据进行统计分析的 30 个经典操作,涵盖了从基本的描述性统计到更高级的统计度量。每个操作都附有代码实现和输出结果,以便读者方便地在实际应用中使用这些方法。