用艺术的眼光探索数据之美

大数据 数据分析
在深入分析的情况下,我们应该用数据图形表示技术的思想。我们经常使用bar charts, histograms, pie charts, boxplots, heatmaps, scatter plots, line plots等等这些典型的图,这些图对于数据可视化是必不可少的。

独特的数据可视化技术,用于深入了解数据。当我们观想它时,它的美就显现出来了。可视化是一种更方便的方式,可以一目了然地了解大量数据。在深入分析的情况下,我们应该用数据图形表示技术的思想。我们经常使用bar charts, histograms, pie charts, boxplots, heatmaps, scatter plots, line plots等等这些典型的图,这些图对于数据可视化是必不可少的。除了这些被广泛使用的情况外,还有许多精湛的情节却很少被使用。当我们考虑分析数据并以艺术方式表示时,这些图有助于发现洞察。

1 平行坐标图

实际上,我们最多可以可视化 3 维数据。但有时,我们需要可视化超过 3 维的数据才能获得洞察力。我们经常使用 PCA 或 t-SNE 来降维并绘制它。在降维的情况下,可能会丢失大量信息。在某些情况下,我们需要考虑所有需要,平行坐标图有助于做到这一点。

图片

看上面的图片。水平线(平行轴)代表鸢尾花的特征(Petal length, Sepal length, Sepal width, Petal width) 。类别是Setosa, Versicolor and Virginica。上图将物种编码为Setosa →1、Versicolor →2 和 Virginica →3。每个平行轴包含最小值到最大值(例如,花瓣长度从 1 到 6.9,萼片长度从 4.3 到 7.9,等等)。例如花瓣长度轴,表明该品种的花瓣长度Setosa 与其他两个品种相比较小,且Virginica 最高。所以,通过这张图,我们可以很容易地得到数据集的整体信息。

2 六角装箱图

六角装箱是用六边形二维数值的密度直观地表示数据点的过程。

利用上面的数据集来绘制的六边形分箱图。如果仔细观察,我们会发现总面积被分成了无数个六边形。每个六边形覆盖特定区域。我们注意到六边形有颜色变化。六边形有的没有颜色,有的是淡绿色,有的颜色很深。根据图右侧显示的色标,颜色密度随密度变化。比例表示具有颜色变化的数据点的数量。六边形没有填充颜色,这意味着该区域没有数据点。

3 等值线图

二维等高线密度图是另一种可视化特定区域中数据点密度的方法。这样做是为了找到两个数值变量的密度。例如,下图显示了每个阴影区域中有多少数据点落入。

4 QQ-plot图

QQ 代表 Quantile — Quantile plot (Quantile/percentile 是一个范围,在这个范围内,指定百分比的数据已经下降。例如,第 10 个 quantile/percentile 表示在该范围下,找到了 10% 的数据,找到了 90%超出范围)。这是一种直观地检查数值变量是否服从正态分布的方法。

(a) 样本分布 (b) 标准正态分布

图(a)是样本分布;另一方面,(b)是标准正态分布。对于样本分布,数据范围为10 到 100 (100% 数据在 10 到 100 之间)。但对于标准正态分布,100% 的数据在范围内-3 到 3 (z-score)。在 QQ 图中,两个 x 轴值均分为 100 个相等的部分(称为分位数)。如果我们针对 x 和 y 轴绘制这两个值,我们将得到一个散点图。

图片

散点图位于对角线上。这意味着样本分布是正态分布的。但是,如果散点图位于左侧或右侧而不是对角线,则表明样本不是正态分布的。

5 小提琴图

小提琴图与箱线图相关。我们从小提琴图中获得的另一个信息是密度分布。简单来说就是一个结合了密度分布的箱线图。因此,让我们将其与箱线图进行比较。

在小提琴图中,小提琴中间的白点表示中点。实心框表示四分位数间距 (IQR)。上下相邻值是异常值的围栏。超出范围,一切都是异常值。下图显示了比较。

图片

我们还可以通过传递列名来绘制不同物种的小提琴图。

图片

6 旭日图

它是圆环图或饼图的定制化版本,将一些额外的层次信息集成到图中。

图片

整个图表被分成一些环(从内侧到外侧)。它包含层次信息,其中内环位于层次结构的顶部,外环位于较低的顺序。

图片

如果我们仔细观察数据集,第一列包含一年的季度;每个季度下面有几个月,每个月有几个星期。上面的旭日图描述了这种情况。

小结

数据可视化是数据科学不可或缺的一部分。在数据科学中,我们探索数据。少量数据手动分析还好,但是当我们处理成千上万的数据时,它就变得非常繁重,有时甚至是不可能的。如果我们无法找出数据集的趋势和见解,我们可能无法使用该数据。希望上面的图可以帮助您从美学上可视化数据并深入了解数据。

责任编辑:华轩 来源: 数据驱动智能
相关推荐

2022-05-24 09:50:27

元宇宙艺术人工智能

2024-02-26 18:23:29

C++封装代码

2023-11-06 10:04:51

Go语言大数据

2012-02-15 09:48:27

SEO

2017-06-29 11:26:08

Python数据可视化

2018-03-14 14:28:20

Python数据分析可视化

2017-11-21 12:22:11

数据可视化密集恐惧证笑哭

2015-12-18 17:26:38

华硕

2014-12-09 14:52:42

编程

2023-10-20 08:18:17

Python数据类型

2015-11-25 17:22:03

CIO时代网

2020-12-21 10:03:32

大数据美团技术

2022-08-12 12:23:28

神经网络优化

2023-07-12 08:29:58

TypeScrip元组元素

2018-06-01 10:08:00

DBA美团SQL

2015-08-28 10:09:35

数据之美

2010-07-06 09:39:37

2018-12-14 11:04:56

数据库运维智能

2022-04-29 09:10:00

算法人工智能技术
点赞
收藏

51CTO技术栈公众号