一般来说,大家都不太愿意直接看数据,更希望通过图表来进行呈现。今天,我们讨论图表化数据的问题。
第一个关键点
首先,请简单地看这么一个例题。假设一个企业有不同的收入,然后同时可能有不同的利润,那么利润率就是等于利润/收入,于是利润率就有了如表所示的各种数值(第一行代表利润,第二行代表收入)。
现在,有三个变量,收入、利润和利润率,那么应该如何用图形来表示三者的关系的?
最容易想到的就是用三维的图形来表达。X、Y轴分别代表收入与利润,而Z轴则是代表了利润率。
然而,这张图看上去似乎将表中的信息完全展示出来,但是由于三维图在平面上是通过透视的方法进行描绘的,这导致我们并不能很准确地对图形进行理解。我们看不出曲面与坐标轴之间的相互关系,也看不出曲面内部各个点之间的相互关系,设置在图上的任何一点,我们都不能准确地确定其实际的位置,因为透视三维图上的任意一点都表示的是一条线的可能。36大数据(http://www.36dsj.com/)
所以,虽然三维图将表中的信息最大限度地体现和展示出来,但是由于人们眼睛对于平面上的视觉限制,这种三维图的效果反而没什么实际的价值。
如果退而求其次,我们如果采用二维坐标,那么就可以在平面上很容易表示两者的关系,但是却必须舍弃其中一个变量。例如,如果以收入和利润来作为横纵坐标,在利润率为30%、40%、50%的情况下,两者之间的关系如图所示。
现在图伞的表示中并没有充分包含表格中的所有信息,但是相对于图二的三维图,图三的表示方法用户更容易直观理解。36大数据(http://www.36dsj.com/)
结论一:图表的表示应该以让读者能够更容易理解表格数据的内在规律,而不是以能够更多更全面的包含所有数据的信息。必要的省略有时候更能够帮助读者抓住重点,理解本质。
第二个关键点
如前图三所示,我们可以把三个变量的角色进行了分解:收入当做自变量,利润当做因变量,而利润率则是作为约束条件,在不同的约束条件下,随着收入的变化,利润也随之变化。
但是问题在于,为什么这三个变量之间的角色分配必须如此呢?
比如,如图四所示,可以选择利润率作为自变量,利润在不同收入条件下的变化情况,或者是收入作为自变量,利润率在不同利润条件的变化情况。
理论上来说,三个变量就存在6种不同数据角色分配方式。如表所示。
也许大家会觉得这其实是在玩一种数字游戏,因为利润率=利润/收入,所以其实6中不同的数据表达形式无非是数字上的变化。事实上,对于数据分析来说,这6种不同的数据角色分配方式表现出不同的内涵和意义。
比如,在收入为横坐标、利润率为纵坐标,利润为约束条件的时候,这意味着需要保证固定的利润,因此在扩大市场规模以及并因此导致的利润率下降之间寻找到一条可能的界限。
或者是以利润为横坐标,利润率为纵坐标,收入为约束条件的时候,这表示的是收入是一个固定额,然后需要考虑如何通过扩大利润来提升利润率的水平。
结论二,虽然图表数据是相同的,但是图表数据的展现和表达的不同也是有意义的。也许从数学上看可能仅仅是数学的变换,但是这其实代表了实际场景和目标的的差异。