Pandas万花筒:让绘图变得更美观

大数据 数据可视化
流行 Python 数据分析库 Pandas 中的绘图功能一直是迅速绘制图表的首选之一。但是,其可用的可视化效果总是十分粗略,实用有余、美观不足。

本文转载自公众号“读芯术”(ID:AI_Discovery)。

流行 Python 数据分析库 Pandas 中的绘图功能一直是迅速绘制图表的首选之一。但是,其可用的可视化效果总是十分粗略,实用有余、美观不足。

笔者常用 Pandas 的绘图功能快速地执行一些可视的数据探索,但在介绍数据洞察时,我会使用“更美观”的绘图库(如 Plotly 或 Bokeh )来重做可视化。

自最新的 Pandas 版本0.25.3发布后,无需这样做了,现在我们可以使用第三方可视化库作为 Pandas 绘图功能的后端。Plotly是一款基于 web 实现交互式可视化的流行Python库,其最近发布了 Pandas绘图后端。

来看看如何使用 Plotly 和 Bokeh 后端创建更丰富的可视化效果。

[[334122]]

使用不同的后端

想要激活绘图功能的不同后端需在导入 pandas 后,添加此行代码:

  1. pd.options.plotting.backend = 'plotly' 

当前可用的后端有:

  • Plotly
  • Holoviews
  • Matplotlib
  • Pandas _bokeh
  • Hyplot

Plotly后端

Plotly是一个 Python库,其支持丰富的交互式可视化效果。Plotly包的好处之一在于它是在库的 Javascript 版本之上构建的,这意味着图表会基于Web,可以显示为 HTML 文件或嵌入到基于Python的Web应用程序中。用户还可以将可视化内容下载为高质量的图像文件,以便在文档或论文中使用。

下面来浏览一些Plotly作为Pandas绘图后端的快速示例。

如果还没有安装Plotly ,则需要使用pip intsall plotly来安装。如果是在Jupyterlab中使用 Plotly ,则需要额外执行几个安装步骤来显示可视化效果。首先,安装IPywaidgets:

  1. pipenv install jupyterlab " ipywidgets>=7.5" 
  2. pip install jupyterlab "ipywidgets>=7.5" 

然后运行以下命令以安装Plotly扩展:

  1. jupyter labextension install jupyterlab-plotly@4.8.1 

为了说明绘图后端的用法,使用openml.org名为“wine(葡萄酒)”的数据集。

  1. import pandas as pd 
  2.       import numpy as np 
  3.              from sklearn.datasets import fetch_openml 
  4.              pd.options.plotting.backend ='plotly' 
  5.              X,y =fetch_openml("wine", version=1as_frame=Truereturn_X_y=True
  6.       data = pd.concat([X,y], axis=1
  7.       data.head() 

该数据集由各类葡萄酒的多个特征和相应的标签组成。下图显示了数据集的前几行。

绘图功能的工作方式与标准Pandas绘图功能的工作方式大致相同,只是现在可视化效果同Plotly一样丰富。下面的代码绘制了数据集中两个特征之间的关系。

  1. fig = data[['Alcohol', 'Proline']].plot.scatter(y='Alcohol'x='Proline'
  2. fig.show() 

 

可以通过组合 Pandas 的groupby函数创建一个柱状图来总结类之间的平均色调差异:

  1. data[['Hue','class']].groupby(['class']).mean().plot.bar() 

将类添加到之前创建的散点图中。使用Plotly,可以轻松地给每个类使用不同的颜色,以便直观地区分:

  1. fig = data[['Alcohol', 'Proline']].plot.scatter(y='Alcohol'x='Proline'
  2.                                       fig.show() 

Bokeh 后端

Bokeh 也可以提供丰富交互式可视化效果。其可视化图表可以在 Web 浏览器中查看,嵌入到 Web应用程序中或用于创建交互式仪表板。Bokeh 甚至有一个流式 API,可以为流数据(如金融市场数据)创建实时可视化图表。

库可以通过pip来安装:

  1. pip install pandas-bokeh 

要在 Jupyterlab中显示 Bokeh的可视化效果,需要安装两个新的扩展:

  1. jupyter labextension install @jupyter-widgets/jupyterlab-managerjupyterlabextension install @bokeh/jupyter_bokeh 

使用 Bokeh 后端重新创建之前的散点图:

  1. pd.options.plotting.backend ='pandas_bokeh' 
  2.              import pandas_bokeh 
  3.                             from bokeh.io import output_notebook 
  4.                             from bokeh.plotting import figure, show 
  5.              output_notebook() 
  6.                             p1data.plot_bokeh.scatter(x='Hue'
  7.                                                           y='Proline'
  8.                                                           category='class'
  9.                                                           title='Proline and Hue by wine class'
  10.                                                           show_figure=False
  11.                             show(p1) 

可视化效果如下:

Bokeh 有一个plot_grid函数,可为多个图表创建仪表板式布局。下面的代码在网格布局中创建四个图表:

  1. output_notebook() 
  2.              p1 = data.plot_bokeh.scatter(x='Hue'
  3.                                                y='Proline'
  4.                                                category='class'
  5.                                                title='Proline and Hue by wine class'
  6.                                                show_figure=False
  7.     
  8.                                    p2 = data[['Hue','class']].groupby(['class']).mean().plot.bar(title='Mean Hue per Class'
  9.              df_hue = pd.DataFrame({ 
  10.                      'class_1': data[data['class'] =='1']['Hue'], 
  11.                      'class_2': data[data['class'] =='2']['Hue'], 
  12.                      'class_3': data[data['class'] =='3']['Hue']}, 
  13.                      columns=['class_1', 'class_2', 'class_3']) 
  14.              p3 = df_hue.plot_bokeh.hist(title='Distribution perClass: Hue'
  15.              df_proline = pd.DataFrame({ 
  16.                      'class_1': data[data['class'] =='1']['Proline'], 
  17.                      'class_2': data[data['class'] =='2']['Proline'], 
  18.                      'class_3': data[data['class'] =='3']['Proline']}, 
  19.                      columns=['class_1', 'class_2', 'class_3']) 
  20.              p4 =df_proline.plot_bokeh.hist(title='Distribution per Class: Proline'
  21.              pandas_bokeh.plot_grid([[p1, p2], 
  22.                                          [p3, p4]], plot_width=450

为内置的Pandas绘图功能添加多个第三方后端,这大大增强了该库用于数据可视化的能力。从此之后,pandas就可以集美貌与实用于一身啦。

 

责任编辑:赵宁宁 来源: 读芯术
相关推荐

2016-11-07 12:11:26

大数据工具大数据技术

2019-06-11 09:35:34

可视化工具图形

2023-07-03 10:22:44

大模型向量海人工智能

2023-03-01 13:53:00

物联网技术智能城市

2022-12-27 10:35:20

TensorFlow

2018-11-30 14:36:27

科天云协作3.0

2015-03-11 11:26:28

大数据更美好两会代表

2010-05-18 14:19:13

安全通信

2020-03-27 12:19:47

Windows 10微软系统

2021-05-27 09:36:21

数据机器学习人工智能

2013-12-30 13:01:15

锐捷网络智慧

2019-03-18 08:06:25

物联网IOT物联网技术

2023-08-24 11:09:04

2018-01-23 10:23:12

互联网

2021-07-23 20:00:40

微软Windows 11Windows

2011-05-26 10:13:03

编程字体

2010-09-01 20:30:14

虚拟园区网网络架构H3C

2015-10-28 14:03:32

数据迁移数据

2020-02-17 16:16:01

全时

2021-09-08 12:42:32

微软Windows 11Windows
点赞
收藏

51CTO技术栈公众号