Mandelbrot集是一个涉及位运算、递归和虚数的有趣的数学现象。由于它是一个复杂且计算多样化的函数,对于如何提高代码运行效率,是一个非常好的研究案例。
通过对函数mandelbrot_set函数进行运行计时,我们发现这个函数平均需要8秒钟才能运行完成。
- import numpy as np
- def mandelbrot_set(width, height, zoom=1, x_off=0, y_off=0, niter=256):
- w,h = width, height
- pixels = np.arange(w*h, dtype=np.uint16).reshape(h, w)
- for x in range(w):
- for y in range(h):
- zx = 1.5*(x + x_off - 3*w/4)/(0.5*zoom*w)
- zy = 1.0*(y + y_off - h/2)/(0.5*zoom*h)
- z = complex(zx, zy)
- c = complex(0, 0)
- for i in range(niter):
- if abs(c) > 4: break
- c = c**2 + z
- color = (i << 21) + (i << 10) + i * 8
- pixels[y,x] = color
在代码中加载Cython,效率提升25%
在这里,我们做一个简单的更改:我们在一个单独的单元中加载Cython,这是一个专用于在 C 和 Python 之间架起桥梁的转换模块。然后,在该单元格的顶部,键入 %% cython -a,触发 Jupyter Notebook 的换行符,通过 Cython 运行代码,Cython 会在后台自动将Python代码转换为C。我们的函数 mandelbrot_set 可以在 Python 中调用,但将使用C结构运行。
再次运行我们更新的代码,我们看到减少了近两秒。几乎什么都不做就能提高25%的运行效率!
在函数中声明变量类型,运行效率提升17倍
不过,我们还有更好的办法。当 Cython 尝试将 Python 进程转换为 C 结构时,它的运行速度就会受到限制。我们可以协助 Cython 加快运行的事情之一就是声明在函数中使用的所有变量的变量类型,这样可以更好地优化我们的代码。
注意每个参数的数据类型是如何指定的(在这种情况下,所有数据类型都为 int )。如果一个变量是独立创建的,则可以使用 cdef 关键字,然后使用数据类型和采用该类型的变量。从直接声明的变量到范围(n)中的 i in 的所有内容,都可以为 Cython 提供尽可能多的帮助。
重新运行使用了指定数据类型来进行更新后的函数,我们发现运行时间减少了很多,比原来的时间快 了17倍!
在 10 秒钟内,仅修改了一个数据类型,我们的代码效率就提高了 17 倍。虽然减少的时间只有几秒,但这种方法如果应用于更长的代码脚本中,节省的计算量那将是几个小时。
工作原理
Cython是一个可以将 Python 编写成更快、更高效的C语言的模块。虽然Python的自由性和开放性促使了广泛采用和开发,特别是在数据科学和其他重计算领域,但这种自由是以效率低下为代价的。在C语言中,编码者有义务提供有关代码执行的更多信息,这是一项可以加快处理速度的繁重工作。通过把我们的Python代码写成高效的 C 结构和方法,你可以让它变得更高效,而且你甚至不需要知道C是什么!
cdef 关键字将变量声明为静态类型的 C 变量。使用这些C变量可以更快地执行代码,因为变量本身具有指定的类型,而不是 Python 中具有类型的值。例如,在 Python 中,可以在一行中将相同的变量设置为整数,而在另一行中将其设置为字符串。例如,a =“ hello world”&a =1。但是,在 C 语言中,仅设置静态类型的变量具有一种数据类型。
这种刚性意味着可以避免 Python 动态类型所需的巨大内存空间开销。因为一个变量可以具有许多可能的值,所以需要分配更多的内存。另一方面,对静态类型变量范围的严格限制意味着内存空间和执行过程效率更高。如上所述,函数参数也可以声明为静态类型的C变量。
这就是为什么简单地声明变量类型会让程序处理代码的时间大大缩短。尽管还有许多其他方法可以使 Cython 更加高效地使用 Python 代码,但最简单,技术最少,回报最高的方法是写出变量类型。
在你的脚本中有无数的Cython应用程序。
- 下次如果你需要编写逐行函数以应用于具有数千行的数据帧,进行复杂的数据处理时,记得使用 Cython 来缩短遍历所有行的时间。
- 如果你正在手写数据转换管道以应用复杂和/或条件增强,也要记得考虑能否在 Cython 中实现。
- 在为神经网络编写自定义优化器或损失函数(或自我实现现有函数)时,使用 Cython 可以加快训练过程。