学机器学习要选择 Python 的13个原因

开发 后端
Python程序语言与机器学习实践可以称得上是“珠联璧合”。

 Python程序语言与机器学习实践可以称得上是“珠联璧合”。

 

 

[[272544]]

1. Python是解释语言,程序写起来非常方便

写程序方便对做机器学习的人很重要。

因为经常需要对模型进行各种各样的修改,这在编译语言里很可能是牵一发而动全身的事情,Python 里通常可以用很少的时间实现。

举例来说,在 C 等编译语言里写一个矩阵乘法,需要自己分配操作数(矩阵)的内存、分配结果的内存、手动对 BLAS 接口调用 GEMM 、最后如果没用 smart pointer 还得手动回收内存空间。Python 几乎就是 import numpy;numpy.dot 两句话的事。

当然现在很多面向C/C++库已经支持托管的内存管理了,这也让开发过程容易了很多,但解释语言仍然有天生的优势--不需要编译时间。这对机器学习这种需要大量 prototyping 和迭代的研究方向是非常有益工作效率的。

2. Python的开发生态成熟,有很多有用的库可以用

除了上面说到的NumPy,还有SciPy、NLTK、OS(自带)等等不一而足。Python 灵活的语法还使得包括文本操作、list / dict comprehension 等非常实用的功能非常容易高效实现(编写和运行效率都高),配合 Lambda 等使用更是方便。这也是 Python 良性生态背后的一大原因。相比而言,Lua虽然也是解释语言,甚至有 LuaJIT 这种神器加持,但其本身很难做到 Python 这样,一是因为有 Python 这个前辈占领着市场份额,另一个也因为它本身种种反常识的设计(比如全局变量)。不过借着 Lua-Python bridge 和 Torch 的东风,Lua 似乎也在寄生兴起。

3. Python的效率很高

解释语言的发展已经大大超过许多人的想象。很多比如 list comprehension 的语法糖都是贴近内核实现的。除了JIT[1]之外,还有 Cython 可以大幅增加运行效率。最后,得益于 Python 对 C 的接口,很多像 gnumpy ,theano 这样高效、Python 接口友好的库可以加速程序的运行,在强大团队的支撑下,这些库的效率可能比一个不熟练的程序员用 C 写一个月调优的效率还要高。

4. 数据存储方便

有 SQL,Hadoop,MongoDB,Redis,Spark 等。

5. 数据获取方便

有 Scrapy,Beautiful Soup,Requests,paramiko 等。

6. 数据运算方便

有 Pandas,Numpy,scipy 等。

7. 输出结果方便

有 Matplotlib,VisPy 等。

8. 和其他语言交互方便

有 ctypes,rpy2,Cython,SWIG,PyQt,Boost.Python 。

9. 加速方便

有 PyPy,Cython,PyCUDA 等。

10. 图形图像方便

有 PyOpenGL,PyOpenCV,Mayavi2 。

11. 信号处理方便

PyWavelets,scipy.signal。

12. 云系统支持方便

GitHub,SourceForge,EC2,BAT,HPC。

13. python开源

Python支持的平台多,包括 Windows / Linux / UNIX / macOS。而 MATLAB 太贵,只能调用其 API,用 Python 省钱,省钱就是赚钱。

Python 和 C++ 做个比较。

C++ 的 CPU 效率是远远高于 Python 的不过 python 是一门胶水语言,它可以和任何语言结合,基于这个优点,很多数据处理的 Python 库底层都是 C++ 实现的,意思就是说:你用 Python 写 code,但效率是C++的。只有那些 for 循环,还是用Python的效率高。

近年来机器学习最要是深度学习,而深度学习使用 CUDA GPU 加速远比 CPU 要快,而cuda 是C++写的。所以现在TensorLayer、theano 等深度学习库都是 Python 编程、底层C++。

责任编辑:华轩 来源: QIKU
相关推荐

2016-12-16 14:57:19

2021-04-09 10:02:29

机器学习人工智能计算机

2018-07-11 05:24:05

机器学习人工智能数据

2021-04-25 10:26:34

Python机器学习人工智能

2020-10-12 12:58:09

机器学习

2021-04-29 15:29:52

机器学习人工智能AI

2018-08-14 11:02:55

机器学习项目失败

2020-06-12 07:00:00

AI 人工智能机器学习

2021-04-22 08:00:00

人工智能机器学习数据

2022-03-17 17:08:05

机器学习算法类型

2022-11-04 08:11:25

人工智能机器学习软件

2021-09-09 15:16:16

人工智能机器学习AI

2020-11-10 08:37:05

Python线性回归机器学习

2020-06-02 11:19:39

存储人工智能机器学习

2017-07-26 17:25:22

机器学习SparkAPI

2017-04-11 14:45:22

机器学习学习平台大数据平台

2020-05-26 18:35:00

机器学习人工智能AI

2021-04-01 22:19:54

机器学习模型数据

2024-05-23 16:48:42

机器学习算法人工智能

2017-09-28 10:02:19

数据库ArangoDB多模型
点赞
收藏

51CTO技术栈公众号