哪种编程语言最好?这个问题可能永远不会有答案。萝卜白菜,各有所爱,AI 工程师和科学家可以根据项目需要,从众多编程语言中选择最适合自己的。
有人曾经将编程比作做菜,那编程语言就是首先要准备的食材或厨具。
C:一把菜刀一口炒锅,一个很好用的灶,隔壁有个菜市场。
Java:碎菜器,切菜机,绞肉机,和面机,烤箱,微波炉……
Python:大超市的速冻柜台,要成品有成品,要半成品有半成品,什么都有。它能让你快速获得一桌还能吃的饭,但是深究口味火候什么的不那么容易。
C++:一套顶级厨具,光刀就十几把,切肉的切片的雕花的;锅有爆炒的闷烧的平底煎肉的煎蛋的炖汤的……有人试图用二十一天掌握这套工具的用法,结果往往是玩刀伤了自己,或者是炸了厨房。
尽管在刚开始开发 AI 时,有很多编程语言都可以满足你的需求,但没有一种编程语言是可以一站式解决 AI 编程的问题,因为在每一个项目中,不同的目标需要特定的方法。
和做菜时的精挑细选一样,在成为一个「高手」的过程中,我们要学会的是找到最适合自己的编程语言。
Python
Python 是可读的最强大的语言。—Pau Dubois
Python 编程。图源:Unsplash。
Python 开发于 1991 年,一项民意调查表明,在开发 AI 时,超过 57% 的开发者将 Python 作为首选编程语言,而不是 C++。因为易于学习,Python 让程序员和数据科学家可以更轻松地进入开发 AI 的世界。
Python 是一个程序员需要多少自由度的「实验」。太自由,没人可以读懂别人的代码;太不自由,就会没那么强的表现力。—Guido van Rossum
使用 Python,你不仅可以获得优秀的社区支持和广泛的库集,还能享受到其灵活性。你从 Python 中得到的最大的好处可能是平台独立性和针对深度学习和机器学习的广泛框架。
用 Python 编码的乐趣在于可以看到短小精悍、可读性高的类,这些类可以用少量清晰的代码表达大量行为(而不是用大量代码烦死读者)。——Guido van Rossum
Python 代码片段示例:
常用的库
- TensorFlow——用于机器学习工作负载和用数据集处理;
- scikit-learn——训练机器学习模型;
- PyTorch——计算机视觉和自然语言处理;
- Keras——高度复杂性的数学计算和操作的代码接口;
- SparkMLib——类似 Apache Spark 的机器学习库,通过算法和实用程序等工具,让每一个人都能轻松地进行机器学习;
- MXNet——Apache 的另一个库,可以简化深度学习流程;
- Theano——定义、优化和评价数学表达式的库;
- Pybrain——用于强大的机器学习算法。
另外,根据 GitHub 库的贡献度,Python 已经超越了 Java,成为世界第二受欢迎的语言。Stack Overflow 将 Python 称为「成长最快」的主流编程语言。
Java
编写一次,随时运行。
Java 被公认为世界上最好的编程语言之一,它在过去 20 年间的使用情况就是最好的证明。
凭借其用户友好度、灵活的特性以及平台独立性,Java 以各种方式参与到了 AI 的开发中,比如:
- TensorFlow——TensorFlow 支持的编程语言中也列出了带有 API 的 Java。虽然不像其他完全支持的语言那样功能丰富,但确实支持 Java,并且在迅速地改进。
- Deep Java Library(深度 Java 库)——亚马逊开发的、用 Java 来创建并部署深度学习能力的库。
- Kubeflow——Kubeflow 使在 Kubernetes 上部署和管理机器学习堆栈更容易,还提供了现成的 ML 解决方案。
- OpenNLP——Apache 的 OpenNLP 是用于自然语言处理的机器学习工具。
- Java Machine Learning Library(Java 机器学习库)——Java-ML 为开发者提供了多种机器学习算法。
- Neuroph——Neuroph 借助 Neuroph GUI,利用 Java 开源框架设计了神经网络。
- 如果 Java 可以垃圾回收,大多数程序都会在执行时删除自己。——Robert Sewell
Java 代码片段示例:
R语言
Ross Ihaka 和 Robert Gentleman 在 1995 年发布了第一版 R 语言。现在由 R 开发核心队伍维护,R 是 S 编程语言的实现,用于统计软件的开发和数据的分析。
R 的基础特征是善于处理大量数据,相比 Python 中不够完善的 NumPy 包,R 是更好的选择;你可以用 R 处理各种不同的编程范式,比如函数式编程、矢量计算和面向对象编程等。
R 适用的 AI 编程包:
- Gmodels——提供了一系列拟合模型用的工具;
- Tm——文本挖掘应用的框架;
- RODBC——R 的 ODBC 接口;
- OneR——用来实现单规则机器学习分类算法,适用于机器学习模型。
在数据挖掘者和统计学家中,广泛使用的 R 的功能有:
- 多种用于扩展功能的库和包;
- 活跃的支持社区;
- 能和 C、C++ 和 Fortran 协同工作;
- 多个有助于扩展功能的包;
- 支持生成高质量的图形。
Prolog
逻辑编程(Logic Programming)的简称。Prolog 最早出现在 1972 年,适用于开发人工智能,尤其是自然语言处理。Prolog 最适合创建聊天机器人,ELIZA 是有史以来第一个用 Prolog 创建的聊天机器人。
第一个成功的聊天机器人。
为了理解 Prolog,你必须熟悉一些指导 Prolog 工作的基本术语:
- 事实(Fact)定义了正确的陈述;
- 规则(Rule)定义了有附加条件的陈述;
- 目标(Goal)根据知识库定义了提交陈述的位置;
- 查询(Query)定义了如何使你的陈述正确,以及对事实和规则的最终分析。
Prolog 提供了两种实现 AI 的方法,这两种方法已经实现很久了,并且在数据科学家和研究人员中广为人知:
- 符号方法包括基于规则的专家系统、定理证明和基于约束的方法;
- 统计方法包括神经网络、数据挖掘、机器学习以及其他方法。
Lisp
用 Lisp 编码创建有 n 个输入 m 个单元的一层感知机。
列表处理(List Processing)的简称。这是继 Fortran 后第二古老的编程语言。也被称作 AI 的奠基语言之一,由 John McCarthy 与 1958 年创建。
Lisp 是用来实现不可能的语言。——Kent Pitman
Lisp 是可以编程的实用数学符号,很快就成为了开发人员首选的 AI 编程语言。Lisp 因为其特有的功能,成为机器学习 AI 项目的最佳选择之一:
- 快速创建原型;
- 创建动态对象;
- 垃圾回收;
- 灵活性。
随着其他竞争的编程语言的重大改进,其他语言集成了 Lisp 特有的一些功能。涉及到 Lisp 的著名项目有 Reddit 和 HackerNews。
说到 Lisp,这是世界上最美的语言——至少在 Haskell 出现之前是这样。——Larry Wall
Haskell
Haskell 创建于 1990 年,以著名数学家 Haskell Brooks Curry 的名字命名。Haskell 是纯粹的函数式和静态类型的编程语言,与惰性计算和短代码配合使用。
Haskell 是一种非常安全的编程语言,因为和其他编程语言相比,Haskell 很少出现错误,所以在处理错误方面提供了更大的灵活性。即便发生了错误,也可以在编译(而非运行)时捕获大多数非语法错误。Haskell 提供的功能包括:
- 强大的抽象能力;
- 内置的内存管理;
- 代码的可重用性;
- 易于理解。
SQL、Lisp 和 Haskell 是我所见过的唯一可以把时间花在思考而不是打字上的编程语言。——Philip Greenspun
Haskell 的功能有助于提高程序员的生产率。Haskell 与其他编程语言非常相似,但只有一小部分开发人员使用。撇开挑战不谈,随着开发者社区使用率的增加,可以证明 Haskell 和其他用于 AI 的竞争语言一样出色。
Julia
Julia 是一种高性能的通用动态编程语言,可以创建几乎任何应用,但最适合进行数值分析和计算科学。和 Julia 一起使用的工具还包括:
- 像 Vim 和 Emacs 这样流行的编辑器;
- 像 Juno 和 Visual Studio 这样的 IDE。
Julia 源代码组织。
Julia 中有一些功能使其成为 AI 编程、机器学习、统计和数据建模的重要选择,这些功能有:
- 动态类型系统;
- 内置的包管理器;
- 能够进行并行和分布式计算;
- 宏和元编程能力;
- 支持多分派;
- 直接支持 C 函数。
Julia 是为了消除其他编程语言的弱点而构建的,和其他工具(如 TensorFlow.jl、MLBase.jl 和 MXNet.jl)集成后还可以用于机器学习,利用 Julia 的可伸缩性还可以做更多事。
谷歌趋势——Julia 的使用趋势。
总结
AI 工程师和科学家可以根据项目的需求,从多种编程语言中进行选择。每一种 AI 编程语言都有优缺点。随着这些语言的不断改进,AI 开发很快就可以有更舒适的体验,这样就会有更多人加入这一创新浪潮。出色的社区支持使新人们可以更好地工作,社区对包和扩展的贡献让每个人的工作都变得更加轻松。