2017年顶级数据科学与机器学习方法排行榜

译文
人工智能 深度学习
根据统计,目前受访者选择的最常用方法包括回归、聚类、可视化、决策树/规则以及随机森林; 只有20%的受访者使用深度学习方法; 我们同时对各种方法在“行业”与“学术”层面的普及度进行了汇总。

【51CTO.com快译】根据统计,目前受访者选择的最常用方法包括回归、聚类、可视化、决策树/规则以及随机森林; 只有20%的受访者使用深度学习方法; 我们同时对各种方法在“行业”与“学术”层面的普及度进行了汇总。

本次调查的问题非常简单:

您在过去十二个月中曾在实际应用当中选择哪些数据科学/机器学习方法与工具?

根据732名受访者提供的结果,得出以下论断:

2017年应用范围最广的十大数据科学与机器学习方法

本次调查的受访者平均使用7.7种工具/方法。

接下来,我们比较了今年调查当中使用范围最广的前16种方法,并将其与去年的结果进行了比对,如下图。

2017年与2016年前16大数据科学/机器学习方法比对

我们注意到,随机森林、可视化与深度学习的使用比例显著增加,而K-nn、PCA以及Boosting则有所下降。梯度推进机今年则***上榜。

尽管取得了令人瞩目的成功,但根据此次调查,仅有20%的受访者实际使用深度学习方法。

与去年相比,今年增长幅度***的工具/方法包括:

  • 贝叶斯方法,增长49%,由2016年的11.7%增长至2017年的17.5%。
  • 随机森林,增长32%,由2016年的35.1%增长至2017年的46.2%。
  • 深度学习,增长20%,由2016年的17.2%增长至2017年的20.6%。
  • 生存分析,增长13.5%,由2016年的7.5%增长至2017年的8.5%。
  • 可视化,增长9%,由2016年的46.7%增长至2017年的51.0%。

2017年的榜单还迎来一众全新方法,具体包括:

  • 梯度推进机, 20.4%
  • 卷积网络, 15.8%
  • 递归神经网络(简称RNN), 10.5%
  • 隐马尔可夫模型 (简称HMM), 4.6%
  • 强化学习, 4.2%
  • 马尔可夫逻辑网络, 2.5%
  • 生成对抗网络 (简称GAN), 2.3%

使用比例下降最显著的包括:

  • 奇怪值分解(简称SVD),下降48%,由2016年的15.4%下降至2017年的8.1%
  • 图形/链结/社交网络分析,下降42%,由2016年的14.0%下降至2017年的8.1%
  • 遗传算法/进化方法,下降42%,由2016年的8.3%下降至2017年的4.8%
  • EM,下降36%,由2016年的6.4%下降至2017年的4.1%
  • 优化,下降26%,由2016年的23.2%下降至2017年的17.2%
  • Boosting,下降20%,由2016年的30.6%下降至2017年的24.6%
  • PCA,下降14%,由2016年的40.5%下降至2017年的34.7%

行业归属

各行业的方法/工具使用情况为:

  • 行业/个人,63%,平均工具使用量为8.3款
  • 学生,15%,平均工具使用量为5.7款
  • 研究人员/学术人员,11%,平均工具使用量为7.8款
  • 其它,11%,平均工具使用量为7.1款

备注:只有35名受访者选择了政府/非营利性组织——由于样本规模太小,因此这里我将其纳入“其它”类别当中。

下面为16种排名靠前的方法及其偏差倾向结果

具体计算方法为:偏差(方法,归属)=比例(方法,归属)/比例(方法)-1

如果偏差值为正,则意味着该方法的使用频率高于平均水平。如果为负值,则代表该方法的使用频率低于平均水平。

举例来说,支持向量机(简称SVM)拥有28.7%的受访者使用比例,但在研究人员群体内则拥有44.4%的使用比例,因此偏差(SVM,研究人员)=44.4%/28.7% - 1 = 54.9%.

前16大数据科学方法及其归属关系倾向性

接下来,我们将考察各项数据科学方法在行业/学术界之间的吸引力。

以下图表所示为各项数据科学方法在各行业与学术界(学术界定义为学生+研究人员群体)中的吸引力排名:行业吸引力(方法)=比例(方法,行业)/比例(方法,学术界)-1

其中“行业”使用频率***的方法为:

增量建模(连续第二年登顶)

  • 异常/偏差检测
  • 梯度推进机
  • “学术界”最青睐与深度学习相关的先进议题:
  • 生成对抗网络 (简称GAN)
  • 强化学习
  • 递归神经网络(简称RNN)
  • 卷积网络

数据科学方法及其行业/学术界吸引力

条状图形的宽度对应其使用比例,颜色则对应行业/学术界吸引力。

***,全球各区域的参与度为:

  • 欧洲, 39%
  • 美国/加拿大, 33%
  • 亚洲, 14%
  • 南美洲, 6.0%
  • 澳大利亚/新西兰, 4.8%
  • 非洲/中东, 3.8%

下表所示为所有方法的具体数据,按总体使用比例排序。

表中各列分别为:

方法:数据科学方法

  • 2017年与2016年变化百分比:与2016年相比的使用比例变化情况
  • 总体使用情况百分比:受访者使用该方法的百分比
  • 行业使用情况百分比:行业类受访者使用该方法的百分比
  • 学生使用情况百分比:学生受访者使用该方法的百分比
  • 研究人员使用情况百分比:研究人员受访者使用该方法的百分比

表一:数据科学方法使用情况

更多AI内容,请关注公众号:AI推手

【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】

责任编辑:王雪燕 来源: 51CTO
相关推荐

2017-09-08 10:58:49

JavaCC++

2023-02-16 12:14:19

2022-06-17 12:10:07

RPA机器人流程自动化

2018-09-25 05:33:23

深度学习机器学习Python

2018-11-02 15:24:51

SSD金士顿闪存

2016-12-06 18:07:49

编程语言排行榜

2017-10-09 13:17:48

编程语言排行榜Swift16位

2017-03-09 19:30:15

编程语言排行榜Swift

2017-05-08 13:26:08

编程语言排行榜Hack五十

2017-06-28 15:40:44

2021-09-23 10:50:42

编程语言Python排行

2020-02-19 20:20:43

APP排行榜用户

2019-07-23 14:14:59

编程语言JavaPython

2020-02-14 09:19:12

编程语言JavaPython

2021-07-07 05:42:24

编程语言开发

2017-04-10 09:04:14

编程语言排行榜Hack五十

2022-01-18 18:59:34

数据中心技术趋势数字化转型

2017-11-13 10:46:24

编程语言排行榜脚本语言

2017-02-10 08:55:42

2012-03-22 14:18:11

大数据
点赞
收藏

51CTO技术栈公众号