优秀数据科学家的基本技能和特征

大数据
如今,数据科学家就是王者。那么,成为数据科学专家需要什么素质呢?据IT主管、行业分析师、数据科学家和其他人士称,以下特征和技能非常重要。

如今,数据科学家就是王者。但是从数据中提取真正的商业价值则需要技术技能、数学知识、叙述能力和直觉的综合能力。

对数据科学家的需求仍然很高,几乎每个行业的公司都希望从其迅速增长的信息资源中获得最大价值。

[[227951]]

“随着企业开始充分利用其内部数据资产并审查整合的数百个第三方数据源,数据科学家的作用将继续扩大,”咨询公司Protiviti董事格雷格·博伊德(Greg Boyd)说。

“过去,负责数据的团队被委托到IT组织的后台工作,执行关键数据库任务,以保持各个企业系统得到数据‘燃料’的支持,从而允许公司高管报告运营情况并提交财务业绩,”博伊德说。

这个角色很重要,但该业务的新星是那些精明的数据科学家,他们不仅能够利用复杂的统计学和可视化技术处理大量数据,而且极具智慧,他们可以从这些数据中获取前瞻性的见解,博伊德说。这些见解有助于预测潜在的结果并减轻对企业的潜在威胁。

那么,成为数据科学专家需要什么素质呢?据IT主管、行业分析师、数据科学家和其他人士称,以下特征和技能非常重要。

批判性思维

数据科学家需要是一名具有批判性的思考者,以便在提出意见或作出判断之前,能够对特定主题或问题进行客观的事实分析。

“他们需要了解业务问题或做出决策,并能够对解决问题的关键环节进行‘建模’或‘抽象’,而不是考虑那些无关紧要的问题,”咨询公司普华永道负责数据和分析的全球人工智能和创新主管安纳德·拉奥(Anand Rao)说。“这项技能比其他技能都重要,决定着其是否是一名成功的数据科学家。”

数据科学家需要有经验,但也要有能力暂时放弃一种观念,Zeta Global公司(该公司提供基于云的营销平台)的首席信息官Jeffry Nimeroff补充说。

“这一特征使你在任何领域工作时都能知道即将发生什么,但也知道经验和直觉是不完美的,”Nimeroff说。“如果我们过于自满,经验虽会带来好处,但并非没有风险。这就是要怀疑某一信念的重要性。”

Nimeroff说,这不是用新手的眼光来看待事物,而是退后一步,从多个角度评估问题或情况。

编写代码

顶尖的数据科学家知道如何编写代码,并且能够轻松处理各种编程工作。

拉奥说:“数据科学所选择的语言正向Python发展,而R语言也有大量的追随者。”另外,还有其他一些正在使用的语言,如Scala、Clojure、Java和Octave。

“要成为非常成功的数据科学家,编程技能需要包含两个方面:计算方面--处理大量数据,处理实时数据,云计算,非结构化数据以及统计特性;和使用统计模型方面,如回归、优化、聚类、决策树、随机森林等,”拉奥说。

安全软件公司迈克菲(McAfee)的首席数据科学家Celeste Fralick说,从20世纪90年代末开始兴起大数据,它的影响要求越来越多的数据科学家要能理解并能使用诸如Python、C ++或Java等语言进行编码。

如果一个数据科学家不懂如何编写代码,那么这就需要懂得编写代码的人来帮助它。“将数据科学家与开发人员结合起来,这将是非常有成果的,”Fralick说。

数学能力

对于不喜欢或不擅长数学的人来说,数据科学可能不是一个好的职业选择。

“在我们与全球各个组织的合作中,我们与希望为其开发复杂财务或运营模式的客户进行接洽,”博伊德说。“为了使这些模型具有统计相关性,就需要涉及大量的数据。数据科学家的角色就是利用他们在数学方面的深厚专业知识,开发出可用于制定或转换关键业务战略的统计模型。”

数据科学家是一位擅长数学和统计学的奇才,同时具备与业务主管密切协作的能力,以便以一种可以让人放心的方式来传递在复杂方程的“黑盒子”中实际发生的情况,从而企业可以相信其结果和建议,博伊德说。

机器学习、深度学习和人工智能

Fralick表示,由于计算能力、连接性和收集的大量数据,各个行业在这些领域正在飞速发展。“数据科学家需要在科研工作中保持领先,并了解何时应用何种技术,”她说。“很多时候,当数据科学家正在解决的实际问题远不那么复杂时,数据科学家会用一些‘吸引人’的新东西。”

数据科学家需要对即将解决的问题有深入的了解,并且数据本身会说明需要什么,Fralick说。“意识到生态系统的计算成本、可解释性、延迟、带宽和其他系统边界条件以及客户的成熟度,这本身就可以帮助数据科学家理解应使用哪种技术。”她说道。只要他们了解这项技术,情况确实如此。

统计技能也很有价值。Fralick说,大多数雇主都没有考虑这些技能,因为现在的自动化工具和开源软件已经很容易获得。“但是,了解统计学是理解这些工具和软件所做假设的关键能力,”她说。

数据存储提供商美光科技公司(Micron Technology)的首席信息官特雷弗·舒尔茨(Trevor Schulze)说,仅仅理解机器学习算法的功能接口是不够的。“为了选择合适的算法,一位成功的数据科学家需要了解方法内的统计数据和适当的数据准备技术,以最大限度地提高任何模型的整体性能,”他说。

舒尔茨说,计算机科学技能也很重要。因为数据科学主要是在键盘上完成的,所以具有很强的软件工程基础是很有帮助的。

沟通能力

沟通技巧的重要性值得反复强调。在今天的技术中几乎没有什么是在真空中进行的,各个系统、应用程序、数据和人员之间总是存在一些整合。数据科学也不例外,能够使用数据与多个利益相关者进行交流是一个关键技能。

“拥有通过数据来‘讲述故事’的能力,可将数学结果转化为可操作的见解或干预,”拉奥说。“作为业务、技术和数据的交集,数据科学家需要善于向每个利益相关者讲述故事。”

这包括向企业高管讲述数据的商业利益;讲述关于技术和计算资源;讲述关于数据质量、隐私和保密性方面的挑战;以及讲述该组织关注的其他领域。

Nimeroff说,作为一名善于沟通的人,需要能够将具有挑战性的技术信息提炼成完整、准确且易于表述的形式。“数据科学家必须记住,他们工作所带来的结果可以并将用于支持企业做出定向型的行动,”他说。“因此,能够确保听者理解并欣赏向他们展示的所有内容,包括问题、数据、成功标准和结果,这是至关重要的。”

舒尔茨说,一位优秀的数据科学家必须具备商业头脑和好奇心,才能充分地与业务利益相关者进行交谈,以了解问题并确定哪些数据可能是相关的。

另外,数据科学家需要能够向业务领导者解释一些算法。舒尔茨说:“讲述算法是如何实现预测功能,这是赢得领导者对作为其业务流程一部分的预测模型的信任的一项关键技能。”

数据架构

数据科学家必须了解从开始到建模到业务决策过程,其中数据到底发生了什么。

“不了解架构会对样本规模的推论和假设产生严重影响,往往会导致错误的结果和决策,”Fralick说。

更糟的是,在架构内部可能会发生变化。Fralick表示,如果不了解架构内变化对模型的影响,那么数据科学家可能会陷入“重新建模的风暴中,或者突然发现模型不准确而不理解其原因”。

虽然Hadoop通过将代码传递给数据而不是相反,来提供大数据,但了解数据流或数据管道的复杂性对保证基于事实的决策制定至关重要,Fralick表示。

风险分析、过程改进和系统工程

一位优秀的数据科学家需要了解分析业务风险,改进流程以及系统工程如何工作的概念。

“我了解的所有优秀数据科学家都具备这些技能”,Fralick说。“这些技能协调合作,不仅从内在集中于数据科学家本身,而且从外在面向客户。”

从内在来说,数据科学家应该记住其头衔的另一部分,即科学家,并应遵循合理的科学理论,Fralick说。

在模型开发开始阶段进行风险分析可以降低风险。“表面上看,这些都是数据科学家在了解客户想要解决什么问题的所有技能,”她说。

Fralick表示,将精力花在研究流程改进,理解公司内在风险以及可能影响数据或模型结果的其他系统,这可以让客户对数据科学家的努力更加满意。

解决问题和良好的商业直觉

Nimeroff说,一般来说,优秀数据科学家所展现的特征与任何其他优秀的问题解决者所具备的特征都是相同的。“他们从多个角度看待世界,他们在拿出工具工作之前,要清楚他们应该做什么,他们工作严谨而周全,并且能够很好地解释他们工作的结果,”Nimeroff说。

当评价如数据科学家等职位的技术专业人员时,Nimeroff会寻找这些特征。“这种方法的成功率极高,并且也确保了潜在的优势得以最大化发挥,因为批判性思维已经变得最为重要。”

找到一位优秀的数据科学家需要找到那些具有一些相互矛盾技能的人:有能力处理数据并创建实用的模型;对他们试图解决的业务问题、数据的结构和细微差别以及模型如何工作有着直观理解,商业软件供应商Paytronix Systems负责Paytronix Data Insights业务的主管李·邦尼士(Lee Barnes)说道。

邦尼士说,“其中第一项技能是最容易找到的,大多数拥有良好数学技能并且拥有数学、统计学、工程学或其他科学学科学位的人,都可能具备这样的智力和技能。“第二项技能很难找到。令人惊讶的是,我们面试的很多人都能建立复杂的模型,但当询问他们为什么他们认为其模型是有效的或为什么他们选择采用该方法时,他们无法给出一个合理的答案。”

这些人很可能能够解释一个模型的准确性,“但是,他们不理解其模型为什么以及如何工作,因此就很难对他们的模型有很大的信心,”邦尼士说。“那些对他们所做工作有更深入的了解和直觉的人,才是真正的数据科学专家,并且他们才可能在这个领域拥有成功的职业生涯。”

责任编辑:未丽燕 来源: 企业网D1Net
相关推荐

2019-07-05 10:29:17

大数据数据科学家

2021-10-08 13:45:23

大数据数据科学家货币

2016-04-11 14:15:06

数据科学数据挖掘工具

2018-02-28 15:03:03

数据科学家数据分析职业

2017-08-04 15:53:10

大数据真伪数据科学家

2019-11-29 18:03:27

数学R语言算法

2019-03-25 21:18:41

数据科学家大数据技能

2012-12-27 09:50:36

Facebook

2019-07-30 11:47:29

数据科学云计算机器学习

2012-12-26 10:51:20

数据科学家

2020-02-12 16:49:49

数据科学技能云计算

2023-03-20 15:07:00

数据科学家质量保证

2018-12-24 08:37:44

数据科学家数据模型

2012-12-06 15:36:55

CIO

2022-09-07 10:16:25

雇佣IT领导者

2017-11-21 14:42:30

数据科学统计学习机器学习

2018-05-22 09:07:54

数据科学语言职位

2018-01-09 15:51:05

数据科学大数据工程师

2020-07-06 09:57:57

编程语言数据Python

2022-02-23 21:22:52

首席数据官CIO
点赞
收藏

51CTO技术栈公众号