一句话来描述数据科学家,他们是从混乱数据中理出价值的人,是大数据的专家。
数据科学家具备数据的提取的能力;.统计分析能力;数据洞察与信息挖掘能力;.数据的可视化表示等能力。他们能采用科学方法、运用数据挖掘工具对复杂多量的数字、符号、文字、网址、音频或视频等信息进行数字化重现与认识,并能寻找新的数据洞察结果。
我们正处于一个大数据飞速发展的时代,随着网络和硬件的发展,数据存储与计算能力大幅度提升,我们所做的一切事,不论是在互联网中或者是互联网之外,都会留下数字的痕迹。比如刷卡购物,网络搜索,手机上网,乃至在网上每一个小小的点击都可以被一一记录下来。
这些数据有传统数据完全不同的特点:
大数据特征
这些数据需要对多源多样的动态数据做实时的关联分析和挖掘。这也决定了传统的商业智能、数据库技术等已无法发挥其作用。用传统的数据处理技术和方法没法处理、管理和使用,这些都给数据的处理带来了新挑战--这就是大数据。大数据将这些不同来源、不同结构的数据全部结合在一起进行关联分析,并从中提取所需的价值。
数据的价值到底有多大?
数据科学家的核心作用在于发掘数据的最佳商业价值,通过挖掘这类数据发现行业洞见,而并非简单地使大数据项目落地。未来,企业能否对来源多样、海量杂乱的数据进行有效分析和利用,推动产品创新,成为衡量企业竞争力的新标尺。
美国洛杉矶的一家企业宣称,他们将全球夜景的历史数据建立模型,在过滤掉波动之后,做出了投资房地产和消费的研究报告。麦当劳则通过外送服务,在售卖汉堡的同时获得了用户的精准地址,这些地址数据汇集之后,就变成了一份绝妙的房地产业的内部数据。
物流公司的数据原来只服务于运营需要,但一经再利用,物流公司就华丽转身为金融公司,数据用以评估客户的信用,提供无抵押贷款,或者拿运送途中的货品作为抵押提供贷款;物流公司甚至可以转变为金融信息服务公司来判断各个细分经济领域的运行和走势。
华尔街“德温特资本市场”公司首席执行官保罗·霍廷每天的工作之一,就是利用电脑程序分析全球3.4亿微博账户的留言,进而判断民众情绪,再以“1”到“50”进行打分。根据打分结果,霍廷再决定如何处理手中数以百万美元计的股票。霍廷的判断原则很简单:如果所有人似乎都高兴,那就买入;如果大家的焦虑情绪上升,那就抛售。
沃尔沃集团通过在卡车产品中安装传感器和嵌入式CPU,采集刹车到中央门锁系统等形形色色的车辆使用的数据信息,将这些来自不同客户的使用数据进行分析,可以让产品部门提早发现产品潜在的问题。“产品设计方面的缺陷,此前可能需要有50万台销量的时候才能暴露出来,而现在只需要1000台,我们就能发现潜在的缺陷。”
据国家发改委官员的统计,涪陵榨菜这几年在全国各地区销售份额变化,能够反映人口流动趋势,一个被称为“榨菜指数”的宏观经济指标就诞生了。国家发改委规划司官员发现,涪陵榨菜在华南地区销售份额由2007年的49%、2008年的48%、2009年的47.58%、2010年的38.50%下滑到2011年的29.99%。这个数据表明,华南地区人口流出速度非常快。他们依据“榨菜指标”,将全国分为人口流入区和人口流出区两部分,针对两个区的不同人口结构,在政策制定上将会有所不同。
数据科学与数据分析的本质区别
数据科学是一个多学科领域,专注于从大量原始和结构化数据中找到切实可行的见解。数据科学家的主要目标是找出问题并找出潜在的研究途径,而不用担心具体的答案,更多的重点放在寻找正确的问题上。专家通过预测潜在趋势,探索不同和不相关的数据来源,并找到更好的分析信息的方式来实现这一点。
数据分析专注于在现有的数据集里面,处理和执行统计分析。分析人员集中于创建捕获,处理和组织数据的方法,以发现当前问题的切实可行的见解,并建立呈现此数据的最佳方式。
数据科学与数据分析的区别
数据科学家有多紧俏?
在各行各业,大数据技术应用也越来越广泛,对于数据人才的需求也越来越大。
在2015年年初,美国总统发布了白宫的一个新职位——首席数据科学家,并且任命 DJ Patil 担此重任,而 DJ Patil 正是本书中的受访者之一。
在未来6年,仅美国本土就可能缺少14万~19万具备深入分析数据能力的专业人才,能够通过分析大数据支撑企业做出有效决策的数据管理人员和分析师也有150万人的缺口。从这个角度说,数据科学家是大数据时代最紧缺的人才并不为过。
数据科学家能为企业做什么?
随着数据量的迅猛增长,今天企业搜集的数据比以往任何时候都要多,不仅在企业内部,在外部的组织网络和更广泛的消费领域亦是如此。企业文化的转变对组织运营产生了巨大影响。
在新数字化企业及其周围的环境里,数据成为了组织的基石。从创新到所有决策,数据推动着企业的发展,并使得各级组织的运营更为高效。可以这样说,数据将成为每个企业获取下一个核心竞争力的要素。
数据科学家在企业能处理以下事务:
数据科学家职责
你的企业需要数据科学家吗?
数据科学家主要从事数据分析工作,从海量数据中挖掘有价值的信息。如果一个项目只是侧重数据的获取与存储,那么可能需要的是熟悉平台架构的数据库工程师或架构师;如果项目侧重数据分析,那么数据科学家就是必需的。
事实上,如果公司的核心业务不是机器学习,那么你所做的数据科学很可能只会带来很少的收益。但是如果愿意投入,将这些成果积少成多,或者你可能很幸运地偶然发现一个金矿项目,都会让价值增加,但这种事情可遇不可求。
如何挑选数据科学家
数据科学家所需的基本技能和能力与其他发挥信息数据最大用途的工作相同,即深度分析的能力、扎实的数据挖掘技能以及对统计分析方法和工具的了解。同时,数据科学家还需引导有价值和有意义的见解,这要求其能够深刻理解行业动态和发展趋势、客户的需求与行为以及企业内部的业务流程等。数据科学家必须掌握所有形式的数据,并不断地利用这些资源推动业务实现创新与突破。
单就近几年数据科学的发展来看,成为一名数据科学家至少需要了解以下几个方面的技能分支,企业在招聘的时候可以以这些技能为参考依据。
数据科学家必备技能
企业如何合理的使用数据科学家
数据科学家不是魔法师,当所需的数据不可得或者质量很差的时候,数据科学家能做的很有限,这已经超过了技术的范畴。企业管理者如果能从全局出发部署数据战略,才能真正解决当下数据科学家的痛点,这样数据科学家才能发挥作用解决公司的痛点。
在企业中,数据科学家并应该不是孤立的个体,而应该是一个团队。数据科学家之间的交流与协作是必需的,这样才更有利于数据处理工作的开展和数据产品的开发。文思海辉金融事业群商业智能事业部解决方案高级经理马宁认为,一个人难以精通与数据业务相关的方方面面的问题,因此企业应该成立一个数据科学团队,团队中的每个人都可以专注于自身擅长的领域。