性感事物方面的权威《哈佛商业评论》宣布,“数据科学家”是二十一世纪最性感的职业。所谓性感,既代表着难以名状的诱惑,又说明了大家都不知道它干的是什么。
不管老板懂不懂数据科学家是干什么的,反正最近几年这个岗位的需求数正在快速攀升,Indeed.com的数据可以为证。
但是其性感在什么地方?什么是数据科学家?他们是科学家吗?还是工程师?程序员?抑或是一个商业决策与创新者的新血统?
Indeed.com的数据没有反应出来的一个事实是,尽管这个职业对应的学科在学术界经过长期的酝酿,但终究没有成立为一个新的学科。而这段时间很长的学术孵化期,也许跟今天的数据科学实践有着很大的关系。
我 们首先来简要回顾一下这段历史。早在上世纪六十年代,Peter Naur就首次提议要用“数据科学(data science、Datalogy)”来替代“计算机科学(computer science)”,后来在上世纪九十年代中期为国际分类社团联盟所用。2001年,William S. Cleveland提议将其设立为一个新的学科,吸收“计算在数据方面取得的进展”作为统计学的延伸。《数据科学(Data Science Journal )》及《The Journal of Data Science》分别于2002年与2003年发行.2005年,国家科学委员会发表了《数字数据收集万岁:促进二十一世纪的研究与教育》,文中将数据科学家定义为“信息与计算机科学家,数据库与软件工程师及程序员,学科专家,成功管理数字数据收集的关键人物。”
到 了本世纪头十年的中期,数据科学不再屈尊于仅列为其他学科的细目清单,开始走出学术殿堂。从学术迈向新职业走出的这半步是Troy Sadkowsky于2009年完成的。他在澳大利亚的一个学术性岗位工作,但却有一个“科学性程序员”的头衔,其职责是开发支撑大规模、“大数据”科学 性研究的应用。2009年一月,数字化数据跨机构工作组发表了一份名为《驾驭科学与社会数字化数据之力》的报告,Sadkowsky从中了解到“数据科学 家”这个词,认为该词是自己所从事工作的最好描述。2009年6月,他在LinkedIn建立了一个数据科学家小组作为其 datasceintists.com网站的辅佐。
但是数据科学从学术向行业的大规模迁移此前早就在美国发生 了,那时候Web公司正在开发大数据技术,需要定量分析员对其收集得海量数据进行挖掘利用。那些不愿呆在象牙塔里的数量分析专家都会跑到华尔街。不过 2008年的时候这个地方的诱惑力下降了。Greylock Partners的数据科学家D.J. Patil跟Jeff Hammerbacher一起在Facebook和LikedIn上建立了数据与分析小组,这一举动被视为是数据科学走向职业化的标志,小组的职能是致力 于对业务能够产生即时的、大规模影响的数据应用。所谓数据科学家就是运用数据和科学创造新东西的人。
而数据科学家这个职位的头衔则是2009年由Natahn Yau首次提及的,他认为数据科学家就是能够从大型数据集中析取出数据,并提供某些可供非数据专家使用的东西的人。
数据科学家、创业家Mike Driscoll则认为数据极客有三个性感之处:建模、转换、可视化。而一种比较有诗意的表述方式是:数据科学家好比是哥伦布遇上科伦坡,目光如炬的探险家与怀疑一切的大侦探的合体。
而 在《数据科学家:二十一世纪最性感的职业》一文中,设计LinkedIn的“你可能认识的人”功能的数据科学家Jonathan Goldman的工作也许是对数据科学家工作方式的最好诠释:首先构建理论、印证预感,然后寻找出模式,对应该推出某人的哪一个网络做出预测。文章最后对 数据科学家的工作进行如下概括:
数据科学家做的,就是在数据中遨游的同时进行探索,其 显著特点是强烈的好奇—他们渴望寻找问题核心,追究问题实质,并把这些东西提炼为一组非常清晰、可以验证的假设。这往往会让人联想到这些都是任何一个领域 最有创意的科学家所具备的特质,很显然,科学家这个头衔适合于这一新兴角色。他们实现价值提升并不是靠做报表或者PPT给高管,而是靠在面向客户的产品与 流程方面所做出的创新。
不过,这一大段的阐述仍然不够简洁明了,在上述观察的基础上我们来给出一个数据科学家的简明版定义:
数据科学家就是采用科学方法、运用数据挖掘工具寻找新的数据洞察的工程师。
科 学办法就是构思假设、测试想法、精心设计实验、经由他人验证,这些是他们从统计身上掌握的知识,经科学训练出来的经验。而工具的运用则是来自其工程经验, 或者更确切地说来自于其计算机科学与编程背景。最好的数据科学家是产品与流程的创新者,有时候还是新的数据挖掘工具的开发者。
何谓性感,这就是。
【编辑推荐】