本文为数据科学家Christophe Bourguignat在“数据科学家2015”巴黎会议开幕主题演讲全文。Christophe Bourguignat目前就职于安盛-数据创新实验室(AXA – Data Innovation Lab)
以下是演讲全文:
大家好。
我一直想问自己一个问题:如果我不得不介绍一下这个讲稿去年的版本,我当时会提到什么样的主题呢?到了今天是否仍然有相关?或者已经完全过时了?
例如,去年,我肯定会尝试 - 是的,我说过试着 - 描述数据科学家是什么。你知道,这个虚构的角色,半数学的书***,半软件极客,半沟通技能。三个一半显示,它并没有真正存在。今天,我还是更加迷茫。最近的一项调查描述数据科学家作为一只有25只脚的蜘蛛!也许在今天的会议之后,我们会更加了解这个新角色。并了解它是多么广泛。
数据科学家,一只有25只脚的蜘蛛
然而,与去年相比,我们开始有数据的科学家。量化自我后,这是量化的数据科学家 -数据科学家 数据科学的时间。2个星期前,一个预测的数据科学家的工资线性模型公布了。
什么是值得注意的?如果你是一个女孩,不幸的是,你不会出现在榜。这不会让任何人感到惊讶。糟糕的是即使是数据科学家的工作,也像很多的技术职位,都无法逃脱这条规则。
更有趣的是,数据科学家(/分析师/工程师)在会议上花的时间越多,收入就越多。如果他花了太多的时间探索数据(4小时/天),他赚的钱就越少了!这一点非常重要!
数据科学家:一个预测数据科学家的收入是多少的线性模型
几个月前,关于什么能代表着数据革命,我一直在批评自己缺乏对法国的认识。现在我们应认识到情况已经改变了。一个新的角色已经产生 - 法国的***数据官,他最近还成为法国的***信息官,这意味着IT技术转移到向数据为中心靠近了。法国现在也有自己的数据科学团队,同时一个新的词诞生了:“mégadonnées”法语:大数据。
亨利 维迪尔,来自法国的CDO、CIO
去年,我就谈到了创业公司,数据显示 - 它注定会有一个光明的未来。今天,我将更加细致地谈及创业公司。公司数据的成熟度是非常明显的,但他们的***的优势开始遭到怀疑。75%的创业公投资大数据,但只有10%的在制造业。 “机器学习”,一个数据项目的重要组成部分,***落在Gartner“成熟度曲线”的末端。
公司面对的幻灭。并问自己:我知道要花多少钱,但我能赚多少?投资回报率是多少?
即使小数据项目也会遇到新问题 - 如何使用我的数据科学家的发现?这意味着改变管理,修改既定的业务流程。举例来说,一个零售商知道通过在打折前后延长商品的在上架时间可以大幅增加利润。但实施这一变化将需要一个完整的重新设计的供应链,这是零售商不愿意承担的。
“机器学习”***落在Gartner“成熟度曲线”的末端
在另一个层面,这次是关于纯技术的 - 因为数据科学是关很多技术的 - 我可能会提到Map(映射)和Reduce(归约),这是谷歌在大约10年前设计的一种算法,目的是实现大量数据的分布式处理。前不久,它是一个明星。今天,它已经被广泛称为:火花。
让我们拿另一个例子。两周前,Cloudera宣布其产品Kudu,一个完全绕过HDFS的新的列存储技术,事实上目前的大数据存储技术。同时,它有助于提高他们的动物学知识(数据科学家的捻角羚羚羊是林地分布在东部和南部非洲),捻角羚在新兴的“传统Hadoop项目”中开始探索让HDFS融入MapReduce…
另一方面,我无疑还未谈起过人工智能(AI)的一个分支–深度学习。神经网络,功能非常强大,像人类一样从数据中学习,但有时比人类更强。这一领域最近取得了决定性的进展。这些算法表明,他们是如何能够绘画,写作,或作曲。那下一步将是什么?
深度学习-绘画
我也未谈过道德。是的,道德 - 谁会想到它来辩论?一个社会,每一个有独立想法的公民都能由模型预测,这越发令人担忧。这是为什么要强调预测算法的的良好的透明度,同时人工智能有关的教育已成目前热门的主题。
这个演讲的结论是:不要试图记住太多我刚刚所讲的,因为到明年大部都将过时!至少,这是我的预测。
然而,有一件事将继续。最近由巴拉克奥巴马颁发“美国***数据科学家”的DJ Patil, 2012年曾在一篇著名的和有远见的哈佛商业评论文章中写道,数据科学家将成为“21世纪最性感的工作”。我也深信这一点。数据科学家是世界上最令人激动的工作之一,这将保持很长一段时间。我们只是故事的开始。
希望你们有精彩的一天。