数据科学家:21世纪尤其脏的工作

大数据
在大数据世界里,数据科学家受到人们的尊敬,他们采用人工智能或深度学习的方法,提出宝贵的商业见解,造福社会。

在大数据世界里,数据科学家受到人们的尊敬,他们采用人工智能或深度学习的方法,提出宝贵的商业见解,造福社会。

《哈佛商业评论》曾这样描述数据科学家——“数据科学家从事着21世纪最时尚的工作”。

对我来说,虽然过去五年拥有着“数据科学家”这个头衔,但我仍然没有完全弄清楚工作的哪个部分很时尚。可能是我新烫的头发使我看起来像韩国欧巴。

确实,云端的出现以及企业朝着互联网方向的发展,带来了数据的爆炸。这推动了某些部门对数据科学家的需求以及该岗位的短缺。

数据科学家

但是,数据科学家每天要做什么工作呢?

通过分析领英上发布的职位信息,可以找到此问题的答案。以下总结了一些热门的岗位要求:

  • 了解业务和客户,验证假设理论
  • 建立预测模型和机器学习流水线,进行A/ B测试
  • 对业务相关者进行概念化分析
  • 开发算法以赋能商业决策
  • 试验并研究新技术和方法,提高技术能力。

这些听起来很时尚/高大上,不是吗?

除非工作还包括处理Kaggle数据集,否则这些工作描述只是数据科学家工作的一小部分。

以下调查结果由CrowdFlower发布,总结了数据科学家的日常活动:

数据科学家:21世纪最脏的工作

数据科学家花费时间最多的事情。[摘自CrowdFlower]

从上表可以看出,数据科学家大部分时间都在收集数据集,清理和组织数据。

21世纪的高性能数据真空

数据湖是一个集中存储库,存储着公司的所有数据。公司得以使用该数据构建机器学习模型和仪表板。遗憾的是,有些人仅仅把数据湖当作数据转储的场所,或者超大硬盘。

许多公司开始实施数据湖时,对如何处理收集到的数据一无所知。这些公司会说:“让我们收集所有的数据吧。”虽然数据湖的重点是将公司的所有数据集中在一个地方,但仍然需要根据特定的项目需求进行设计。如果不进行任何计划,你就像创建了一个新的“无标题文件夹”,然后在其中复制并粘贴公司的全部数据。

[[319605]]

如果把台式机视为数据转储场

从历史的角度看,糟糕的计划会带来杂乱无章的元数据,这让任何人都很难搜索或查找所需的数据。数据科学家经常需要与不同部门联系以获取数据。他们可能需要从不同的数据所有者中获取有关数据的信息。仅存储数据而不进行分类是一个很大的错误。建立有效数据湖的关键就是要确保元数据有良好的归类。

由于数据治理问题或数据所有者过于忙碌,且他们往往是不同部门的利益相关者,因此获取重要数据可能需要数周的时间。观察一段时间后,数据科学家可能最终会发现数据不相关或存在严重的质量问题。

当数据科学家最终收集到数据时,他们需要花费大量时间来探索和熟悉这些数据,必须将这些混乱的数据块重组为符合项目需求的新表。

21世纪里高需求的数据管理员

[[319606]]

来源:data.lovedata

每个处理数据的专业人员都应该听说过“脏数据”一词。脏数据影响了数据集的完整性。脏数据的特征有:不完整、不准确、不一致和重复。

不完整的数据是指当某些基本功能为空时,例如,假设任务是预测房价。假设“房子的位置”对于做出良好的预测至关重要,但是这一数据却没有。这可能会变得具有挑战性,并且模型的效果也不佳。

不正确的数据和不一致的数据是指该值在技术上是正确的,但在语境下是错误的。例如,一名员工更改了地址,但数据却未更新,或者当数据有很多副本,而数据科学家得到的版本却已过时。

数据重复也是一个常见问题。在此分享一个我在电子商务公司工作时发生的故事。按照设计,当访问者单击“收集优惠券”按钮时,网站将响应发送到服务器。这使我们能够衡量已收集到优惠券的用户数量。

该网站一直运行良好,直到有一天出现了一些变化,而我对此一无所知。前端开发人员在有人成功收集优惠券时添加了另一个响应,理由是某些优惠券可能缺货了。数据科学家想跟踪单击该按钮的访问者,以及已经收集了优惠券的访问者。

这时,两个响应发送到同一日志表。看看我的报告工具,优惠券的数量似乎在一夜之间翻了一番!在前一天部署模型时,我以为新模型是很成功的。我记得曾为这个小模型欢呼鼓掌,但后来意识到这只是在重复计算。

另外,在过去五年里,作为数据科学家,我收集到的一些数据是公司员工手动输入的。在Excel电子表格中,许多数据是不准确、不完整且不一致的。

无论数据是人工输入还是机器日志,数据整理在现实世界中应用广泛。数据科学家必须处理这些数据。为了使监督学习有效,我们需要可靠的、分类好的数据。除非正确标记数据,否则无法建立预测模型。但是没有人喜欢标记数据。

许多人将其描述为二八规则。数据科学家仅花了20%的时间构建模型,而其他80%的时间用于收集、分析、清理和重组数据。处理脏数据是数据科学家日常工作中最耗时的。

[[319607]]

来源:Pexels

有必要说明的是,数据清理至关重要,混乱的数据不会带来良好的结果,你可能听过“垃圾进,垃圾出”这句话。

数据科学家在浏览数据时确实会有所发现,但是在数据科学家可以开始训练任何模型之前,必须首先成为数据管理员。数据需要清理,也需要标记。

所以,将数据科学家称为大数据世界的清洁工,应该也挺合适吧……

责任编辑:赵宁宁 来源: 读芯术
相关推荐

2012-10-09 13:41:09

数据科学家职业

2020-05-29 17:30:05

数据科学数据工程师职业

2017-09-11 10:37:56

编程语言名单

2024-04-22 11:40:50

2022-11-14 12:38:29

2015-09-30 09:26:38

大数据高薪

2020-04-10 10:11:15

数据泄露漏洞信息安全

2017-08-04 15:53:10

大数据真伪数据科学家

2013-05-21 16:20:40

2013-06-03 10:18:59

WindowsLinux微软Office

2013-06-03 09:36:24

21世纪代码写代码

2011-04-20 13:14:33

BlackBerry黑莓RIM

2019-10-08 10:35:53

编译Linux内核

2019-12-30 22:24:50

大数据机器学习文章

2018-12-21 14:44:17

数据科学职业生涯代码

2011-11-23 09:33:46

程序员

2018-02-01 16:25:55

2019-03-06 08:37:46

数据科学数据科学家Python

2019-08-26 09:47:56

数据科学家数据分析

2021-10-29 15:19:44

人工智能金融科学
点赞
收藏

51CTO技术栈公众号