在大数据世界里,数据科学家受到人们的尊敬,他们采用人工智能或深度学习的方法,提出宝贵的商业见解,造福社会。
《哈佛商业评论》曾这样描述数据科学家——“数据科学家从事着21世纪最时尚的工作”。
对我来说,虽然过去五年拥有着“数据科学家”这个头衔,但我仍然没有完全弄清楚工作的哪个部分很时尚。可能是我新烫的头发使我看起来像韩国欧巴。
确实,云端的出现以及企业朝着互联网方向的发展,带来了数据的爆炸。这推动了某些部门对数据科学家的需求以及该岗位的短缺。
但是,数据科学家每天要做什么工作呢?
通过分析领英上发布的职位信息,可以找到此问题的答案。以下总结了一些热门的岗位要求:
- 了解业务和客户,验证假设理论
- 建立预测模型和机器学习流水线,进行A/ B测试
- 对业务相关者进行概念化分析
- 开发算法以赋能商业决策
- 试验并研究新技术和方法,提高技术能力。
这些听起来很时尚/高大上,不是吗?
除非工作还包括处理Kaggle数据集,否则这些工作描述只是数据科学家工作的一小部分。
以下调查结果由CrowdFlower发布,总结了数据科学家的日常活动:
数据科学家花费时间最多的事情。[摘自CrowdFlower]
从上表可以看出,数据科学家大部分时间都在收集数据集,清理和组织数据。
21世纪的高性能数据真空
数据湖是一个集中存储库,存储着公司的所有数据。公司得以使用该数据构建机器学习模型和仪表板。遗憾的是,有些人仅仅把数据湖当作数据转储的场所,或者超大硬盘。
许多公司开始实施数据湖时,对如何处理收集到的数据一无所知。这些公司会说:“让我们收集所有的数据吧。”虽然数据湖的重点是将公司的所有数据集中在一个地方,但仍然需要根据特定的项目需求进行设计。如果不进行任何计划,你就像创建了一个新的“无标题文件夹”,然后在其中复制并粘贴公司的全部数据。
如果把台式机视为数据转储场
从历史的角度看,糟糕的计划会带来杂乱无章的元数据,这让任何人都很难搜索或查找所需的数据。数据科学家经常需要与不同部门联系以获取数据。他们可能需要从不同的数据所有者中获取有关数据的信息。仅存储数据而不进行分类是一个很大的错误。建立有效数据湖的关键就是要确保元数据有良好的归类。
由于数据治理问题或数据所有者过于忙碌,且他们往往是不同部门的利益相关者,因此获取重要数据可能需要数周的时间。观察一段时间后,数据科学家可能最终会发现数据不相关或存在严重的质量问题。
当数据科学家最终收集到数据时,他们需要花费大量时间来探索和熟悉这些数据,必须将这些混乱的数据块重组为符合项目需求的新表。
21世纪里高需求的数据管理员
来源:data.lovedata
每个处理数据的专业人员都应该听说过“脏数据”一词。脏数据影响了数据集的完整性。脏数据的特征有:不完整、不准确、不一致和重复。
不完整的数据是指当某些基本功能为空时,例如,假设任务是预测房价。假设“房子的位置”对于做出良好的预测至关重要,但是这一数据却没有。这可能会变得具有挑战性,并且模型的效果也不佳。
不正确的数据和不一致的数据是指该值在技术上是正确的,但在语境下是错误的。例如,一名员工更改了地址,但数据却未更新,或者当数据有很多副本,而数据科学家得到的版本却已过时。
数据重复也是一个常见问题。在此分享一个我在电子商务公司工作时发生的故事。按照设计,当访问者单击“收集优惠券”按钮时,网站将响应发送到服务器。这使我们能够衡量已收集到优惠券的用户数量。
该网站一直运行良好,直到有一天出现了一些变化,而我对此一无所知。前端开发人员在有人成功收集优惠券时添加了另一个响应,理由是某些优惠券可能缺货了。数据科学家想跟踪单击该按钮的访问者,以及已经收集了优惠券的访问者。
这时,两个响应发送到同一日志表。看看我的报告工具,优惠券的数量似乎在一夜之间翻了一番!在前一天部署模型时,我以为新模型是很成功的。我记得曾为这个小模型欢呼鼓掌,但后来意识到这只是在重复计算。
另外,在过去五年里,作为数据科学家,我收集到的一些数据是公司员工手动输入的。在Excel电子表格中,许多数据是不准确、不完整且不一致的。
无论数据是人工输入还是机器日志,数据整理在现实世界中应用广泛。数据科学家必须处理这些数据。为了使监督学习有效,我们需要可靠的、分类好的数据。除非正确标记数据,否则无法建立预测模型。但是没有人喜欢标记数据。
许多人将其描述为二八规则。数据科学家仅花了20%的时间构建模型,而其他80%的时间用于收集、分析、清理和重组数据。处理脏数据是数据科学家日常工作中最耗时的。
来源:Pexels
有必要说明的是,数据清理至关重要,混乱的数据不会带来良好的结果,你可能听过“垃圾进,垃圾出”这句话。
数据科学家在浏览数据时确实会有所发现,但是在数据科学家可以开始训练任何模型之前,必须首先成为数据管理员。数据需要清理,也需要标记。
所以,将数据科学家称为大数据世界的清洁工,应该也挺合适吧……