你要了解数据科学团队中的这些角色-数据科学团队的核心

译者 | 李睿

审校 | 孙淑娟

全球知名的流媒体服务商Netflix公司在2017年将其五星级评级系统更改为“拇指向上”（喜欢）和“拇指向下”（不喜欢）简单的评价系统。该系统可以根据百分比匹配来推荐电影，但也有人对这一做法很反感。那么如何将电影艺术中所有的细微差别简化为一种原始的二元反应?

实际上，Netflix公司发现人们对那些他们认为很好的电影给予了很高的评价，但不一定是他们真正喜欢观看的电影。至少数据是这么描述的。那么数据分析在像Netflix这样的公司中是如何工作的？数据科学团队的角色是什么？

Netflix反馈系统

Gibson Biddle是Netflix公司的前副总裁兼首席产品官。在谈到消费者洞察时，他对导致整个评级系统发生变化的意外客户行为进行了解释。在转换成百分比匹配时，Netflix表示虽然观众可能喜欢观看亚当·桑德勒主演的喜剧，但给出的评价可能只有三颗星；而观众对观看《辛德勒的名单》这部电影感觉很好，并给出五颗星的评价，但这并不会增加其整体乐趣，让订阅者满意对Netflix来说是至关重要的。因此，他们简化了反馈系统以避免偏差。但是这些对客户的洞察本身就令人印象深刻，如果没有促进数据使用的文化和强大的数据基础设施这个因素，它们是不可能实现的。用技术术语来说，这被称为数据驱动的组织。

数据驱动的组织

人们可能多次听到“数据驱动”这个流行术语，但它的真正含义是什么？仅Netflix公司每天就记录超过7000亿个事件，从登录和点击电影缩略图到暂停视频和打开字幕。所有这些数据都可供用户使用。任何人都可以使用tableau或Jupiter等可视化工具访问它，或者他们可以通过大数据门户访问它——这是一个允许用户检查报告、生成报告或查询他们需要的任何信息的环境。然后，这些数据用于制定业务决策，从较小的缩略图（例如展示哪些缩略图）到企业的决策（例如Netflix公司下一步应该投资和推出哪些节目）。

数据驱动的组织并非只有Netflix公司一家。据估计，财富1000强企业中约有97%的企业投资于人工智能和大数据等项目。以下了解真正的数据基础设施技术和使其运营的数据工程师。

数据基础设施技术

为了描述数据基础设施的工作原理，技术人员借用了通常运输液体或气体的“管道”这一术语。数据管道有自己的起点、终点和中间站。所以这是一个非常贴切的比喻。数据的来源可能是任何事务，从点击保留按钮和刷新页面到与客户支持的对话记录，从车辆跟踪设备到发电厂的涡轮振动传感器。在当今世界，实际上很难说有什么不能生成数据，即使没有数据也能告诉人们一些事情。

一旦生成数据项，它就会沿着管道到达暂存区域。这是保存所有原始数据的地方。原始数据尚未准备好使用。你必须做好准备。如果没有做，必须填补空白，更改其格式或合并来自不同来源的数据，以获得更细致的观察。一旦完成这些操作，就会获得结构化和干净的数据。所有这些操作都是自动进行的。它们用两个词语来描述。

提取：从数据源中提取数据并将其送到暂存区域。
转换：准备数据以供使用并加载将准备好的数据进一步推入ETL。

所有准备好的数据都进入另一个存储器，即数据仓库。

数据仓库

与暂存区域不同，数据仓库是所有存储记录都进行结构化并准备使用的地方。就像图书馆的分类系统一样，可以查询、可视化和下载仓库的信息。为此，必须拥有商业智能（BI）软件。它将数据呈现给最终用户。

数据列表和业务分析师

数据列表和业务分析师是执行基本任务的人员。他们访问数据、探索数据、将其可视化，并尝试使其具有商业意义。例如，企业的营销活动成功吗？表现最差的渠道是什么？它们就像一个感官系统，通过历史数据为企业提供支持，并为管理层以及最终决策者提供见解。

数据工程师

数据工程师负责构建整个管道。大多数技术人员都精通所谓的“管道”。通过管道将数据从源头移动到目的地，并在途中对其进行转换。他们设计管道架构、设置ETL流程、配置仓库，并将其与报告工具连接起来。例如，Airbnb公司拥有约50名数据工程师。该公司有时可能会遇到涉及一些额外规则的更精细的方法。例如，数据质量工程师确保正确捕获和转换数据。当试图从中得出决策时，拥有有偏见或不正确的数据代价太高。可能有单独的工程师仅负责ETL。此外，商业智能开发人员只专注于集成报告和可视化工具。然而，报告工具并不会成为头条新闻，数据工程师也不是21世纪的最佳工作，但机器学习和数据科学家可能是。

机器学习和数据科学家

众所周知的是，数据科学家特别擅长收集数据并回答有关数据的复杂问题，例如企业下个季度的收入是多少？优步预约的汽车什么时候到达？喜欢《辛德勒名单》和《原钻》的可能性有多大？

实际上有两种方法可以回答这些问题。数据科学家像业务分析师和数据分析师一样使用商业智能工具和仓库数据。所以，他们会从仓库中获取数据。有时数据科学家会使用数据湖：另一种存储非结构化欺诈数据的存储类型。他们将创建一个预测模型，并提出可供管理层使用的预测。它适用于收入估算的一次性报告，但对预测优步预约汽车的到达时间没有帮助。

机器学习的真正价值在于生产模型可以自动工作，并定期生成复杂问题的答案，有时每秒生成数千次，用它们处理的事情要复杂得多。

生产机器学习模型

为了使模型工作，还需要基础设施。有时这是一个很大的问题。数据科学家探索数据仓库和数据湖中的数据，对其进行实验，选择算法，并训练模型以产生最终的机器学习代码。这需要对统计数据库、机器学习算法和学科领域有深入的理解。

SLAC公司前数据工程负责人Josh Wills在推特上表示，“数据科学家是比任何软件工程都更擅长统计学的人。”

例如订餐者使用ubereats 软件点餐。用户一旦确认订单，该应用程序必须估计交付时间、订餐者的位置、餐厅和订单数据发送到部署了交付预测机器学习模型的服务器。但这些数据还不足够。该模型还从一个单独的数据库中获取额外数据，其中包含餐厅准备的平均时间和其他详细信息。一旦有了所有的数据，模型会向订餐者返回预测。然而，这一过程并没有就此结束。预测本身保存在一个单独的数据库中。它将针对监控模型性能，并通过分析工具探索模型，以便稍后对其进行更新。所有这些数据最终都会出现在数据湖和数据仓库中。

实际上，仅ubereats订餐服务就使用了数百种不同的模型同时工作，对推荐进行评分，对餐厅进行搜索排名，并估计送货时间。

结论

Foursquare公司核心技术负责人Adam Waxman认为，未来将不再有数据科学家或机器学习工程师这些职位，因为随着模型训练的自动化和持续构建生产环境，许多数据科学家的工作将成为软件开发中的常见功能。

原文标题：Roles in Data Science Teams，作者：Anomi Ragendran