很长一段时间以来,数据科学一直被视为科技和商业领域的下一次重大革命。最近几年增加了不少使用数据科学应用的企业。根据Statista的数据,截至2021年,近60%的公司在其团队中拥有至少50名数据科学家。
然而,如果客观地看待,数据科学提供的结果与它的期望并不匹配。许多将数据科学方法应用于数据的企业经常发现他们的数据科学项目是不可行的。
导致这种结果的一个重要原因是不能正确执行数据科学的程序。其他原因通常包括对业务问题缺乏了解、项目设计不一致以及将数据洞察力转化为可操作结果的能力不足。
数据科学是复杂的,公司需要使用一些最佳实践来更好地实施数据科学程序。
在本文中,我们将讨论公司可以参考哪些实践,以提高数据科学工作的成功率。首先让我们了解一些数据科学的基本概念。
解读数据科学
数据科学听起来好像类似于比特币、NFT、加密等IT流行语。但是抛开炒作,我们会看到一个多层次的领域,是融合了数学推理和计算机编程等多个方面来理解数据。
与看起来相反的是,数据科学并不是一个新的IT术语。在20世纪后期它的用途接近于统计,意思是有组织的数据文档。
数据科学从根本上说是大数据、数据挖掘和机器学习等学科的扩充和结合。现在,它本质上是指收集和分析一个公司或组织的非结构化数据。
数据科学家是记录和解读庞大和杂乱数据的专业人士,他们使用数学能力、编码技能和一系列有关数据库、计算和通信等技能来处理数据并得出相关见解。然后,公司利用这些见解来改善他们的客户服务、产品质量、组织间沟通等等。
数据科学正逐渐成为一些组织梦寐以求的资产,随着时间的推移,它必将获得更多的关注。
10 个有效的数据科学最佳实践操作指南
到目前为止,我们已经收集了有关数据科学的定义和目标的信息。现在让我们看看公司可以遵守的一些数据科学实践操作,以便更好地利用数据科学的优势。
1. 在组织中建立专门的数据科学计划
公司不能充分利用其数据科学能力的一个主要原因是缺乏专门的数据科学基础设施。通常情况下,公司由两到三个数据科学团队组成,他们同时从事不同的工作。他们没有成文的工作方式,也缺乏衡量他们完成的每项任务是否成功所需的指标。
此外,在许多情况下,这些团队缺乏必要的技术支持,无法发挥其潜力。因此,这些团队为企业的整体发展提供的价值并不大。
为了更好地利用其数据科学团队未被充分利用的能力,每个企业都需要鼓励建立一个数据科学计划,其中包括:
1.数据科学计划的目标
2.为自己配备必要的数据科学基础设施(训练有素的专家、性能优越的设备等)
3.交付路线图
4.绩效衡量标准
2. 创建有能力的团队,而不是寻找独角兽
独角兽指的是一种神话般的生物,它像一匹马,额头上有角。在流行文化中,这个词被用作比喻许多人渴望但难以获得的东西。
在数据科学的语境里,独角兽这个词指的是一个人,更具体地说是一个数据科学家,他拥有企业所需的几乎所有数据科学技能。
与独角兽的定义一样,数据科学独角兽是一种罕见的现象。
这意味着,企业应该优先建立跨职能的数据科学团队,而不是寻找一个全能型的人。
典型的跨职能或跨学科数据科学团队由以下人员组成:
数据工程师,负责收集、转换和汇集未经提炼的数据,为团队其他成员提供可访问和可用的信息。
机器学习专家,创建ML数据模型,以识别所收集数据的模式。
DevOps工程师,来部署和维护ML数据模型。
商业分析师,了解公司的要求以及它所瞄准的市场。
一个团队领导,来正确引导团队。
跨职能团队是独角兽的更好选择,因为他们可以:
1.分担工作量
2.在解决问题时提供不同的观点
3.改善整体决策
3. 在着手解决问题之前,先彻底定义问题
能整体性地描述数据科学问题的能力再怎么强调也不为过,甚至包括描述最细微的细节。
揭示问题的细节使数据科学家能够检查其每个组成部分,并根据具体参数(例如优先级、清晰度、可用数据和投资回报率)对其进行衡量。这也使他们能够确定处理该问题所需的主要和次要利益相关者。一旦定义了问题,数据科学家就可以将数据收集、分析和解释系统化。
然而,这个看似基本的问题,却没有多少公司在开展数据科学业务时关注它。他们反而含糊其辞地解释问题,使数据科学家的工作更加复杂。
因此,在尝试解决问题之前,公司需要将其刨根问底,暴露其所有要素和要求。
4. 确保POC在明确的用例上运行
POC(概念证明)对于任何数据科学项目都至关重要,因为它们决定了数据模型或数据科学解决方案是否可行。它本质上是更广泛的数据科学解决方案的测试用例,它决定了公司的数据科学计划是否能够满足其需求。
首先,运行POC需要一个用例。而正是对用例的选择,可以决定POC进入生产阶段的前景。因此,数据科学家应该选择最合适的用例,在运行POC时提供可量化的结果。
此外,用例应表示关键业务问题或一系列问题,以便为 POC 提供具体和相关的测量标准。
5. 确定并列出所有KPI指标
是什么决定了一家公司的数据科学工作是否取得了足够的成果?就是与之并列的关键绩效指标(KPI)。
目前,虽然大多数实施数据科学的公司都有一套业务目标,但他们缺乏一定的关键绩效指标来监测他们实现这些目标的进展。
因此,企业需要预留某些可衡量的关键绩效指标,如投资回报率、每个消费者的收入增长百分比、CSAT得分等,以确定其数据科学项目的可行性。
例如,如果企业部署了优化算法来增加收入,它可以使用月销售额、网站访问者数量等绩效指标。
6. 强调对利益相关者的适当管理
根据数据科学术语,利益相关者是使用数据科学家提供的数据的个人。他们可以是内部的,例如使用数据促进业务增长的业务分析师,也可以是外部的,如使用数据科学家解释数据结果的客户。
现在,数据科学主要处理的是数据。但是,牢记计划使用它的个人——利益相关者,也是必要的。
这样做可以确保数据科学家不仅分析数据,还分析与之相关的人为因素。换句话说,管理利益相关者使数据科学家能够与人一起合作,而不仅仅是数据。
为了有效管理利益相关者,数据科学家应实施以下策略:
1.建立透明的沟通渠道
2.将项目的所有可能结果进行反馈
3.寻求反馈
4.发起合作努力
7. 基于利益相关者的数据科学文档
文档对于任何数据科学项目都至关重要。
适当地记录一个项目的所有方面,可以让利益相关者更好地理解和利用其数据。
但是,无论文档有多好,如果你不能将数据科学项目的具体内容传达给正确的利益相关者,那么项目可能就不会变得那么有效。
因此,你应该根据所涉及的利益相关者的要求和专业来记录一个项目,而不是采取"一刀切"的方式。
8. 学会用适当的工具来匹配数据科学工作
这一点似乎很明显,但是将正确的数据科学项目与正确的工具配对需要高超的技能和对数据科学的适应性。
可以选择的工具:
1.选择合适的数据可视化软件
2.衡量项目的云存储容量
3.选择合适的编程语言
4.评估当前数据科学基础设施的可扩展性
5.确定解决手头问题的正确方法
要做好这种数据科学操作的前提是,准备好工作所需的工具有助于数据科学家更快、更有效地处理数据。
9. 融入敏捷方法论
如果剥去所有的描述后进行概括,敏捷方法论指出,软件开发应该分块进行,沟通和互动是关键。
目前虽然有些人可能不同意,但将敏捷方法运用到数据科学项目中会有奇效。
敏捷框架基本上将一个项目分为几个冲刺阶段,时间限制通常为几周,数据科学家在其中从事项目的特定方面。
每个冲刺都是在与利益相关者互动后启动的,以概述其要求,确定利益相关者的预算,为他们提供交付计划,并确定要完成的任务的优先级。
在每个冲刺阶段结束时,都会进行审查以评估迄今为止所做的工作。
10. 掌握数据道德规范
数据模型的执行是客观的,但数据科学家不是。因此,数据科学家必须建立不违反数据收集、分析和解释的道德模型。
不遵守数据伦理可能会以多种方式严重影响公司的信誉和声誉。
结论
以上就是10个数据科学最佳实践操作指南的清单,可以帮助你的数据科学事业。
数据科学是一个快速发展的领域,其应用范围与日俱增。如果实施得当,数据科学可以成为企业的重要组成部分,并大大促进其增长。唯一的问题是,公司应该为自己配备足够的数据科学基础设施,雇用合适的人,进行广泛的合作并遵循上述最佳实践操作指南,以使他们的数据科学成果发挥最大的作用。
译者介绍
翟珂,51CTO社区编辑,目前在杭州从事软件研发工作,做过电商、征信等方面的系统,享受分享知识的过程,充实自己的生活。
参考链接:https://www.datasciencecentral.com/10-best-practices-for-data-science