物联网数据的精炼应用是跨越数字化转型鸿沟的基础
随着公司根据从物联网设备获得的数据实施更多的用例,甚至完成业务模式转型,需要一种对这些数据进行数据质量管理的结构化方法变得至关重要。太多的公司试图在质量低劣的数据基础上扩大数字化转型,这会导致很多挫败感,并且几乎没有实际的商业利益。
我有时会用著名的“跨越鸿沟”图进行类比。事实上,初创公司从早期创新者转向被大多数市场采用所面临的挑战有相似之处。当应用于数字化转型时,挑战在于跨越从成功的数字化试点项目到全面实施的鸿沟。
许多公司无法在试点阶段之后扩大数字化转型计划。
行业公司最近的研究证实,数据质量是扩展工业分析的主要障碍之一。换句话说,众所周知的“垃圾进——垃圾出”的口号仍然很盛行。
了解数据质量
现在,尽管数据质量对我们大多数人来说具有直观的意义,但实际上它是一个具有多种可能定义的弹性概念。这些范围可以更窄,例如:
当数据正确地代表了它想要描述的潜在现实世界现象时,数据就具有良好的质量。
根据这个定义,数据需要有效、准确、一致和完整等。数据质量的另一个常见且同样有用的定义如下:
当数据适合目的时,数据的质量就很好。
在第二个定义中,数据结构化、可解释性和情境化的方面也被纳入考虑范围,只要这些方面与预期用例相关。
物联网数据精炼厂
就像炼油厂中原油的情况一样,质量可能较差的原始数据可以得到提炼。可以将其视为通过一系列“质量门”的数据,如下所示:
- 门 1:可访问
数据在可供使用时到达此门。此步骤需要成功连接到数据源并能够查询/读取样本。
- 门 2:结构化和情境化
通过此门的数据是结构化和情境化的。对于物联网数据,此步骤通常意味着已添加设备和资产元数据以及其他关键上下文。
- 门 3:已验证
下一步是数据的质量验证。此时,数据质量是根据许多关键维度进行评估的,包括准确性、一致性和及时性。
- 门 4:清理
评估数据质量通常是不够的。许多数据产品需要数据清理作为管道的一部分来创建可供使用的数据。
- 门 5:带注释
除了清理和结构化之外,可能还需要由主题专家 (SME) 或数据管理员提供的附加标签,以使数据适合使用。例如,可以标记资产关闭的时间段或在检查问题后添加根本原因信息。
- 门 6:验证
对于关键数据(例如关键报告或计费中使用的数据),让数据管理员明确验证数据并承诺适合使用的事实通常是一种很好的做法。
- 门 7:共享
此时,数据已准备好共享。共享可以发生在内部或外部、与供应商或客户。
- 门 8:可视化
数据可视化和探索是下一步。分析师可以在 PowerBI 或类似的描述性分析环境中研究数据。
- 门 9:建模
一些数据用于建模。此任务通常由数据科学家执行。
- 门 10:预测
最后,模型可用于对新传入数据进行预测。
随着数据通过大门,它变得更加精致、更加值得信赖、更加有价值。我们确实可以将这个逐步过程视为“数据精炼厂”,并与炼油厂或蒸馏过程进行类比。
在真实的炼油厂中,生产各种产品。例如,靠近蒸馏塔底部的地方生产柴油和煤油等成分,用于重型卡车和喷气式飞机。汽车中使用的汽油混合成分等较轻的成分被提取到蒸馏塔的顶部。
同样,我们的数据精炼厂可能会产生各种数据产品。并非所有这些产品都同样精致。重要的是,我们知道每个产品在数据特征和质量方面的期望。没错,我们不想不小心把煤油放进我们的跑车里!
数据产品占据中心舞台
当公司意识到有必要明确定义数据产品作为数据基础设施和最终用户应用程序之间的一层时,就会出现宣泄的时刻。
数据产品由K2view定义为 𝘳𝘦𝘶𝘴𝘢𝘣𝘭𝘦 𝘥𝘢𝘵𝘢 𝘢𝘴𝘴𝘦𝘵𝘴 𝘵𝘩𝘢𝘵 𝘣𝘶𝘯𝘥𝘭 𝘦𝘥𝘢𝘵𝘢𝘵𝘰𝘨𝘦𝘵𝘩𝘦𝘳𝘸𝘪𝘵𝘩𝘦𝘷𝘦𝘳𝘺𝘵𝘩𝘪𝘯𝘨𝘯𝘦𝘦 𝘥𝘦𝘥𝘵𝘰𝘮𝘢𝘬𝘦𝘪𝘵𝘪𝘯𝘥𝘦𝘱𝘦𝘯𝘥𝘦𝘯𝘵𝘭𝘺𝘶𝘴𝘢𝘣𝘭𝘺 𝘣𝘺𝘢𝘶𝘵𝘩𝘰𝘳𝘪𝘻𝘦𝘥𝘤𝘰𝘯𝘴𝘶𝘮𝘦𝘳𝘴。这些被称为“产品”(而不是普通资产),因为它们是为了满足消费者的需求而设计的。
定义数据产品的好处在于:
- 角色和职责更加明确,并且
- 视图中的数据生产者和消费者之间存在明确的一致性。
成功实施后,数据产品可以有助于消除数据生产者和消费者之间的摩擦,帮助数据团队变得积极主动,并实现数字计划的全面推广。
在没有对数据产品进行适当管理的情况下扩展物联网数据用例时的预防措施。
使用托管数据产品转向主动方法。
主要角色
现在我已经完成了场景并将数据产品放在舞台上,让我们介绍一下构建物联网数据精炼厂的主要参与者。我并不是想描述最广泛的数据相关角色集。相反,我想重点关注在实践中实现物联网数据质量管理的可行设置的关键角色。根据我的经验,这些包括以下内容:
角色#1:数据平台工程师
数据平台工程师对业务起着促进作用。作为数据平台团队的成员,他是 IT 组织的成员,负责构建、运营和维护构成数据平台的支持 IT 服务。
角色#2:数据工程师
数据工程师嵌入数据平台团队中,帮助构建和维护自动处理数据的管道。例如,他(她)可以使用编排器将连接到给定端点中的物联网数据的构建块组合在一起,将其与元数据源集成,通过添加资产上下文来构建数据,应用逻辑来挖掘特征和评分数据质量,并使生成的丰富数据可供数据管理员使用。
角色#3:数据管理员
数据管理员充当数据产品的数据质量的看门人。管理员是领域/业务专家,而不是决定数据质量何时足够好的开发人员或基础设施专家。这意味着他定义数据质量评分并负责数据验证。即使数据清理可以(很大程度上)自动化,数据管理员明确承诺数据适合使用通常也很重要。
角色#4:数据分析师
数据分析师的角色可能存在于产品团队内部,但更多时候分析师充当数据产品的消费者/用户。在此角色中,他们使用商业智能应用程序等工具从数据产品中查询数据。分析师还经常接受培训以使用 SQL 直接查询所服务的数据。
角色#5:机器学习运维工程师
机器学习操作工程师与数据平台工程师相对应,但对机器学习基础设施(而不是数据平台)负有特定责任。请注意,当使用 Databricks 等平台时,此职责可能与数据平台工程职责或系统范围重叠。
角色#6:数据科学家
数据科学角色可能作为数据产品团队的一部分存在,例如涉及预测的数据产品或挖掘从数据产品本身收集的使用数据。数据科学家也可能在数据产品团队之外工作,作为数据产品的消费者,使用其数据构建机器学习模型。物联网中的一个例子可能是一个团队使用来自公开核心旋转资产数据的数据产品的数据来构建预测维护模型。
角色#7:机器学习工程师
在较大的团队中,可能存在特定角色来管理数据科学家创建的机器学习模型。在这种情况下,机器学习工程师负责在整个模型生命周期中管理模型,负责模型部署和模型维护的各个方面。
整合数据精炼厂
我们可以将所有这些放在一起形成一个整体图,如下所示:
价值链
底部 描绘了逐步的数据精炼步骤。随着数据从左向右移动,它会通过几个质量关卡,变得更加精致、更值得信赖、更有价值。我想再次强调,并非所有步骤都与每个数据产品中的每个数据点相关。
平台团队
在上面一层,描述了平台团队。他们运营数据和机器学习操作管道可以运行的平台和 IT 服务。
数据管道
在中间部分,数据工程师设置自动化数据结构化和上下文化的核心管道。然后,数据管理员获取自动化部分的输出,并根据需要进一步清理、注释和验证数据。最终的结果是分析师和数据科学消费者/用户能够以高质量的数据为基础,感到高兴。
赋能团队
最后,图中的顶层添加了治理和支持团队。这些团队也是数据产品矩阵结构的重要组成部分。
数据产品在哪里呢
我可以想象,此时您想知道数据产品隐藏在这一切中的哪里。为了澄清这一点,让我们从一个简单的数据产品的角度来看同一张图:
在这个解释中:
- 数据工程师和数据管理员是数据产品团队的团队成员。
- 分析师和数据科学家是数据产品团队外部的数据产品消费者。
- 数据基础设施角色是平台团队的一部分,促进多种数据产品的发展。
- 同样,治理和支持团队也发挥着首要的支持作用。
由于多种原因,实际情况可能比上图复杂一些:
- 在实践中,数据精炼过程通常并不完全是线性的。
- 数据产品是依赖/嵌套的。由数据科学家创建并由机器学习工程师操作的模型的预测本身可能会成为数据产品。
- 数据分析师、数据科学家和机器学习工程师也可能是更大、更复杂的数据产品团队的一部分。当数据产品包含机器学习/建模步骤时,而且当一定级别的数据分析(例如使用统计)成为数据产品团队的必备条件时,就会发生这种情况。
开始尝试
感觉有点不知所措,不确定从哪里开始这个过程?积极的一面是,踏上这一旅程比看起来更容易管理。以下是一些入门的提示:
- 不要将数据产品团队视为需要雇用的一组人员。更有可能的是,这些人已经是组织的一部分,您可以向他们分配特殊的额外职责。对于较小的组织和数据产品,一个人可能承担多个角色。
- 从小事做起,但从现在开始。一个好的起点通常是 1 或 2 个人明确负责数据产品,并得到 IT 组织和精心选择的工具集的支持。
- 考虑数据的性质。一些数据质量工具可以帮助您理解和管理特定的数据类型。选择正确的支持工具通常可以让技术水平较低的人员更轻松地组合多个角色,例如数据工程师和数据管理员角色。
数据作为战略资产
人们经常谈论数据的战略重要性。然而,如今,许多以传感器数据为运营核心的物联网和制造公司没有适当的机制来控制数据。IT 部门的治理举措常常忽视数据产品和数据质量管理对 OT 和物联网数据的重要性。
如果我们希望数字化转型计划能够规模化,我们需要从谈论物联网数据作为一种战略资产转变为真正将其视为一种战略资产。