数据通常被描述为新油,但与种植精致水果相比,确保数据质量更好。就像一棵果树一样,数据质量需要从源头上得到滋养。这就是为什么无法在数据仓库中解决数据质量问题的原因。
数据科学家大部分时间都在清理在这个关键阶段被忽视的数据集,不仅浪费了宝贵的时间,而且还产生了另一个问题。
当稍后清理数据时,会做出许多可能扭曲结果的假设。然而,数据科学家别无选择,只能做出这些假设。这就是为什么数据治理对提高数据质量非常重要。
谈到质量,数据不像油,而是像更水果,质量需要在源头和运输过程中得到培养。数据质量无法在数据仓库中修复。
独立用户的问题在于倾向于将精力集中在受影响最大的领域。例如,项目经理可能更关心 IT 资产管理流程中的低效率,而 CFO 可能会向董事会或股东提交报告,并发现缺少重要数据。
为什么数据质量会受到影响?
可以使用几个相互关联的参数来确定数据的质量。这些参数包括数据的一致性、及时性或相关性、准确性和完整性。
质量差的数据有两个关键原因。第一个与源系统有关,第二个发生在分析阶段。
源系统
当组织在没有适当控制或标准化流程的情况下收集数据时,可能会出现问题。这些问题发生在四个核心领域:
(1) 采集期间:数据采集是质量控制过程的重要组成部分。这个初始步骤可以为质量差的数据集设置路线。
例如,如果在此阶段错误地输入了电话号码,那么在数据旅程的后期,此信息可能会与其他系统中的记录发生冲突,从而很难确认客户的身份。
(2) 转换期间:随着数据从用户传递到用户和系统传递到系统,被转换。例如,当一个流程没有正确记录时,就不可能有效地跟踪这些数据的沿袭,结果,数据的质量就会受到影响。
想象一个场景,会计记录从财务部门的一名工作人员传递给另一名工作人员。如果第一位员工在转移记录之前未能更新记录,他们可能会无意中让客户跳过到期付款。
(3) 由于时效性::即使数据捕获阶段产生了高质量的数据,随着时间的推移,它也可能会减少。例如,有人可能会在捕获数据时提供正确的地址或职位,但如果同一个人改变了他们的工作或地址,则必须更新这些字段。
(4) 由于不一致的流程和标准:当您使用不同标准从不同系统捕获数据时会发生这种情况。例如,当您在一个系统中捕获计量单位时,您可能会使用 EA 或 LB 之类的代码。在另一个系统中,可能会使用不同的标准,例如 EACH 或 POUND。
以国家代码的类比来更详细地解释其中一些问题。许多系统要求用户输入国家代码以完成注册文件、进行预订等。在某些情况下,用户需要手动输入这些代码,而不是从预先建立的列表中选择一个选项。
问题是,不能保证每个用户都会输入相同的信息。事实上,这几乎是不可能的。当要求人们独立键入此信息时,会无意中为同一个国家/地区创建许多代码,并且系统将充满相互冲突的数据点。
分析阶段
由于多种原因,数据质量可能会在分析阶段受到影响。例如,字段可能被错误地映射,或者用户可能根据数据做出错误的假设。
这种缺乏连贯性和标准的缺失也会影响数字化转型。当公司合并时——糟糕的数据质量使这些合并变得困难。如果没有定义标准或常见问题,数据质量就会成为一个大问题。
当数据质量不完美时,它就会变得不可信,从而难以说服员工将其用于数据驱动的计划。
为什么需要独立的数据质量经理?
正如文章开头提到的,数据质量是数据治理计划的核心成果。因此,数据治理团队、小组和部门的一个关键问题是提高数据的整体质量。但是有一个问题:协调。
如果与来自不同部门的不同人谈论数据质量,总会得到不同的回应。例如,如果询问 ETL 开发人员他们如何衡量数据质量,他们可能会依赖一组特定的参数或规则来确保他们输入的数据符合要求。
如果源头质量不好,他们就不太可能举报,甚至不会将其视为他们的担忧。或者,如果与处理 CRM 系统的人交谈,他们将关注数据的一致性,因为他们无法匹配系统中的冲突术语。简而言之,每个人都从不同的角度看待数据质量。
由于大多数数据质量问题是由于跨多个应用程序的集成和数据转换问题而发生的,因此拥有一个独立的数据质量经理或数据治理经理来负责提高整个组织的数据质量非常重要。
因为有很多相互矛盾的意见,需要一个独立的机构来调解和实施全公司范围内的数据质量改进工作,没有偏见,并且基于重要性等级。该主体可以是数据治理经理或组。
为了有效地解决数据质量问题,需要确定优先级。应根据业务影响、流行程度和数据质量问题的复杂性等参数对这些问题进行优先级排序。
数据质量改进生命周期
每个人的个人数据质量问题对该个人都非常重要。但是,为了避免迷失在问题的海洋中,需要确定优先级。应根据业务影响、普遍性和数据质量问题的复杂性等参数对数据质量问题进行优先级排序。这能够有效地解决这些问题。
以下是用于提高数据质量的久经考验的策略:数据质量改进生命周期。
1. 定义
第一步是定义数据质量标准。这些标准将成为努力实现的基准。此步骤能够设定目标并建立关于如何提高数据质量最终发展业务的愿景。
例如,每次捕获社会安全号码时,都应该捕获九位数字。或者,每次收集电子邮件地址时,请确保输入两次作为辅助确认步骤。
2. 收集
接下来,需要使用框架记录组织中的所有数据质量问题,以定位数据质量问题。有两种方法可以成功地做到这一点。首先是在公司内部创建一个数据素养计划。
一旦组织内建立了广泛的素养,就可以建立一个报告机制,用户可以去那里交流他们的数据质量问题。此步骤的唯一目标是从所有来源收集数据质量问题,以便数据治理组将列出必须解决的问题。
捕获数据质量问题时,必须记录以下信息:
- 商业价值
- 问题所在
- 问题是什么
- 优先级(从客户的角度)
一旦在组织内建立了广泛的数据素养,就可以建立一个报告机制,用户可以去那里交流他们的数据质量问题。
3. 优先
下一部分是开发一种机制,帮助我们了解这些数据质量问题对业务的影响。这是数据治理经理需要做的最重要的任务。他们在评估中必须考虑以下几点:
- 商业价值
- 主要原因分析
- 解决问题的大致努力
- 更换管理层
此过程使治理团队能够有效地确定问题的优先级。这种优先排序过程通常会造成瓶颈,因为很难做出一致的决定。
以国家代码为例,不同的系统可能有不同的选择,要做出决定,需要有一个框架,而这个框架的核心是一个数据治理委员会。该委员会应由组织中所有不同业务部门的领导组成。
当数据治理经理提出问题时,需要将其提交给委员会进行评估。他们将根据包括成本/收益比和业务影响在内的许多因素来权衡问题。
当做出关键的数据质量决策时,需要对业务流程进行某种更改。实质上会导致额外的工作和支出,因此需要在跨部门、公正、委员会层面做出决定。
4. 分析
一旦确定了问题并确定了优先级,负责批准和解决问题的人员需要进行进一步的根本原因分析。这个过程涉及提出问题,例如每个问题的根源来自哪里。问题的真正原因是什么?
使用国家代码示例,需要确定这个无效字段是如何导致数据质量问题的。问题的根源是用户手动输入代码,还是因为公司购买数据而无法控制?
5. 改进
解决数据质量问题有四种关键方法:
- 可以通过直接使用源代码并在那里进行相关更改来手动修复问题。
- 可以在 ETL 管道中进行更改。为此,需要开发代码来决定如何通过已安装的集成处理数据,也称为 ETL 逻辑。
- 另一种选择是对特定流程进行更改。例如,在国家代码字段中选择数据的过程会发生变化。可以添加一个下拉菜单,而不是要求用户手动输入国家/地区代码,这样就别无选择,只能选择的国家/地区选择正确的代码。
- 第四种方法称为主数据和参考数据管理。当缺少主数据时,明确定义的数据质量问题会很明显。例如,可能需要手动输入客户名称字段,因为没有正确的主数据,所以没有其他方法。
一种常见的主数据管理解决方案是创建一个存储所有主数据的地方,其他系统可以使用密钥来引用这些数据。主数据管理需要大量资金并且可能相当复杂,但它非常有效。
参考数据通常是主数据可以参考的列表。与主数据不同,往往是相对静态的。采取措施管理参考数据,例如访问控制和关系映射,也将有助于提高数据质量。
6. 控制
该过程的最后一步是编写一组数据质量规则。这将确保如果再次出现此问题,则会创建通知或票证来解决问题。
通过这样的通知,可以更轻松地快速处理问题,而不必咨询多个人并进行复杂的分析。