根据 Gartner 的数据质量市场调查,低质量数据每年使公司损失约 1500 万美元,那么如何通过创建有效的数据质量规则来提高数据质量呢。
什么是数据质量规则
数据质量规则是企业对其数据设定的要求。这些要求旨在满足两个相互依存的目标:
1.定义数据应遵循的格式以及数据元素之间应存在的依赖关系。
2.作为企业根据这些要求衡量和检查其数据质量的参考。
比方说,对于即将发起的电子邮件营销活动,我们需要优化工作和成本,需要决定筛选出无效电子邮件。为此,创建简单的规则:
- 电子邮件必须包含“@”符号。
- '@' 只能使用一次。
- 电子邮件必须包含以下任何或所有内容:字母、数字、非字母字符,例如,! # $ % & ' * + – / = ? ^ _ ` { 。
通过仅向经过验证的电子邮件发送消息,企业将能够改善与客户的沟通,并更好地评估活动在电子邮件打开率、点击率等方面的成功。
然而,这套电子邮件数据质量规则绝不是详尽无遗的。例如,如果进行有针对性的营销活动,那么再创建一个规则是有意义的。这将帮助企业避免在消息开头出现令人尴尬的“亲爱的 N/A”或“亲爱的……”:
- 电子邮件引用的“客户全名”字段不得为“空”。
如果想验证名称的拼写以正确称呼客户,可以提出额外的规则:
- 客户的全名只能由字母组成;不允许使用其他字符。
- 只有客户姓名、中间名(如果有)和姓氏中的首字母必须大写。
创建有效数据质量规则需要考虑的因素
1.业务主题专家需要深入参与
不同的部门有不同的优先事项。要制定全面的数据质量规则,应该正确定义所有主题专家并明智地整合他们的要求。如果不从不同部门的角度看待数据,可能会破坏所有数据管理工作。例如,银行的贷款部门会将贷款金额、贷款到期日和月利率视为关键数据。他们很可能会认为客户名称或客户访问过的分支机构的前缀不值得填写。相反,市场部对贷款相关信息不太感兴趣,但他们会找到客户数据对于有效沟通和创建单一客户视图非常重要。
2.数据质量规则的数量要适中
在争取提高数据质量的过程中,重要的是不要忘形于太多的质量规则。过多的数据质量规则显着降低系统性能,因为需要更多的计算能力和时间来运行检查。根据 10 条规则检查字段与根据 100 条规则检查字段不同。因此,应该找到一个很好的平衡点。
3. 需要采用循序渐进的方法
我们不必创建涵盖所有数据的规则,也不必一口气解决所有问题。我们应该对数据进行分类并定义需要立即关注并尽最大努力的关键元素。例如,要开展有针对性的营销活动,“客户姓名”、“出生日期”和“电子邮件”字段至关重要,而家庭住址可被视为有用的额外信息。完成关键数据后,可以继续处理 #2 优先级,依此类推。简而言之,数据质量管理是接力赛,而不是短跑,然后采取相应的行动。
4.单独对待数据库的每个字段并相应地创建规则
有多种数据质量特征,我们的任务是确定哪些最适合特定领域。我们以'员工全名'和'员工联系电话'为例。第一个字段包含关键信息,而第二个字段不包含。所以,“员工姓名”要满足完整性、唯一性和准确性的要求,而“员工联系电话”——准确性和有序性。这些特征应反映在数据质量规则中,例如:
- 员工全名不得为 N/A(以确保完整性)。
- 一个'员工全名'必须对应一个'身份证号码'(以确保唯一性)。
- 员工全名必须至少包含一个空格,必须仅由汉字组成,不允许使用数字、字母或其他字符(以确保准确性和完整性)。
- 员工联系电话必须仅包含数字(以确保准确性和有序性)。
- 员工联系电话必须采用 +1 NXX-NXX-XXXX 格式,其中 N 表示 2 至 9 的数字,X 表示 0 至 9 的数字(以确保准确性和有序性)。
5. 为数据质量规则选择集中存储还是本地存储
如果是大型多元化企业,应该决定是将规则集中存储还是在每个企业本地存储。每种方法都有其优点和缺点。例如,在完全集中的情况下,将采用标准方法来捕获客户的姓名,无论他们与什么业务进行交互。在分散数据管理的情况下,可以获得更大的灵活性,因为将只关注与特定业务方向相关的数据规则。
综述
如果决定管理数据质量,将不可避免地要处理数据质量规则。建立这些规则需要考虑来自不同部门的意见、不要创建太多规则,否则会损害系统的性能、不必一次完成所有操作、为数据库的每个字段选择单独的数据质量特征、为数据质量规则做出集中存储还是本地存储的决策。