企业对良好数据质量的需求日益增长,人们需要了解如何获得良好的数据质量以及它如何影响决策。
搜索引擎上有关“数据质量”这一术语多达600万项,这清楚地表达了数据质量的重要性及其在决策场景中的关键作用。了解数据有助于对其进行分类和鉴定,以便在所需场景中有效使用。
了解数据质量
高质量的数据是准确、一致、可扩展的。数据还应该有助于决策、运营和规划。另一方面,糟糕的数据质量会导致新系统部署延迟、声誉受损、生产力低下、决策失误以及收入损失。根据Data Warehousing研究所发布的一份报告,质量较差的客户数据每年给美国企业造成大约6110亿美元的损失。研究还发现,40%的企业由于数据质量不足而遭受损失。
全球各地的企业都在大量投资于数据管理和处理以获取高质量的数据,但真正的问题在于定义数量质量是什么。在任何情况下,大多数都引用了几个共同表征数据质量的属性。
定义数据质量的七个特征
- 准确性:数据是否准确地代表了真实世界的对象?
- 完整性:数据在更新之间是否保持完整和未损坏?
- 一致性:跨系统存储的信息是否一致?
- 完整性:数据的全面性如何?
- 有效性:信息是否符合企业定义的特定格式或范围?
- 及时性:信息是最新的吗?它可以用于决策吗?
- 可访问性:数据是否易于访问、理解和使用?
有几个要素决定了数据质量,每个企业都会根据自己的需求对功能进行优先级排序。根据阶段和增长甚至当前的商业周期,这可能因行业而异。但关键是在评估数据时定义关键要素。这些特征定义了数据的质量和准确性。因此,它可以帮助企业更好地定位,以便有效地使用这些数据并实现其业务目标。
确保更好的数据质量的方法
(1)认识到数据质量的重要性:数据的主要目的是推动业务发展。与其让IT部门控制数据质量,不如让企业更好地配备主要用户来定义有质量数据的参数。如果商业智能与底层数据密切相关,则更有可能采用有效的方法来帮助企业优先选择关键数据。
(2)避免单一思维:并非所有类型的数据都具有相同的准确性。对于数据质量,并没有“一刀切”的政策。大量的数据来自不同的来源,因此并非所有形式的数据都具有相同的质量或相同的指标。例如:在对社交媒体数据进行情感分析时,达到80%的准确度就足够了,而对于银行和金融服务业等行业来说显然不够。因此,在分析之前需要对数据进行处理。
(3)关注数据旅程的每个阶段:每个企业都希望通过采用企业级数据战略的整体方法实现数据驱动。此外,他们还希望优化技术投资并降低成本。在这种情况下,企业应将数据视为一种获取具有价值见解的资产。
(4)避免不必要的数据:企业每天都在各种操作中捕获和使用数据。他们拥有的数据越多,错误的可能性就越大。企业需要接受数据并不总是完美的现实,了解这一点将使企业快速发现问题并获得更大的成功。
(5)承担责任:不同企业的数据因其规模、业务模式、财务状况和数据战略而异。企业中的每个人都要为数据质量差负责。这是一个业务问题,不能仅由IT部门负责。通过控制数据质量,企业可以提高效率、降低成本,并改进决策。
(6)使用数据管道设计避免重复数据:重复数据可以是从同一数据源创建的全部或部分数据。人为错误会导致大多数数据重复。这会导致报告不准确,生产力下降,营销预算浪费。需要在企业级别创建清晰、逻辑的数据管道并在整个组织中共享以避免重复。
(7)实施数据治理策略:提高数据质量的最有效方法是定义数据的人员、内容、方式、时间、地点和原因。确保企业中的每个人都遵守这些政策也很重要。这些政策应该通过清楚地记录它们来执行,以便员工可以访问它们。这不仅可以提高安全性和合规性,还有助于提高业务绩效。
(8)投资内部培训:这可能是一种变革性的方法。获得良好的数据质量需要专业知识和经验,这对于入门级高管来说是难以实现的。这可以通过培训来实现。为了获得竞争优势,培训团队、正确管理数据、认识到其内在价值并鼓励团队和高管学习基本概念、原则和质量管理实践至关重要。这有助于了解高质量数据的好处以及由于数据质量不足而产生的成本。
结论
根据调研机构毕马威公司进行的一项研究,84%的首席执行官担心他们在决策时所依赖的数据质量。由于首席执行官是企业的主要决策者,因此确保数据质量方面的信任和透明度至关重要。这将使企业能够节省时间、降低成本、做出明智的决策,并实现准确的分析以提高业务绩效。