需要元数据管理
组织中有效的元数据管理为数据提供正确的上下文和描述。此外,为了理解和信任数据,需要了解其背景——数据是如何产生的,以及是如何使用的。此外,需要知道基于这些数据做出的决策是什么,以及如何利用它来获得更好的竞争优势。
为了在这个新的数字时代取得成功,组织需要创建细致的数据产品。数据产品不仅仅是报告或分析,而是一个全面的解决方案。在正确的时间和正确的设备上向正确的人提供分析、比较、富有洞察力的信息。
如果没有完整的元数据管理解决方案,就很难创建这些数据产品。随着数据量的增长和大数据技术的爆炸式增长,CDO(首席数据官)必须着眼于通过元数据更有效地管理其数据。根据最新估计,到
2022 年,元数据管理行业规模将达到 78.5 亿左右,并且将逐年增长 27%。
什么是元数据?
元数据是“提供有关其他数据的信息的数据[信息]。这种理解来自于在上下文中设置数据,允许被重用和检索以用于多种业务用途和时间。”根据印度大学,
“元数据是关于数据的数据,是关于特定数据集、对象或资源的描述性信息,包括其格式、收集时间和收集者。虽然元数据最常见的是指网络资源,但也可以是物理或电子资源。可以使用软件自动创建或手动输入。”
结构化或结构化的一些典型元数据元素非结构化数据是: 标题、描述和摘要;标签和类别;创建时间和创建者;最后修改者和时间;谁可以访问或更新。
除此之外,组织中的元数据分类为:
结构化数据的元数据
包括数据库表的列结构、CSV 文件的标题行、来自 JSON、XML 和 Avro 文件的列定义。
业务元数据
包括安全级别、隐私级别和首字母缩写词级别。IT
和业务都需要高质量的元数据来理解手头的信息。如果没有有用的元数据,组织就有根据错误数据做出错误决策的风险。
什么是元数据管理?
图书馆目录是元数据管理的经典和最古老的例子之一。查找用于在图书馆目录中查找书籍作者或主题并搜索所需书籍的书籍。接下来是雅虎!搜索引擎,在其中索引了来自各个网站的所有元数据。最后,当谷歌通过处理实际数据来设计元数据时,革命发生了。
为用户提供了前所未有的深入搜索体验,使用户能够在所需的上下文中进行搜索。然而,企业元数据管理仍处于图书馆目录级别(手动完成)或 Yahoo
级别(通过使用各种元数据管理产品完成)。
一个理想的元数据管理程序应该是数据驱动的并从上下文中派生出来。提供所有常见问题的答案,例如关于数据的人、内容、时间、地点和原因是元数据管理。
应该如何进行有效的 MDM?
以下是确保它的几个步骤:
布局政策和程序
有效的元数据管理始于元数据的政策、程序、工具和人工管理。员工是元数据管理的中心。公司必须有工具让员工之间就数据和元数据进行顺畅的交互。以下应该是有效元数据管理的角色:
CDO 和高管的角色
定义元数据管理规则,并使用一些工具来执行它们。这些规则应包括各种安全方面和元数据更改方法。
分析师和其他数据公民的角色
分析师应遵循元数据管理规则。此外,如果他们询问有关数据和元数据的深刻问题,这些问题和评论可以被保存。稍后,这可以使其他分析师在研究相同数据时受益。
MDM 工具的功能
应该有强大的工具来提供对元数据的访问,并且它们应该执行高管定义的所有规则。这些工具可以提供的一些功能包括:
- 样本数据
在这里,我们在生成样本数据的数据上打开表格,为元数据提供数据上下文。因此,我们丰富了我们对元数据的理解。
- 数据统计(配置文件)
统计信息提供了一些常见问题的答案,例如计数、不同值、最常用的值、空计数、最大值和最小值。
- 血统
能够帮助了解数据的来源、传输方式以及在数据到达之前发生的各种转换。此外,能够了解这些数据的其他用途。
- 以前的沟通
沟通是有效元数据管理的关键,因此将所有与元数据相关的对话集中在一个地方很重要。此外,有关该元数据的所有评论和评论也应在此处提供。
- 与其他元数据的关系
对于 MDM
工具来说,找到数据之间的关系以使数据搜索成为可能至关重要。有多种方法可以实现这一点——手动、人工管理、通过元数据语义匹配自动或通过数据匹配自动。