数据沿袭记录了数据通过企业的IT系统的过程,展示了数据如何在它们之间移动,并在此过程中针对不同用途进行转换。它使用元数据(关于数据的数据)使最终用户和数据管理专业人员能够跟踪数据资产的历史,并获取有关其业务意义或技术属性的信息。
例如,数据沿袭记录可以帮助数据科学家、其他数据分析师和业务用户了解他们使用的数据,并确保这些数据与他们的信息需求相关。数据沿袭在数据治理、主数据管理和法规遵从计划中也发挥着重要作用。在这些举措的其他方面,它简化了两个关键的数据治理程序:分析数据质量问题的根本原因和数据集更改的影响。
数据沿袭信息主要是从操作系统(在处理数据时)收集,以及从数据仓库和数据湖收集-这里存储数据集用于BI和分析应用程序。除了详细的文档之外,还可以创建数据流图和图表,以提供映射到业务流程的数据沿袭的可视化视图。为了简化最终用户对沿袭信息的访问,它通常被合并到数据目录中,其中列出了数据资产和与之相关的元数据。
为什么数据沿袭很重要?
有关数据沿袭的信息对于数据管理和分析工作至关重要。沿袭详细信息可以帮助企业有效地管理和使用数据。如果无法访问这些详细信息,企业将很难充分利用数据的潜在商业价值。
以下是数据沿袭提供的好处:
更准确和有用的分析。通过让分析团队和业务用户了解数据的来源及其含义,数据沿袭提高了他们的能力,让他们更快查找BI和数据科学使用所需数据。这会带来更好的分析结果,并使数据分析工作更有可能提供有意义的信息来推动业务决策。
更好的数据治理。数据沿袭还有助于跟踪数据和执行治理过程的其他关键部分。它可以帮助数据治理经理和团队成员确保数据有效、干净和一致,并且得到妥善保护、管理和使用。
更严格的数据安全和隐私保护。企业可以使用数据沿袭信息来识别需要特别强安全性的敏感数据。它还可用于根据安全和数据隐私策略设置不同级别的用户访问权限,并评估潜在的数据风险,作为企业风险管理策略的一部分。
提高法规合规性。数据沿袭提供更好的安全保护,这可以帮助企业确保他们遵守数据隐私法和其他法规。有据可查的数据沿袭还可以更轻松地进行内部合规审计和合规级别报告。
简化数据管理。除了数据质量改进之外,数据沿袭还促进了各种其他数据管理任务。示例包括管理数据迁移、打破数据孤岛以及检测和解决数据集中的差距。
数据沿袭与数据分类和数据出处
数据沿袭还与数据分类和数据出处这两个数据管理流程密切相关。以下让我们看看它们是什么以及它们与数据沿袭的区别和关系。
- 数据分类。这涉及根据数据的特征将数据分配到不同的类别,主要是出于安全和合规目的。分类用于根据数据的敏感程度对数据进行分类,例如,作为个人、专有、机密或公共信息。这样做可以将需要更高级别安全性和更严格访问控制的数据集与不需要的数据集分开。数据沿袭提供有关数据集的信息,有助于对其进行分类。
- 数据出处。有时被认为是数据沿袭的同义词,或者数据出处被视为更狭隘地关注数据的起源,包括其源系统及其生成方式。在这种情况下,数据沿袭和数据出处可以协同工作,后者提供有关数据来自何处及其含义的高级文档。
数据沿袭和数据治理
数据治理的本质是创建企业数据政策,并确保人们遵守这些政策。这样的政策可以跨越意图,包括关于数据保护、验证和使用的指令。数据治理经理和数据管理员必须收集业务用户的数据需求,并与决策数据治理委员会的成员合作,就通用数据定义达成一致,指定数据质量指标并制定政策和相关程序。
然而,在定义数据治理策略和部署它们之间存在差距,弥合此差距是一个巨大的挑战。这就是数据沿袭的用武之地。它记录了数据源和流,使治理团队能够监控数据如何在系统中移动以及如何修改和使用。沿袭信息可帮助他们确保适当的数据安全和访问控制到位,并根据治理策略存储、维护和使用数据。
数据沿袭还可以简化与治理相关的特定任务。例如,如果没有办法确定数据错误是从哪里引入系统,那么数据管理员和数据质量分析师就很难识别和修复它们。这会产生后果:如果没有发现数据缺陷,企业可能会受到不一致或不准确的分析结果的困扰,从而导致错误的业务决策。
在数据错误的根本原因分析中,沿袭记录提供了可视性,让企业可了解数据集所经历的处理阶段顺序。企业可在每个阶段检查质量级别,以找出数据错误的来源。从第一次发现错误的地方开始向后工作,数据管理员可以检查数据是否符合早期的预期或当时是否包含错误。通过查明数据在进入时合规但在退出时存在缺陷的阶段,参与数据治理计划的工作人员可以消除错误的根本原因,而不仅仅是纠正不良数据。
在执行影响分析以掌握源数据格式和结构更改引起的问题时,数据沿袭也很有用,这是当今日益动态的数据环境中的常见问题。
当数据发生变化时,下游可能会产生意想不到的后果。通过从数据创建或收集点开始工作,数据管理者可以依靠数据沿袭文档来帮助跟踪数据依赖关系,并识别受更改影响的处理阶段。然后可以重新设计这些阶段以适应变化,并确保数据在不同系统中保持一致。
关键数据沿袭技术
企业可以使用各种技术来收集和记录数据沿袭信息。它们不一定是相互排斥的,企业可能会使用不止一种沿袭技术,具体取决于其应用程序需求和数据环境的性质。可用的方法包括:
- 数据标记。通过检查元数据,可以将标签应用于数据集,以帮助描述和表征它们,以用于数据沿袭目的。标记可以由数据管理员、其他数据治理团队成员和最终用户手动完成,也可以由软件自动完成。例如,数据治理软件中内置的数据沿袭工具和沿袭功能通常包括自动化算法-用户可以运行以标记数据集。
- 基于模式的沿袭。这种方法在多个数据集中寻找模式,例如相似的数据元素、行和列。它们的存在表明数据集彼此相关,并且可能是数据流的一部分,而数据值或属性的差异表明数据在从一个系统移动到另一个系统时发生了转换。然后可以将数据转换和数据流记录为数据沿袭记录的一部分。
- 基于解析的沿袭。在这种情况下,数据沿袭工具解析数据转换逻辑、运行时日志文件、数据集成工作流和其他数据处理代码,以识别和提取沿袭信息。解析提供了一种端到端的方法来跟踪不同系统中的数据沿袭,并且可以比基于模式的沿袭更准确,但也更复杂。
另一种方法是完全手动的:采访业务用户、BI 分析师、数据科学家、数据管理员、数据集成开发人员和其他工作人员,了解数据如何在系统中移动以及如何被使用和修改。收集的信息可用于绘制数据流和转换,也许可以作为数据沿袭计划的起点,然后再部署更自动化的技术。
数据沿袭优秀做法
以下是一些最佳做法,可帮助保持数据沿袭过程正常进行,并确保它提供有关数据集的准确和有用的信息:
- 从一开始就让业务主管和用户参与进来。数据治理计划需要主管的支持和参与才能成功,这同样适用于数据沿袭。获得高级管理人员的支持是获得批准和资金的必要条件。业务经理和员工也应该参与,确保数据管理团队充分了解数据在业务流程中的使用方式,并验证数据沿袭信息的相关性和有效性。
- 记录业务和技术数据沿袭。业务沿袭高度关注数据的来源、流动方式及其业务环境。技术沿袭提供有关数据转换、集成和管道的详细信息,以及表、列和查询级沿袭视图的组合。收集这两个信息,一方面可为业务用户和分析团队提供有用的信息,另一方面可为数据架构师、数据建模师、数据质量分析师和其他IT专业人员提供有用的信息。
- 将数据沿袭与实际业务和IT需求关联。数据沿袭不应该是一项学术活动。为了产生预期的收益,它需要帮助实现更好的业务决策和战略,以及更有效的数据治理、改进的数据质量和其他数据管理收益。否则,这很可能是一种浪费的投资。
- 部署企业范围的数据沿袭方法。只关注某些数据集的数据沿袭过程也不会像它可能的那样有用。要真正获得回报,它应该是一项涉及企业所有数据的综合工作,并有单一的元数据存储库支持沿袭工作。
- 创建包含嵌入式数据沿袭信息的数据目录。对于BI和分析用户来说,查找和理解相关数据通常是巨大的挑战。通过构建数据目录,数据管理团队可以为他们提供可用数据资产的清单,其中还包括沿袭信息。
在数据沿袭工具中寻找什么
手动收集元数据和记录数据沿袭需要大量资源投资。这也容易出错,并可能会导致大问题,尤其是在企业越来越依赖数据分析来推动业务运营的情况下。因此,为了更好地完成数据治理工作,应该寻找工具来管理数据沿袭表示,并在整个企业中自动映射它们。
如果你决定推进技术评估流程以进行可能的购买,你应该寻找可以执行以下操作的数据沿袭工具:
- 本地访问广泛的数据源和数据产品,调查它们包含的元数据并收集它以用于数据治理,越来越多地通过使用人工智能和机器学习算法;
- 将捕获的元数据聚合到集中的存储库中;
- 推断数据类型,并将参考数据的常见用途与来自不同系统的数据元素相匹配;
- 向最终用户提供汇总元数据的简化展示,并支持协作以验证元数据描述;
- 记录数据如何流经组织系统的端到端映射;
- 生成数据沿袭的可视化表示;
- 提供API,以便开发人员构建可以查询沿袭记录的应用程序;
- 创建倒排索引,将数据元素名称映射到它们在不同处理阶段的用途;
- 提供搜索能力,以快速追踪从数据源点到下游目标的数据流;
- 使用户能够监控正向和反向的数据流。
数据沿袭供应商
- 销售数据管理平台的大型IT供应商,例如IBM、Informatica、Microsoft、Oracle、SAP和SAS,以及云平台提供商AWS和Google Cloud;
- 拥有广泛产品组合的软件供应商,包括数据管理和治理工具,例如Hitachi Vantara、OneTrust、Precisely和Quest Software;
- 专注于数据管理和治理的供应商,例如ASG Technologies、Ataccama、Boomi、Collibra、Semarchy、Syniti和Talend;
- 元数据管理和数据沿袭专家,例如Alex Solutions、Manta和Octopai;
- 数据目录工具供应商,例如Alation、Atlan、world和OvalEdge。
为数据工程师和分析团队提供自助式数据准备软件的供应商(例如DataRobot和Alteryx的Trifacta部门)也支持数据沿袭功能,各种BI和分析工具供应商也支持在其上运行的应用程序中使用的分析工具。