在最近与Tredence数据工程和治理经理Elliot Huebler的一次交谈中,我们深入探讨了错综复杂的数据治理世界,以及数据编目如何在集中和简化这些工作方面发挥关键作用。
Huebler在密歇根大学的银河演化天体物理学专业背景下带来了丰富的经验,他揭示了企业所面临的挑战,以及Tredence为克服这些挑战而采用的创新解决方案。他说:“我喜欢治理和编目,因为它是人类和数据的交叉点。”
Huebler为Tredence的历程提供了见解,强调了他们从一家AI、ML解决方案公司到专注于数据工程的演变。Huebler非常强调数据治理,描述了构成有效治理的各种支柱,从数据编目到数据质量、谱系、主数据管理、安全、隐私政策和组织结构。
数据目录在治理中的作用
正如Huebler解释的那样,数据编目成为Tredence首批治理项目之一。Tredence认识到跨不同支柱实施各种利基解决方案的复杂性,确定了集中化方法的必要性。
数据目录不仅是为数据民主化设计的工具,也是为集中治理举措而设计的工具,成为他们战略中的关键参与者。“数据编目、数据质量、数据谱系、主数据管理、安全、隐私政策都是数据治理的支柱,”他说,“我们需要一个利基和集中化的解决方案来解决所有这些问题。”
Huebler承认治理需求的多样性,概述了Tredence用于不同治理支柱的多种工具。他解释说:“从Alation、ColLibra和Microsoft Perview等数据目录工具,到Databricks的统一目录等企业数据目录,前景是广阔的。”用于数据质量、安全性和主数据管理的定制解决方案和供应商工具在他们的方法中也发挥着关键作用。
Huebler详细介绍了Tredence构建定制数据目录的方法。他说:“通过从小规模开始并专注于特定的用例或领域,我们创建了一个强大的数据用户之旅,整合了数据质量检查、谱系和其他相关元数据。”这一迭代过程使他们能够展示定制目录的整体价值,为进一步扩大规模铺平道路。
通过数据目录提高可访问性和透明度
在将数据目录与图书馆的杜威十进制系统进行比较时,Huebler强调了目录在使数据易于导航方面的基础作用。“数据目录的好处之一就是它,它几乎从来没有真正查看过数据,它只是在查看元数据。”Huebler说。以元数据为中心的方法确保了可扩展性和适应性,使目录能够自动获取更改和添加内容,而不会影响数据质量或安全性。
在安全方面,Huebler澄清说,虽然数据目录侧重于元数据,但分析实际数据的工具或解决方案对于评估和改进数据质量和安全性是必要的,然而,目录可以捕捉和显示这些评估的结果,有助于全面的治理概述。
对于可伸缩性,Huebler说“如果要添加新的表,就必须删除旧的表。它会自动拾取这些资产,扫描它们,然后一旦扫描,你就会在目录中获得该资产的页面。目录中的那一页有一系列不同的字段,你可以填写有关元数据的信息,而这些字段可能就是对表格的描述。”
Huebler还表示,Tredence正在试验大量的生成性人工智能能力,如LLMS,以使数据目录更容易,更具互动性,这将在客户中推动更多的采用。
数据目录采用面临的挑战和解决方案
Huebler解释说:“我们看到的最常见的事情之一就是用户对目录不感兴趣。”Tredence的客户面临的一个共同挑战是采用数据目录。Huebler认为,缺乏用户参与度是一个重大障碍,他将其归因于带宽限制、缺乏高管赞助以及人们认为缺乏价值等因素。
为了解决这一问题,Tredence采用了创造性的策略,包括管理竞赛和游戏化的方法,使数据体验变得愉快和有价值。“我们制作了一大堆材料和演示,只是为了真正将我们的倡议在整个企业中社会化。希望我们能看到这会带来更高水平的管理参与度。”
有了数据目录,你就可以在它的基础上建立一层可视化。“你可以获得目录和Power BI仪表板的用户群参与,以及目录管理过程的进度。因此,对于基于用户的参与度,我们希望追究管理人员的责任。”
Tredence刚刚花了三个月的时间将20名用户添加到目录中。“这很可能是因为我们的网络研讨会,还有另一个监测因素,那就是目录管理的进展,”他补充道。除了用户基础,Tredence还希望衡量我们治理目标的成功程度,为此,公司正在研究新的方法。
Huebler强调了高管买入对推动采用率的重要性,并强调了监控工具的必要性。成功的衡量标准包括用户参与度、内容增长和实现治理目标的进展。展望未来,Huebler设想数据目录将演变为具有更多治理功能,并预计人工智能领域将出现令人兴奋的发展,特别是在语言模型领域,使数据交互更加直观和用户友好。