GDPR和CCPA等数据隐私法本应遏制大数据繁荣时期的过度行为,并引导我们进入数据文明的新时代。然而数据集成提供商StreamSets表示,情况并非如此,该公司表示,在数据治理方面,我们仍然生活在“狂野的西部”。
尽管GDPR和CCPA(后来被CPRA取代)已经分别阻止了欧盟和加利福尼亚州一些最公然的侵犯数据隐私和安全的行为,但这些法律(以及其他国家的其他类似法律)并没有影响到世界各地数万家正在收集、,存储和处理数据的机构组织。
StreamSets的一份题为《从混乱中创造秩序:数据狂野西部的治理》的报告称,尽管有新的法律,但许多因素导致了建立坚实的数据治理文化和实践的困难。
一年多前被Software AG收购的StreamSets调查了来自美国、英国、德国、法国、西班牙、意大利和澳大利亚大型企业的约650名数据决策者和从业者,以收集有关该领域数据治理情况的数据。这一结果将数据治理归咎于一些常见的“罪魁祸首”,但也揭示了成功的新障碍。
例如,54%的受访者表示,跨本地和多个云环境的去中心化数据环境促成了“数据狂野的西部”。另有一小部分(57%)表示,数据供应链的碎片化“使他们的组织更难理解、管理和管理数据”。
StreamSets发现企业声称拥有的数据治理功能类型与他们在系统中实现的实际功能之间的差距。例如,调查显示,71%的受访者表示“他们有信心对自己的数据进行完全的可见性控制。”
然而,调查发现,StreamSets在其报告中表示,“44%的组织无法维护治理和自动化数据的策略控制,42%的组织无法执行一致的安全措施,这是一个明显的漏洞。”
该公司表示,缺乏对数据管道的可见性会增加其他数据安全问题的风险。“研究表明,48%的企业无法看到数据何时在多个系统中使用,40%的企业无法确保数据是从最佳来源提取的。”报告说,“此外,54%的人不能将管道与数据目录集成,57%的人不能把管道集成到数据结构中。”
谁负责清理数据混乱?这是另一个有点模糊的区域。大约一半(47%)的StreamSets调查受访者表示,集中的IT团队负责管理数据。然而,18%的人表示,业务线承担主要责任,而在35%的情况下,业务线由业务和IT部门分担。
StreamSets第二项调查突显了在现代企业中运行数据管道的困难。许多公司有数千条数据管道在使用,很难按照业务要求的速度构建、管理和维护这些管道。
StreamSets在《揭开隐藏的数据集成问题的盖子》一书中表示:“对数据的需求高于大多数技术团队提供数据的能力。”该书基于上述相同的调查。“超过一半(59%)的受访者表示,数字化转型优先事项的加速给数据供应链带来了重大挑战。”
尽管在ETL/ELT、数据转换和数据管道构建方面取得了进展,但格式不一致的数据仓库的快速扩展意味着,通常需要训练有素的数据工程师的专业知识来构建一次性(定制)数据管道。这些数据工程师根本无法满足需求。
因此,68%的数据领导者表示数据摩擦“阻碍了他们以业务要求的速度交付数据”,或者65%的人表示“数据复杂性和摩擦可能会对数字化转型产生严重影响”,这并不奇怪。尽管已经制定了法律,防止消费者遭受一些最严重的数据隐私和安全滥用,但事实仍然是,许多企业内部的数据管理仍然很差。15年前引发大数据现象的因素——数据量爆炸、数据速度上升和准确性存疑——自那以后,其规模只会越来越大。
这些年来,数据管理工具已经稍微好了一些。数据网格(data mesh)和数据经纬(data fabric)等体系结构有所帮助,数据目录、ETL/ELT、数据转换和数据可观察性的增量增强在许多情况下帮助我们跟上了变化的步伐。但很明显,还有很多工作要做,离实现大数据完全治理还有一段路要走。