咨询和托管服务提供商Onica公司首席解决方案架构师Mark McQuade学习和拓宽了他对从Docker和Kubernetes到人工智能和深度学习的各种知识。McQuade分享了对数据池的看法。
为什么组织使用数据湖?
数据湖用例的范围从数据科学家开发的机器学习算法到构建统计可视化,以及使用生成的见解来指导业务决策。
为什么数据湖如此复杂?
随着数据每五年增长10倍,数据平台需要扩展1000倍才能满足未来15年的存储和处理要求。采用数据湖可以减轻这种负担,但是由于数据清理、数据准备和安全配置的复杂性,建立数据湖的过程涉及一系列步骤,这些步骤可能变得非常繁琐,将持续数月之久。此外,在数据湖的整个生命周期中,还涉及其他人工步骤,例如管理和监视ETL(提取、转换、加载)作业,基于数据更改更新元数据,维护清理脚本等。
建立数据湖需要多长时间?
建立一个完善的数据湖可能既困难又耗时,这个过程可能需要三到六个月的时间。使用AWS Lake Formation可以简化以往花费大量人力构建数据湖的工作,并且可以将构建数据湖的时间减少到数周,不必那么复杂或花费那么长时间。
简化数据湖有什么好处?
组织简化数据湖可以节省大量的时间和减少麻烦。通过完善组织对数据湖的维护,可以减少保持一切正常运行所需的内部专业知识和资源,使IT团队能够专注于更紧迫的项目,从而从长远来看节省了组织成本。
数据还可以帮助组织预测客户行为,自动化流程以提高效率,除了自动化客户服务之外,还可以通过速度和可用性增强产品供应。这些用例要求数据是安全的和实时可用的,随着越来越多的人访问数据,重要的是数据平台是灵活和可扩展的。AWS Lake Formation可以解决所有上述问题。
组织如何简化数据湖?
建议使用AWS Lake Formation,它可以消减很多人工工作,并且可以将构建数据湖的时间减少到数周,它还允许组织以三种方式简化数据湖:
- 使用蓝图来摄取数据:能够以大容量或增量负荷摄取数据。如果选择增量加载以进行摄取,则可以指定要增量加载的表和列,并设置一些书签键,并根据自己的偏好指定键排序顺序。设置完所有这些参数后,就可以监视增量导入,以检查摄取是否成功。
- 授予权限以安全地共享数据:在摄取数据之后,可以为用户分配对保存数据库中数据表的访问权限。这些权限可能特定于每个用户,具有可单独选择的选项,例如创建、选择、插入、更改或删除数据。
- 运行查询:提取数据并定义安全权限之后,可以使用Amazon服务(例如Amazon Athena)运行查询,这些服务利用数据湖中表中的数据。与人工工作相比,使用AWS Lake Formation来创建和管理数据湖是一个更简单、直观并且更快的过程。
组织是否还有其他方法可以降低其不采用这些特定步骤或Amazon的数据湖的复杂性?
虽然这三种超大规模方案都提供了管理数据湖的方法,但对于组织而言,在采用新技术之前先问自己要解决的问题始终很重要。尽管简化数据湖对于某些组织而言可能是关键,但可能存在只能用另一种解决方案解决的情况。
组织在简化其数据湖时绝对不应该做哪些事情?
组织需要避免内部部署工作,并坚持使用无服务器数据湖。无服务器的数据湖可以使IT团队有效地进行扩展,而内部部署则需要频繁的软件升级和对物理硬件的关注。
建立数据湖时,可能会花费大量时间和精力,组织可能会想办法走捷径,但是当涉及到数据和将为组织的数据提供强大动力的数据平台时,需要避免这种走捷径的举动。
组织如何才能确保在构建数据湖时考虑到未来因素?
确保组织的数据平台是为长期成功而不仅仅是为了满足当前需求而构建的。例如,组织可能此时对机器学习不感兴趣,但是在接下来的两到三年内,很可能希望对数据进行一些预测。组织确保拥有一个健壮、可扩展且安全的数据平台也是一个好习惯,这将使组织的业务和数据在未来几年内都能正常运行。