行业专家已经进行了研究,评估了各种云数据仓库(CDW)选项,在整个组织中获得了正确的买进和批准,并准备在Snowflake、Redshift、DeltaLake或其他云数据仓库(CDW)上继续前进。新的商业智能(BI)、分析和机器学习机会现在清晰可见。云数据仓库(CDW)与它们的内部部署前辈相比,在速度、效率和成本方面具有优势。但前方仍有艰苦的工作要做,你们现在所做的选择可能意味着数日、数月或数年之后你们将取得成功。
尽管提取、转换和加载(ETL)的世界已经从其内部部署的根源发展起来,但构建和管理将向数据消费者交付分析就绪数据的数据管道仍然是非常资源密集型的。以下是减少这些资源需求并缩短成功发行云数据仓库(CDW)的时间的五种方法。
1.为任何数据源查找连接器
您可能有一个深厚而强大的数据工程师团队,他们过去曾为源代码集成编写过代码。他们甚至可能喜欢这项工作,尽管大多数人都很乐意离开这项乏味的工作。无论如何,这是加速数据仓库迁移的最大机会之一。在您之前,许多团队都需要数据库、文件、应用程序或事件流的连接器。有各种可用的预构建连接器工具,涵盖了大多数组织的大部分数据源。当然,也可能有一些您的行业甚至企业所独有的数据源。但是,就像使用预构建的连接器一样,将受益于具有框架的供应商的经验以及处理自定义源的特定经验。
2.自动化基础设施
通过迁移到云,您已经离开了在数据中心管理物理服务器的世界,但如果不小心,您仍然可能会让基础设施工作压倒您的团队。管理数据的重复移动和准备需要调度任务及其依赖关系、配置计算集群、优化成本和性能等等。有不同的选项可以减轻您的团队的工程时间,从开源编排器和无服务器选项到完全管理的管道工具。
3.民主化数据生产
通常认为数据民主化主要是一个成功的云数据仓库(CDW)项目的结果。为更多的数据消费者提供仪表板和数据集当然是数据素养组织的关键。让数据的生产者——那些最熟悉数据的含义和历史的人——能够获得数据也很重要。如果没有这一点,就需要一个中央团队负责选择数据,并将具有意义和价值的数据交付给数据消费者。他们要么花费无数小时研究每个域和数据源,要么最终生成用户无法理解和不信任的云数据仓库(CDW)。更好的方法是为领域专家提供无代码工具,直接构建管道并为分析准备数据。
4.不要忽略排除故障的时间
当您计划迁移到云数据仓库(CDW)时,很容易将所有注意力集中在启动云数据仓库(CDW)所需的数据工程工作上。然而,企业的数据工程师可能经常花费和其他事情一样多的时间进行故障排除。有用于监视的工具,您可以编写用于错误警报的代码。更有效的是完全管理的管道产品,它提供开箱即用的这些功能,并可以在问题到达您的团队之前解决问题。所有这五个技巧将增加您的云数据仓库(CDW)的正常运行时间,这是您的数据工程师的最终时间缓解。这也是实现价值的关键,这取决于你的数据消费者的信任和采用。
5.期待意外
在这一点上,可能会认为自动化已经解决了所有问题,工具的生态系统已经涵盖了所有可以想象到的情况。现实是没有一个简单的按钮,您应该警惕黑盒解决方案,建议管道可以100%自动化。数据源和目标将会改变。您可能决定集成业务目录或数据质量工作流等功能。确保您已经投资了具有灵活性的工具或服务,以处理您独特且不断变化的环境。通过严格的自动化,可以节省数百个小时,但是当他们需要解决边缘情况时,可以节省这些时间。