【51CTO.com快译】 眼下对企业来说日子不好过:面对经济衰退威胁,企业需要严格控制成本,同时仍需要足够的技术投入以保持竞争力。有了公共云,很容易根据需要增减存储容量,但是访问看似无限的资源也让使用量和成本快速且不可预测地增长。
对于分析和机器学习项目而言尤其如此。数据湖非常适合机器学习和数据流分析,是企业开发新产品、更好地为服务客户的有效方式。但由于数据团队能够在云端轻松启动新项目,因此必须严加管理基础架构,以确保所有资源针对成本进行了优化,证明花的每一分钱都是值得的。在当前经济形势下,没有一家企业能容忍浪费。
但企业并非无能为力。强有力的财务治理实践让数据团队可以控制甚至降低云成本,同时仍便于创新。设立适当的防护机制以防止团队使用过多的资源,并确保工作负载与正确的实例类型匹配以优化成本节省,这对于减少浪费并确保符合关键的服务级别协议(SLA)大有帮助。
以下是CIO们可以用来管理云数据湖成本的七个最佳实践。这有助于在这个充满不确定性的时期避免不可预知的账单,并控制支出,但仍可以让贵公司进行创新、变得更强大。
•监测、监测、监测。成本管理始于准确了解使用什么资源、何时使用以及谁在使用,至少每天要跟踪这方面。在作业、集群和用户层面密切跟踪使用情况,就可以立即识别浪费或效率低下,并进行必要的改变。看不到的东西是没法管理的。
•使用异构集群。集群中的节点可能有不同类型的实例,这取决于工作负载和不同实例的成本/可用性。比如说,集群可能包括按需实例和AWS竞价实例或谷歌抢占式虚拟机。采用工具(通常以DIY脚本的形式)可自动管理使用情况,以便你在使用最具价值的基础架构,同时满足应用程序的弹性和可用性要求。
•积极主动地自动扩展。集群不用时不需要运行,根据需要自动启用和关闭集群可大幅节省成本。新冠疫情期间,我们至少有一个客户在闲置15分钟后关闭集群,大幅降低成本。这显然有赖于应用程序的SLA要求,但是对于开发工作和概念验证工作而言,等待片刻让集群重新启动应该不是问题。
•测试不同的引擎。许多企业使用多个决策引擎,比如Spark、Hive和Presto,因为它们各自适合不同类型的工作负载。在多个引擎上测试一下查询,看看在哪个引擎上运行最快。这不仅可以为最终用户提升性能,还可以使贵公司受益,因为更短的查询时间通常意味着您使用较少的资源。
•使用基于计划表的生命周期管理。自动创建和销毁系统以匹配使用模式。比如说,如果集群通常在早上或高峰交易时段满负荷运行,查看运行中的作业,看看哪些作业可以在其他时段运行。
•调整未充分利用的基础架构。推出新项目和应用程序时,容量需求并不总是很明确。基础架构过度配置,当实际需求变得清晰时,没人回过头去改动基础架构。将基础架构的大小调整到适当的水平。这需要认真制定策略,因为容量仍需支持预期的使用高峰。
•教育用户。如果数据团队了解更宏观的业务需求和可选择的路子,会尽力帮助降低成本。概念证明项目果真需要r4.4xlarge实例吗?可能不需要。与他们聊聊当前的情况,谈谈为什么调整基础架构对大家都有利。我们的一个客户甚至与其团队一起使用彩色乐高积木进行演练,表明可以如何使用集群中不同类型的实例。帮助您的团队,以便帮助您。
云成本管理旨在优化利用率,同时提供财务防范,让团队可以在自助服务环境中快速行动,同时防止意外成本。任何组织应经常采用这些最佳实践,不过在眼下这种宏观经济环境下尤为重要。使用这些技巧,您将能够度过难关,到时会有良好的财务状况。
原文标题:7 Ways to Reduce Cloud Data Costs While Continuing to Innovate
作者:Ashish Thusoo
【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】