在企业发展过程中,全球大量工程团队会将时间和精力投入到云优化上,但研究表明大多数企业无法跟上飙升的云成本。
发生这种情况的原因有很多,如果企业不制定解决方案,这种情况还会继续发生。原因包括低成本的可见性、棘手的云定价以及确定未来需求的问题。由于这些迫在眉睫的问题,企业会浪费云资源、时间和金钱。
在本文中,我们将介绍:
- 为什么云成本优化势在必行?
- 2022年要解决的6个顶级云成本优化问题
1、为什么云成本优化如此具有挑战性?
公共云的按使用付费模式给工程团队带来了自由,但事实证明这种自由是比较昂贵的。
研究表明,大多数企业难以应对不断上涨的云成本。传统的公共云支出平均超出预算 24%。这种情况仍然发生的原因有很多。
这些通常归结为低成本可见性、复杂的云定价以及预测未来需求的问题。所有这些问题都可能会影响企业的业务支出的金额。
云提供商已经了解到这一点,他们也无法提供帮助。对于大多数企业来说,解码云账单可能会让人不知所措。这可能会让一些工程团队望而却步,但选择忽略云账单并不能真正解决问题。
2、2022年要解决的6大云成本优化问题
1)被预订和储蓄计划所吸引
考虑降低云成本的第一个解决方案是为企业团队当前使用的服务支付更少的费用。与按需定价模式相比,企业会选择储蓄计划或预订,因为它们具有较大的折扣。
预先支付可预测的云账单确实令人感到高兴。
但是,企业团队会发现并没有解决问题,企业只是得到了折扣而已,这里有什么问题?
下面一起了解 Pinterest 降低云成本的故事,Pinterest 已提前为 AWS 服务支付了 1.7 亿美元,但仍需额外支付 2000 万美元购买额外资源。这超过了 10%。Pinterest 可能不介意这种规模的额外成本,但创业公司可能会被这些额外的成本所摧毁。
关键是,Pinterest 的故事让我们明白,预测企业在 1 到 3 年内需要多少容量是很困难的。
长期致力于单一提供商,没有灵活性,企业的业务会被锁定,并且企业可能需要为不断变化的业务需求付出高昂的代价。
如何应对储蓄计划?
最好的解决方案是尽可能避免储蓄计划。尽量不要提前购买资源,同时考虑解决云支出的不同选择,包括:
- 自动定量
- 调整大小
- 资源调度
- 装箱
2)屈服于过度配置的陷阱
当企业选择的资源大于运行工作负载所需的资源时,就会发生过度配置。这可以使团队获得一种安全心态,因为没有团队希望在关键项目的中途出现中断。
在某些企业中,团队习惯于拥有比“备份”所需的更多资源。尽管在性能方面这个选项对工程师来说是完美的,但它会增加云浪费,从而对企业的运营成本造成损害。
过度配置有什么问题?
最简单的答案是,过度配置会导致云资源浪费和不必要的开支,这些开支很快就会达到顶点。
在企业的团队中鼓励过度配置在未来会导致糟糕的结果。如果团队习惯于获得比工作负载要求更大的实例,则需考虑在扩展业务时这是如何工作的。云成本将占企业业务收入的很大一部分。
把这笔钱花在一些对企业有长期帮助的实质性的事情上会更好。例如,关于品牌和营销,以便企业可以将其业务建立一个可靠的业务来源。
如何处理过度配置?
典型的方法是花钱购买定制监控和成本管理解决方案。通过调整建议大小,企业可以帮助减少团队对过度配置资源的依赖。但是,企业仍然需要手动实现它们。
另一种解决方案是自动化。自动调整大小可以选择最可能满足企业的应用程序要求的实例类型和大小,同时控制成本。
当集群需要额外的节点时,人工智能驱动的实例选择算法会自动选择驱动最终性能的资源。企业团队无需花费时间和精力进行分类,因为它是自动化的。
由于过度配置嵌套在业务文化中,因此创建成本优化例程以提高性能、可靠性和降低成本至关重要。自动化可能是企业变革的第一个重要步骤。
3)受到未使用的云资源的影响
企业团队很容易遗忘为项目创建的实例。
大多数团队都在努力处理没有工作但仍在继续增加成本的未使用资源。Adobe就曾犯过此类错误,他们每天在 Azure 的计划外费用高达8万美元。这些是企业无法承受的错误类型。
这个问题特别适用于同时发生各种事件、缺乏资源可见性的大型企业。
在 IT 团队的领域之外的额外成本可能占企业所有 IT 开支的40%。此外,统计数据显示,影子云的使用量可以达到已知云使用量的10倍。
未使用的云资源有什么问题?
未使用和未管理的云资源会增加成本,导致复杂的可持续性结果。
数据中心使用大量电力和硬件,主要影响企业的碳足迹。因此,减少云浪费对于减少不必要的支出和相关的碳足迹非常重要。
4)处理需求下降和高峰的效率低下
大多数其他应用程序会随着时间的推移在使用方面发生这些变化,但对于大多数公司来说,在性能和成本之间保持平衡仍然是一项艰巨的任务。
问题是什么?
如果企业团队不留意,若对资源有严格的限制,不断增长的流量可能会产生巨额的云费用,或者导致企业的应用程序崩溃。因此,当需求低时,总是存在多付费的风险。另一方面,当需求高时,服务质量可能会受到影响。
云成本管理解决方案可以监控企业的使用情况,并在超出允许限制时实时发送通知。这些工具可以就如何根据不断变化的需求调整云资源提供建议。但是,手动云管理既繁琐又耗时。
这些是企业需要了解的事情:
- 小心处理流量激增和下降——分别在所有服务中向上/向下扩展资源。
- 确保应用于一个工作负载的更改不会影响其他工作负载。
- 手动优化和管理资源组,以了解有适合企业工作负载的资源。
解决方案是什么?
这是另一个可以使用云自动化来帮助企业节省时间和资源的领域。
通过自动扩展,企业可以管理上述所有任务并控制云成本。如果利用容器编排器 Kubernetes,则可以获得三个优势:
- Horizontal Pod Autoscaler (HPA)添加或删除 pod 重复项以匹配不断变化的使用情况。它研究企业的应用程序以确定副本的数量是否应该更改。
- Vertical Pod Autoscaler (VPA)减少/增加 CPU 和内存使用请求,以帮助企业根据当前使用情况调整资源。
- Cluster Autoscaler在支持的平台上更改集群中的节点数量。
5)拒绝使用 Spot 实例
如果将其与按需定价进行比较,云服务提供商会以大幅折扣提供其未使用的容量。在 AWS 中,Spot实例的价格是正常价格的10%。
Spot实例有什么挑战?
当企业竞标备用计算资源时,无法知道这些容量可用多长时间。Spot实例具有默认持续时间;例如,AWS提供了一个Spot实例,可以提供超过5小时的不间断时间保证。
除此之外,服务提供商可以收回Spot实例并为企业提供仅2.5分钟的简短通知。
在那段时间内进行更改是不可行的。开发新虚拟机也需要更多时间,因此存在潜在停机风险。
因此,如果企业在计划使用Spot实例之前,要了解到会发生中断的情况。它们不是关键工作负载的理想选择。
如何管理这个问题?
尽管存在上述问题,但对于可以拥有多个副本的服务来说,Spot实例是非常神奇的。大多数服务在当代架构中都是无状态的,这很好,因为Kubernetes 就是为这种设置而构建的。
以下是使用Spot实例的整个过程:
- 确定企业的工作负载及其管理中断的能力非常重要。
- 寻找供应商提供的实例。尝试选择不太受欢迎的实例并监控它们的中断频率。
- 设置一个最高出价以避免价格立即飙升时中断。
- 最好按组管理Spot实例并请求多个实例以增加填充它们的机会。
企业可以手动执行这些步骤,但要使其正常工作,请为大型配置、设置和维护任务做好准备。
6)推迟云自动化
在这些情况下,自动化会有所帮助。除了上面提到的过程之外,自动化解决方案可以在Spot实例不可用时立即提供帮助。
如果企业处理过云原生技术,那么自动化可能是其业务的最佳选择。云自动化为大型企业的 IT 团队提供了惊人的优势。
首先,它减少了配置虚拟机、创建集群或选择合适资源的人工劳动。此更改可帮助企业节省时间,并允许企业的团队处理重要任务并充分利用其云基础架构。
此外,自动化工具提供对部署至关重要的频繁更新。它还显著降低了人为错误的几率,降低了基础设施成本,并改进了备份流程。
最后,自动化使企业能够了解整个业务中难以管理的正在使用的资源。简而言之,云自动化是科技行业的新常态。
为什么不应该延迟云自动化?
如果云自动化提供了这么多好处,为什么不是所有企业都遵循它们?
从对新解决方案的抵制到对可能花费大量实现成本的担忧,以及对更新当前设置的需要,自动化可能是压倒性的。
在接受自动化方面,麦肯锡的一项研究证明,员工担心他们会被技术取代,因此需要谨慎处理这个问题。
同时,自动化带来了各种好处。但是,在2022年推迟云自动化意味着您的企业可能会错过:
- 为企业的工作负载选择最佳实例类型和大小。
- 自动缩放云资源以管理需求的上升/下降。
- 摆脱未优化的资源以降低成本。
- 通过处理潜在的中断来改进spot实例。
- 减少存储、备份、安全等方面的不必要开支。
解决方案是什么?
处理员工与自动化的矛盾是一个老问题,过去的企业因粗心大意而遭受损失。最好提醒企业团队,云自动化将使他们从无聊、重复的任务中解放出来,他们可以将精力用于创新。
那么,企业应该如何找到并淘汰未使用的实例?这就是企业使用自动化的用武之地。
自动化的云优化解决方案可以监控企业的云使用情况,以防止效率低下和资源紧凑。它们可以自动淘汰增加云成本的未使用实例和进程。这对所有企业来说都是一种解脱。