如果企业希望在云支出上节省资金,那么需要在成本管理方面投入更多的时间和资源。
公有云采取按使用付费的模式,但很多企业很难分析和预测云成本。云成本管理战略和工具只能解决一部分问题,因为只知道云成本是多少以及哪里产生了云成本,但并不一定能减少这些成本。
这是一个良好的开始,但仍然需要工程资源来进行更改,这不是一次性的工作,而是定期工作。
那么有没有更好的方法来控制云支出?
很多企业为了赶上公有云的潮流可能会使其陷入困境。
大多数企业的团队发现控制云成本具有挑战性,因为他们在启动新实例和尝试不同事物方面从未有过如此大的自由。即使是那些从未使用过公有云以外的任何东西的人也很难控制他们的云支出。
以下是导致云成本失控的一些常见原因:
- 忽视了按使用付费的风险。
- 无法了解自己的成本。
- 没有为云计算规划预算。
传统的成本可见性、分配和管理仪表板有助于解决其中一些问题,但并不能解决全部问题。
那么云成本管理究竟是什么?
云成本管理是成本监控、报告、可见性、分配、预算和预测的总称。其目标是了解和管理与公有云资源相关的成本。这意味着需要了解成本的来源、如何将其分配给团队,以及企业将来可能会花费多少成本。最后一个问题对首席财务官尤其重要,他们可能在审核季度业绩时发现成本过高,因为一些成本高昂的实例运行时间过长。
云成本管理是为了控制成本,或者在保持相同性能水平的同时,对云支出进行更精细的控制。
大多数云计算提供商提供基本的云成本管理解决方案来帮助他们实现这一目标。还有许多专门的第三方工具可以提供对云成本的额外可见性和见解。
云成本管理不足的5个原因
- 云成本一直在变化
即使像Pinterest公司这样的科技巨头,也很难预测云成本。在2018年的节假日期间,由于使用量大幅增加,该公司的云支出远远超出了最初的估计。Pinterest公司不得不在其已经预留的价值1.7亿美元的云成本基础上向AWS公司又支付了2000万美元。
- 资源需求也不会一直保持不变
使用公有云就是在成本和性能之间取得平衡。因为流量高峰可能会产生大量且无法预料的云账单,或者如果企业对其资源进行严格限制,则会导致其应用程序崩溃。而云成本管理无法帮助企业解决这个问题。
- 成本可见性比听起来更难实现
在大型企业中,有关云支出的决策通常是分散的。这使得可见性比看起来更具挑战性,以及随处可见的影子IT项目,企业将不得不处理无法通过查看仪表板或报告来解释的云成本。
- 多云使云成本管理更具挑战性
采用多云的企业需要同时考虑采用几个公有云提供商提供云服务的成本。
- 云成本管理需要人工操作
云成本管理需要很多人工操作,例如分析设置,为团队分配成本,了解在哪些方面花费了多少成本,寻找更好的选择,并将应用程序迁移到更好的资源,然后检查是否一切正常——这就是企业员工需要做的工作。而这不是一次性的工作,需要定期执行。
还有什么可以帮助降低云成本?
人们了解什么是云成本优化的最好方法,需要了解它为希望控制云支出的团队提供了哪些策略,例如:
- 实例大小调整
- 自动缩放
- 资源调度
- 删除未使用的资源
- Spot实例使用
优化不仅可以帮助企业实现所有这些目标,而且可以使流程自动化,无需为工程师增加重复性任务。云成本优化需要全天候关注其应用需求和可用资源,以确定节省成本的机会。
以下了解一些云成本优化特点以及自动化带来更多价值的原因。
(1)实例优化和类型选择——为工作挑选最好的实例
如果计算是企业最大的云支出,那么选择合适的虚拟机大小可以显著降低成本。但是,当在AWS云平台就有大约400个不同大小的EC2实例时,那么IT人员对这么多的实例如何处理?
类似的实例类型提供不同的性能级别,具体取决于企业选择的云计算提供商。即使在同一个云平台中,成本更高昂的实例并不总是具有更高的性能。以下是企业在人工选择实例时通常需要执行的操作:
- 确定最低要求。
确保针对所有计算维度执行这一操作,包括CPU(架构、数量和处理器选择)、内存、SSD和网络连接。
- 选择正确的实例类型
企业可以从各种CPU、内存、存储和网络配置中进行选择,这些配置捆绑在针对特定功能进行优化的实例类型中。
- 定义实例的大小
需要记住的是,实例应具有足够的容量来处理其工作负载要求,并在必要时合并诸如突发之类的功能。
- 检查各种定价模型
三大云计算提供商都提供按需(即用即付)、保留容量、现场实例和专用主机。但每种选择都有其自身的优点和缺点。
(2)需求变化时自动扩展或缩小实例
如果企业正在运行电子商务应用程序,需要为突然的流量高峰做好准备,并在需求消失或减少时缩小规模。
人工扩展云容量既困难又耗时。企业必须跟踪系统中发生的一切,这可能使其几乎没有时间探索降低云成本。
当需求降低时,企业可能面临支付过高成本的风险。当需求过高时,企业可能会为客户提供糟糕的服务。
以下是企业在人工扩展资源时需要注意的事项:
- 在资源需求下降时,更好地处理流量增加并控制成本。
- 确保应用于一个工作负载的更改不会对其他工作负载或团队造成任何问题。
- 自行配置和管理资源组,确保它们都包含适合企业的工作负载的资源。
在进行人工扩展时,必须为其使用的每个云服务中的每个虚拟机扩展或缩减资源。但这是很难完成的工作。
这就是自动缩放发挥作用的地方。自动缩放将自动执行以上列出的所有任务。IT员工需要做的就是定义与水平和垂直自动缩放相关的策略,自主优化工具将为其完成这项工作。
(3)管理Spot实例中断
Spot实例比按需实例的成本要低90%,因此从云计算提供商处购买空闲容量是有道理的。但是有一个问题:云计算提供商可以随时回收这些资源。如果是一个人工智能驱动的SaaS,在处理一些可以延迟的后台数据处理时可能运行良好。但是,如果需要避免工作负载中断怎么办?需要确保其应用程序已经为此做好准备,并在Spot实例中断时制定计划。
企业可以通过以下方式利用Spot实例:
- 检查工作负载是否已准备好用于Spot实例
能容忍中断吗?完成该项目需要多长时间?这是至关重要的情况吗?这些问题对于确定工作负载是否适合Spot实例非常有用。
- 检查云计算提供商的实例
检查不太流行的实例是一个好主意,因为它们不太可能被中断并且可以运行更长的时间。在决定一个实例之前,先看看它被中断的频率。
- 设置价格
设置企业愿意为首选Spot实例支付的最高价格。其经验法则是在按需定价的水平上设置最高价格。
- 分组管理Spot实例
企业需要同时请求多种实例类型,从而提高获得Spot实例的机会。要完成上述所有工作,企业必须投入大量时间和精力完成配置、设置和维护工作。
除非决定自动优化,否则这些管理都不能保证节省成本。成本跟踪和报告等传统方法只能让企业完成一部分目标,并且IT员工可能需要耗费大量的时间和精力。