近些年,随着云计算的快速发展,越来越多的关键业务迁移到云端。然而,诸多企业在审计成本时发现,云成本并不像宣传云计算优势那样节省,反而费用支出比以前更大。
根据 Gartner 全球公有云支出的预测报告显示,2022 年全球公有云支出已达 5000 亿美金,预计在 2023 年会达到 6000 亿美金,并且还会持续增长。但是,另一份报告指出,2023 年会有 28% 的云成本是浪费的。
过去十年,企业对于云计算的头号挑战都是安全性,但随着企业上云的不断深入,云支出的不断增加,云成本管理成为企业上云最大的挑战。那么,企业如何开展云成本优化?这就需要引入 FinOps(云成本优化)的概念。
降本增效利器,FinOps 让云成本价值最大化
FinOps 是 “Finance” 和 “DevOps” 的合成词,是一种云成本管理和优化的解决方案,并为组织、企业、团队提供了系统化的方法论,其中每个人都应该对自己的云资源成本负责。
根据FinOps基金会对 FinOps 的定义:FinOps 是将 DevOps、财务和业务整合在一起的变革,其目标在于优化一个组织在云计算上的支出的财务规范和技术解决方案,即根据支出的历史记录和来自预期负载的信息,FinOps 可以在需要时预分配资源或估算成本。
那么,企业如何通过 FinOps 来进行云成本管理和优化呢?在近日举行的 2023 亚马逊云科技中国峰会上,聚云科技 CTO 丁冠宇在白金讲堂进行了主题为《云服务智能化与 FinOps:实现可持续发展》的演讲,与现场用户探讨云服务智能化和 FinOps 在实现企业可持续发展方面的关键作用,以及 FinOps 在实现云成本优化方面的重要性。
丁冠宇指出,在理想状况下,随着企业使用云计算的资源量逐渐增多,规模也在扩大,企业上云的单位经济成本是下降的。但是实际情况却是,企业上云的单位经济成本反而不断上升。这是一个非常不健康的发展状态。
随着企业大规模工作负载迁移上云,采用多云架构,加之企业缺乏成本可见性和控制策略,具有低效的文化和组织变革,种种原因叠加后,有可能就会导致企业云成本的失控。
此外,云资源的浪费不但增加了企业成本,还可能对可持续性发展带来不小影响。可持续业务被视为推动业务发展、提高效率和增加收入的关键机会。企业如何面对成本管理和环境问题双重考量呢?答案是 FinOps+GreenOps。FinOps 主要关注云成本的管理和优化,GreenOps 主要关注关于环境以及可持续性发展的问题,如果企业能够将 FinOps 和GreenOps 相结合,并作为企业的战略性发展目标,相信企业就会达到经济效益和环境效益双赢的效果。
破局:基于FinOps 理念的多云成本管理与平台 SavingsNow
在云成本管理与优化的发展趋势下,聚云科技也在积极拥抱变化和挑战。基于 FinOps 理念,聚云科技自研了云成本管理与优化平台 SavingsNow,帮助企业解决在云计算环境中面临的财务管理痛点。丁冠宇认为,不计后果的云支出时代已经结束。为了达到可持续发展目标,公有云用户需要做一件事,就是 Savings Now。
据了解,SavingsNow 提供全方位的云成本管理和优化服务,支持客户实现成本分级化管理、成本分摊和资源占用率等多种功能,帮助企业降低成本支出,提高资源利用率和优化决策。
聚云科技 SavingsNow 云成本优化的核心能力集中在三个领域,成本的可视化、成本优化和成本运营。丁冠宇表示,为了能够让系统更加具备扩展性以及满足数据合规等问题,聚云科技将整个系统部署在亚马逊云科技的架构之上,共分为三层,包括用户层、应用层和数据层。目前,SavingsNow 平台已经支持了数十亿美金数据的管控。
2023 年,聚云科技观察到,从业者对 FinOps 能力的优先级排名发生了变化。成本分配、建立 FinOps 文化、资源利用率与合理调整配置进入前 3 名,成本分配仍然是优先级最高的能力,表明它是 FinOps 科学实践的基础。丁冠宇介绍了五种场景下的成本管理问题和解决方法。
场景一:成本衡量分摊与问责
FinOps 的一个基本原则是:“每个人都应对自己的云使用负责”。因此,企业需要构建成本衡量分摊和问责机制,让所有的成本都得到它的归属,让所有人可以了解真正的使用云成本。然而,成本分摊不是一蹴而就的。虽然企业可以通过云账号和成本标签识别专用云资源,但未分配的共享成本如果不能适当地进行分摊,工程师和产品经理就无法全面了解他们的产品的实际成本是多少。面对百万、千万条账单明细记录,成本分摊工作还是比较复杂的,再加上一些个性化的成本分摊方式,经常给运营同学带来不小的麻烦。
SavingsNow 可以通过定义分摊对象,选择分摊维度以及分摊方式,从而建立成本分摊模型,以满足不同业务部门、项目对成本分摊的需求。
场景二:引入预测,感知未来
丁冠宇指出,组织如果过度依赖于传统的本地基础设施,会面临着成本(运营+运维)高昂、资源限制和维护复杂性等挑战。但是若将其核心业务系统从 IDC 迁移到公有云之上,公司也希望通过成本预测,制定详细的预算规划,并设定成本控制的目标,确保在预算范围内完成云迁移。丁冠宇建议,将整个成本预算拆分成两步,第一步是业务上云前的资源成本估算,第二步是成本预测。结合预测和估算能力才可以帮助企业做更高精准的成本预算。
因为云环境本身是动态的,云定价模型也是动态的,业务自身也在根据需求驱动而不断变化,比如业务方进行市场推广活动、节假日的大促等,在所有动态的因素中,企业很难做出准确的预测。SavingsNow 当前成本预测方法是基于历史数据预测的方案,这种方案适合稳态的业务,后续会支持结合事件驱动的方式,达到相对全面且准确的效果。
场景三:高度可见的云成本
在日常工作中,我们各个业务团队和产品负责人需要定期向上级组织领导定期汇报业务的成本情况,比如对于高管来说,需要创建高度可见的 FinOps 仪表盘;对于业务人员,要创建各个业务部门的成本 KPI 仪表盘;对于运维人员,需要一个灵活的成本分析引擎,帮助运维同学快速定位到触发成本异常的根因。那么,有效的仪表板对于传达和掌握团队的云成本状态是至关重要的。
如果将成本分析需求进一步分解,就是所谓的成本洞察,而洞察就需要数据是准确且准实时的。众所周知,云账单最大的弱点就是滞后性,这就给成本分析和做成本决策增加了难度。此外,支持多项云成本指标、灵活查询分组、支持标签过滤、数据权限隔离、报告的订阅和分享,也是成本洞察的必备能力。
SavingsNow 成本可视化主打的就是简单易用。根据角色不同预设了多种维度的仪表盘,可以进行全面的成本数据展示,而且通过聚云科技的最佳实践,平台预设了 80 多项预设的云成本分析报告,可以让没有任何账单经验的同学快速上手,开箱即用;同时引入成本 BI 引擎,满足账单相关的个性化分析;并且支持多云环境汇总分析,比如将亚马逊云科技的账单和 GCP 的账单并进行汇总分析。此外,SavingsNow 提供丰富的报告操作功能,包括订阅、发送、导出、克隆、权限、多币种、暗色主题、图表的自由摆放、周报格式、大屏等多种功能。
场景四:成本异常监控
尽管公有云提供了很多安全防护手段,但也不妨会遇到一些安全漏洞,被恶意开启和大量占用计算资源并导致费用增加;也有因为程序配置不当而导致的费用增加;架构或产品的特性更新也可能会导致一定的成本增加;因此,企业需要通过配置告警规则,结合平台提供的智能发现能力,尽早发现成本异常,并向运维或产品负责人通知异常情况,尽早避免不必要的成本浪费。
SavingsNow 成本监控告警模型,在时间粒度上支持到每天/每周/每月,监测范围覆盖到云账号、云服务、云项目、资源 ID 和资源 Tag 等。告警指标可以按照时间粒度的环比,从而进行成本异常的监控;如果出现异常,还可以结合成本分析报告,定位根因。
场景五:左手稳定性、右手降成本
随着业务不断迭代的过程中,各业务部门逐渐产生不同类型的云资源费用,包括计算类、数据库、云存储、数据传输等。然而,尽管出现了多种云资源类型,计算费用通常占据了企业在云平台上的主要开支,约占总费用的 50%左右。因此,对计算资源进行成本优化成为云成本优化的主要需求。
在资源的用量优化方面,可实施优化的渠道也有很多种,例如资源配置、数据传输、弹性、竞价实例等,虽然这些方式大家都耳熟能详,但是能做到的却不多。一般对成本优化程度高、有核心人员监督的组织,相对完成的比较好。
丁冠宇表示,很多企业都会觉得,成本优化是件挺简单的事情。但在他看来成本优化是最难做的,影响成本优化的两个杠杆分别是资源的用量和费率,只有用量和费率同时降低,同时进行优化,才能达到最终费用的降低。成本优化另一个难做的点是,很难让开发者或运维同学增强成本优化的意识。
是否有既不影响业务稳定性,又能够大量节约成本的策略?公有云厂商提出了一种基于“承诺”的云定价模型。它改进了稳定状态工作负载的单位经济效益,在不改变已部署资源情况下,能够覆盖计算、数据库、分析、媒体服务等多种资源类型的成本,“承诺”之后优势比较明显,但是决策很难做。
为此,聚云科技研发的弹性的折扣策略,可以实现对客户“免承诺”的折扣技术方案。聚云科技建设的成本优化体系分为三层结构。底层提供一种“免承诺”的折扣费率,为企业实现了一种实施复杂度最低,TCO 影响最高的一级优化策略;第二层,提供资源用量的优化建议,比如正确的资源配置、闲置资源的扫描等等;最上层也是相对最具挑战性的,弹性伸缩和 Spot 竞价实例调度策略,适合业务容错性强、灵活度高,无状态的工作负载使用。丁冠宇指出,如果这三种策略结合,可以为客户节约成本 60% 以上。
SavingsNow 赋能 JOYME 进行成本优化
北京乐我无限科技有限公司(以下简称 JOYME)是主打海外市场的移动直播服务商,在全球推出名为 Live.me 的全球直播和社交平台,目前已成为美国最受欢迎的社交应用程序之一,并已在 200 多个国家和地区推出。LiveMe 于 2016 年 4 月上线,目前已在全球积累了超过 1 亿用户和超过 300 万的主播。除了主打的 C 端用户的直播产品,JOYME 业务也涉及游戏、工具产品等。
2016 年,JOYME 当时业务单一,主要是 C 端直播产品,采用的全是裸机式的服务,使用了大量的 EC2 以及其他的托管服务。随着业务要求快速迭代,2017 年 JOYME 开始走向容器化,将业务服务迁移至 ECS 集群;2019 年,JOYME 拓展业务线,并将 ECS 集群迁移至 EKS 集群,同时引入 Spot 实例。2022 年,JOYME 在业务架构层面开始使用 Serverless 帮助实现降本增效,聚云科技帮助 JOYME 进行了一系列的成本优化措施。
在帮助 JOYME 成本优化的时候,聚云科技搭建了三层优化模型,包括资源统一管理、成本数据可视化以及专项服务治理。通过持续优化业务系统架构,控制和优化成本,从而实现云上高效运维和敏捷开发。此外,聚云科技为 JOYME 提供专业的 MSP 运维管理服务,帮助 JOYME 完成在基础设施、安全合规、系统架构及运维管理上的全面提升。经过两年多的努力,JOYM E每年节约成本 1700 万美金,月度节省了 30% 左右。
建议:践行 FinOps,是一项全民运动
为了能够在 FinOps 践行落地过程中取得比较好的成绩,企业一定要建立 FinOps 文化,并优化运营流程,循序渐进地控制单位经济成本。
那么,企业该如何落实呢?首先要跨组织选人,建立运营团队或云卓越中心团队,要创建和维持跨组织的合作伙伴关系,制定符合公司发展战略的目标,然后是要定期沟通。丁冠宇指出,随着企业不断地定目标、沟通、执行和分享,公司内部就会在潜移默化中逐渐形成有意识的成本优化的文化。
除此之外,企业要把成本优化作为一个计划来实施,不断迭代,稳中前进。在推进过程中,工具的选取也是很重要的,亚马逊云科技提供了一系列的成本管理框架与工具,可以帮助企业完成成本度量、评估、优化、规划和预测等各种优化工具。
丁冠宇表示,“成本优化的路其实并不好落地,我们要不断地进行自我激励,一旦坚持下来了,对于企业和个人都是有很大收获的。”