“如果不开始使用云计算,那你就是疯了;如果坚持使用云计算,你也是疯了。”
15 年前,亚马逊推出了其弹性计算云 (EC2) 的公开测试版,开创了云计算的新时代。当时用户每小时只需要支付 10 美分。到了 2017 年,亚马逊开始按秒付费。时至今日,企业在云上的花费已经逐渐超出预算控制。
一方面,云厂商的营收显著提高。7 月底,Amazon 发布今年第二季的财报,Amazon Web Services(AWS)营收 148 亿美元,同比增长 37%,占到总营收的 13.08%。8 月 3 日,阿里巴巴公布 2022 财年第一季度财报,阿里云季度营收 160.51 亿元,连续三个季度实现盈利。
另一方面,上云的企业却面临云计算技术成本投入超支的情况。根据 CNCF 与 FinOps 基金会联合发布的报告显示,10% 的受访者每月在 Kubernetes 部署上的支出超过 100 万美元,67% 的开发者在过去 12 个月中支出增加了 20% 甚至更多。随着支出的提升,企业难以对未来成本进行准确预测。
随着业务增加、数字化转型等需求,企业上云已经成为一种趋势。但如硅谷顶尖风投 a16z 投资人 Martin Casado 与同事 Sarah Wang 在文章中曾指出的,当云计算成本在某种程度上“占上风”时,数千亿美元市值的云计算市场就会被抑制,并陷入一种悖论:如果不开始使用云计算,那你就是疯了;如果坚持使用云计算,你也是疯了。
企业在云上到底花了多少钱
毕马威专门负责为客户提供云成本管理建议的咨询总监 Adrian Bradley 表示,云计算的使用成本比上云企业预期的要高。在使用云计算时,企业的实际支出往往比使用本地基础设施时还要高,但额外的支出似乎并没有带来更高的价值回报。
根据云服务机构 HashiCorp 近期发布的 一份报告,不同规模、不同行业及不同地区的企业,对云成本的敏感性存在很大差异。
企业规模越大,云预算也越高。约 62% 的小型企业预算低于 10 万美元,而大型企业云预算不足 10 万美元的比例仅为 7%。另外,34% 的大型企业每年设定了至少 1000 万美元的云预算,能达到这等预算规模的小型企业只有 1%。
但有趣的是,组织的云预算数额越大,发生超支的可能性就越高。在预算在 200 万~1000 万美元的企业中,近半数(46%)出现了超支;但预算低于 10 万美元的企业中,只有四分之一(27%)发生超支。三分之二的已超支受访者预计,新一年内云预算将继续超支。
云预算规模在不同行业差异也很大。软件与服务企业的云预算控制更为严格,33% 的企业每年云支出不足 10 万美元,其中包括很多创业公司。而资本充足的大型电信企业是云消费方中的大头,有 27% 的企业每年投入超过 1000 万美元。
但去年,近 40% 的公司在云计算技术上超支,有过半数的人将成本视为阻碍企业上云的核心因素。
从地区来看,南美洲企业特别关注成本,59% 的受访者认为云太贵。从企业规模看,小型企业中有 58% 的人关注云成本,但只有 45% 的大型企业重视云支出。从行业角度看,42% 的金融服务企业将成本视为阻碍上云的因素,47% 的公共部门认为上云成本过高,60% 的娱乐 / 媒体企业认为云成本阻碍了上云。
对于超支的原因,29% 受访者给出的理由是内部事项优先级的转换。超过四分之一的企业超支的原因是缺乏行之有效的资源利用率管理(14%)与缺乏标准化工具(13%)。有 21% 的受访者将超支与新冠疫情临时上云联系起来。
很明显,成本已经成为不少企业上云面临的重要问题,而且由于云支出的跟踪与控制比较复杂,很多企业浪费了 20% 甚至更高的云支出。
目前,已经有公司通过将云负载返回到本地来节省成本,其中典型的就是 Dropbox。通过将大部分工作负载从公有云迁移到了由租用及直接运营的托管服务器上,他们在两年内节省了近 7500 万美元。从 2015 年到 2017 年,Dropbox 公司的毛利率由 33% 增长至 67%。
云成本为什么容易失控
那么,为什么云成本如此容易失控?Bradley 表示,最大的问题在于,组织在云迁移的过程中,并没有将能够充分发挥云计算优势的数字转型基础打牢。
云迁移中的“直接上传”比例过高。“做出这样的选择,并不是因为企业懒惰懈怠,而是他们当前能力有限。但不加调整的上传意味着工作负载仍然保留着大量本地运行的特性,即使是在云端也会成为新的技术债务。”Bradley 坦言。之所以成本更高,是因为大部分应用程序最终被运行在虚拟机上,并没有利用到现收现付的云服务特性。“他们并没能享受到云服务所固有的规模经济优势。”
另一大因素在于,云本身是高度动态的。“使用新的计算及存储服务往往成本更低,但如果只是直接迁移至云端而不做后续调整,那么价值回报必然受到影响。总之,每年关注并选择新版本的用户,才能获得更具性价比的服务体验。”Bradley 解释道。
虽然内置成本优化机制能够节约资金,但成本咨询公司 Apptio 首席产品与技术官 Scott Chancellor 表示,企业往往容易高估自己对资源的需求量。这里的问题是,所有大型云服务厂商都愿意用可观的折扣来争取客户,但企业只有充分利用这些资源才能切实节约宝贵资金。不能有效运用资源本身就是一种巨大的浪费。
另一个问题是,负责成本优化的员工往往不是负责构建技术方案的员工。Apptio 工程副总裁 Abuna Demoz 指出,工程师们希望自己的应用程序能够正常运作,但他们很难预估具体容量、计算量、存储空间需求,所以工程师们一般会选择先过度配置,之后再根据实际情况剔除部分资源。但大多数情况下,一个项目结束后新的项目又来了,所以闲置的资源也就永远被闲置在那里。
同样地,Bradley 也表示,匆忙上云确实会带来技术人员做出的配置决策与实际业务需求脱节的风险。
目前市面上可供选择的云服务数量过多,也是个现实问题。但曾在亚马逊云科技从事成本管理工具开发的 Chancellor 强调,大型云服务商并不会故意混淆是非或者向客户推销不必要的超额配置。“我们一直认为对客户最具长远收益的方案,也是对云服务商自己最有利的方案。”
新冠疫情的突然爆发,迫使大多数企业匆忙上调了云支出数额
Duckbill Group 的首席云经济学家兼亚马逊云科技成本管理专家 Corey Quinn 认为,并不存在某家云服务商比另一家价值更高的情况。“三大云巨头的费率结构基本相似。某些可能提供的折扣更大,但不会有本质区别。”
不花心思,就省不了钱
Duckbill Group 的首席云经济学家兼亚马逊云科技成本管理专家 Corey Quinn 表示,企业总是觉得自己的云开销太高,但有时候事实并非如此。“在云时代之前,企业花掉的钱也差不多是这个数字,但面对的是十几家不同的供应商。但现在所有开销都集中在一家供应商身上,所以这个总体运营支出的数额就会超出人们的心理预期。”
那企业要如何省钱呢?Quinn 表示,虽然复杂,但首先得明确一点:不花心思,就省不了钱。用户得为自己忘记关掉的实例付费,再认真思考预留实例、节约计划等方案适合部署在自己的哪些业务场景。Quinn 强调,企业也应当从成本的角度审视现有应用架构。
另外,市面上大多数产品采用独立的定价费率。Quinn 认为,企业最好的办法就是边运行,边查看实际成本。但随着业务的发展,企业内不同部门会做出各种不同的尝试,成本归因变得越来越难。Quinn 的建议是,不要抱着随处运行的心态做开发,针对性优化的意义更大。
当然,像亚马逊云科技、Azure 与 Google Cloud Platform 这样的云厂商也会给出自己的内置成本建议。对此,Quinn 表示,“它们提供的大部分建议都没有原则性错误,但也不会给出谈判层面的指导意见。他们不会建议客户使用 Fastly 或者 Akamai 这样的 CDN,毕竟云服务商还打算自己推出同类产品呢。”