在一些大范围扩展的环境中,云监控和云自动化已经成为关键所在,但是并不是每一个人都会向亚马逊求助。
本周偶遇的亚马逊Web服务(AWS)五个专题小组中的三个表示他们正在构建自己的云监控工具,其余的则使用类似Sensu这样的开源工具。
“自建的工具没有的话就无法开展工作,”Craig Tracey说道,他是市场软件初创公司HubSpot的DevOps领导。HubSpot只是那些想要监控一切的IT部门之一,Tracey说道。现在运行着1400个AWS实例,同时在Rackspace也进行部署用来执行大数据分析,并且托管二十多个应用。
“我们监控了很多别人忽略的东西,比如,如果有人启动一个没有跨有效区域的实例,我就会得到报警,”Tracey解释道。
于此同时,那些依赖亚马逊CloudWatch的IT专家则抱怨其怪异的模式。
Brian Tarbox是金融数据分析公司Cabot Research的软件工程师,该公司有1000个实例在AWS上运行,他说他们尝试在CloudWatch中创建一种度量的机制,从而检测自己环境中的工作队列的规模,但是CloudWatch返回一条消息说已经有过多的度量机制在使用中。
“随后会返回说我已经拥有这些基础的度量机制,我不用关心1000个实例中的每一个,但是我没法找到我的度量结果,”Tarbox说道,“我会得到一份错误报告,我将这份报告发送给他们,会直接回复一个连接,在同一个窗口中显示我的度量图表,但是我的度量内容并不存在。”
其他人对此也表示赞同。
“CloudWatch非常表面化,而且工作使用起来有很多困难,”Joey Imbasciano说道,他是Stackdriver的云平台工程师,“你要么忍受,要么就试着构建自己的内部度量,可能围绕一些开源工具,比如Graphite、StatsD或者其他的托管服务。”
Chef、Puppet和云自动化监控
关于云自动化,是上面的企业的架构的关键特性,配置自动化工具,比如Chef和Puppet都得到了很好的赞誉,但是使用者也知道这些工具目前为止只能快速在AWS上提供。
每个月HubSpot都会增加或者减少200-300个实例,使用一个操作系统的图标实现。使用Puppet可以用十分钟到十五分钟在其环境中增加或者减少实例,Tracey说道。
然而,这些专题小组表示也有方法可以加速云自动化。
用Puppet花费20到25分钟就可螺旋增加或者减少实例,Acquia高级架构师Barry Jaspan说道,这是一家开源软件公司,该公司可能每天都要增加或者减少100多个实例。
为了降低每个实例的分配时间,Acquia每天为一个基础的操作系统镜像拍快照,绑定各种实用程序,随后使用这些绑定作为次日发布实例的基础。
Jaspan强调并不是为不同的配置创建各种绑定,因为“你绝对不可能记得你所做的一切。”
Opscode是Chef的制作者,他说如果有大量的软件要安装,任何工具都要花费很长时间进行配置。
Puppet Labs对此拒绝发表评论,亚马逊也没有回应。