当企业把核心IT系统迁移到私有云或者公有云网络之后,工作并没有结束。现在,还有一套不同的技术问题需要处理:即如何管理云,以保证企业的投资得到回报,提供所期待的效率和投资回报。
由于今年4月发生的亚马逊EC2(弹性计算云)服务中断事故,云管理和云监视已经变得更加重要。在那次事故中,IT领域看到了当云环境遇到故障时会出现什么情况,许多公司的业务随着这次断网故障而中断。最近还发生了一些严重的云中断事故。
IDC分析师Mary Johnston Turner称,可以得到企业购买的性能是公有云的大陷阱之一。她在最近对250家个用户公司进行的调查报告中指出,服务等级协议性能担保排在重要性的第二位,仅次于应用程序本身的具体需求。
Turner称,企业非常担心性能。企业对私有云如此感兴趣的原因之一是因为IT领导者负责为自己的用户得到良好的性能。他们不准备把这些巨大的责任交给第三方云厂商。
当涉及到云计算的时候,管理软件不再是一个事后考虑的事情;它必须是实施的一部分,每一次做决定的时候都必须要考虑如何最好地把云能力集成到企业的IT架构中去。
软件即服务(SaaS)和基础设施即服务(IaaS)这两种类型的云计算承诺给企业IT任务带来巨大的机会。如果IT专业人员要走在趋势的前面,他们确实需要学习如何在涉及到SaaS和IaaS的问题时像专家一样讲话。
当涉及到云计算合同的时候,知识是关键,阅读是基础。
她补充说,那不只是一个云问题,而是复合应用的复杂性产生的一个问题。接下来,这些复合应用将引进到云环境中。
Turner称,这是一个巨大的挑战。用户需要投资为复合应用和虚拟化环境制作的应用性能管理产品。现在这是一个完整类别的产品。
这个思路是能够独立地监视应用程序在网络中的性能和在云中的性能,然后能够衡量那个应用程序在什么地方达到了用户的性能要求,是在防火墙内部还是外部。
IGN.com是全球最大的视频游戏网站之一。对于该公司负责工程的副总裁David Ting来说,监视他的公司的云性能是非常重要的,因为这个业务的存亡取决于把该网站的254万用户连接到该网站由广告支持的在线游戏中的能力。
Ting称,“对于我们来说,性能就是金钱,因为观看网页是关键。我们是由广告支持的,每一次观看网页的计数都能够帮助本公司带来收入。这是我们密切关注的事情。”
要使它完全发挥作用,媒体巨头新闻集团旗下的ING娱乐部门使用位于旧金山的New Relic公司的性能监视工具连续不断地观察它的网站在云中的性能。Ting称,我们主要依靠这个工具。对于我们来说,这就是IGN网站的响应时间和每秒处理次数。
随着云部署的扩展跟踪性能
IGN.com在大约18个月的时间里一直使用New Relic工具。它首先把非生产性开发和其它应用迁移到云中以观察它们是如何工作的。现在,IGN.com正在把一些新的项目放在云服务器中,包括一个社交媒体栈,这样,该公司就能加强应用程序并且根据需要升级这些应用程序。此外,计划部署在这个云中的一个应用是这个网络的灾难恢复基础设施。
Ting在谈到该公司的IT系统时表示,这个系统最终将全部迁移到云中。我们未来要做这个事情的时候必须保证性能的稳定性。我们正在关注这个事情。
Ting称,New Relic工具监视能够提供IGN使用其它工具不能提供的性能指标。这些老式工具进行物理机器监视是很好的,但是,在没有工程团队做大量工作的情况下根本就不能进行应用程序栈监视。
通过观察New Relic的管理工具,IT员工能够启动更多的基于云的服务器,关闭性能不佳的应用程序实例,然后根据需求增加新的实例以保持用户的响应时间。采用以前的工具,Ting的团队只能了解正常运行时间,看不到响应时间。
Ting解释说,New Relic为响应时间提供了巨大的可见性。这允许IT员工甚至能够在服务器运行的时候采取行动。例如,我们发现一台Memcached(高性能的分布式内存对象缓存系统)服务器执行的实例性能比这个池中的其它服务器差很多。在进一步调查之前,我们发现一个内存模块出现了故障。在Nagios(一种开源的免费网络监视工具)环境中,那台服务器会一直运行到死机。
IGN.com目前正在使用亚马逊的EC2服务进入云领域。
采用New Relic工具, IGN.com能够观察这个三层架构的所有的方面,从它的前台到它的数据库再到它的API(应用程序编程接口)层。这个管理工具帮助保证用户响应时间处于优化状态并且不达到高峰。
Ting说,“我们能够查看什么正在云中运行,使用插件收集数据并且把这些分析结果发回到New Relic工具。这些数据将非常详细地告诉你这些服务器组的性能如何。”
“数据量和数据的准确性是非常重要的。这是我们查看指标的起点和能够使用它做出智能化商务决策的起点。”Ting说。
除了迁移其IT基础设施之外,IGN.com一直在探索利用云托管它的100多个网站中的许多网站以便提高性能和正常运行时间。主要网站包括IGN.com、Askmen.com、Gamespy.com、Fileplanet.com、Teamxbox.com和Gamestats.com。
“到目前为止,测试一直是积极的。我们已经让一些基础设施部件迁移到了云中。这个事情目前正处在试验阶段。我们在检查性能。”Ting说。#p#
使用各种工具
位于旧金山的专业体育和大学体育的粉丝简讯在线出版商Bleacher Report一年前在把自己的核心基础设施迁移到云中之后很快就发现了性能监视的重要性。
该公司副总裁Sam Parnell称,他的公司担心潜在的性能问题,包括可能的延迟问题,因为该公司要按比例增加能量以满足2000万用户的需求和每个月查看5亿次网页的需求。为了防止出现瓶颈,他购买了大量的工具为这个广告支持的网站监视和管理这个新的云环境。
Parnell表示,“没有任何一个工具能够为我们做一切事情。我们在不同的层次使用不同的工具,为我们提供全面的监视套件。到目前为止,没有出现延迟问题。不过,我们使用这些工具优化系统的各个部分。”
该公司的工具箱包括一个服务器级的工具Scout。这个工具允许IT员工查看在主数据库和备用数据库中的工作量是什么样子,以及查看服务器上的处理器利用率和内存消耗。使用在云服务器中运行的代理程序可以完成这种监视并且报告提醒和状态数据。
这家公司还使用Nagios Enterprises的监视工具和Monit的开源软件工具。Parnell称,“这些工具肯定有许多是重叠的。但是,这些工具都有自己擅长的功能。这是我们一起使用这些工具的原因。”
Bleacher Report还使用Pingdom的ping检测工具以保证各个网站正常运行和在运行很好地运行。
“在监视的每一个案例中,100%的正常运行时间和快速的网页响应速度是非常重要的。如果人们不能访问这个网站和看到广告,那么,我们就要亏损。”Parnell说。
这家公司还使用New Relic的工具监视应用程序性能。这样,IT人员就能了解哪些网页运行速度快、哪些网页速度慢、内存消耗和处理器使用等性能问题。
实时观察
Parnell称,他的员工不间断地观察监视数据实时到达显示屏上情况。
他指出,关键是利用广泛的产品进行监视。这样,在出现故障的时候,你就会尽快得到更多的信息以便修复故障。总的来说,我宁可要过多的数据也不喜欢数据不够。New Relic工具能够很好地把重要信息显示在控制台。这样,你就不必费力地阅读数据。当你要迅速查看运行状态时,这是有帮助的。
为了实时观察性能,Parnell的团队使用一些大尺寸显示器不断地循环播放不同的报告,以便让这个团队的成员一整天都能看到这些报告。Parnell解释说,我们不是每一天都整天深入挖掘这些报告。但是,我们确实监视看起来异常的东西。当我们需要深入挖掘数据的时候,所有这些工具都为我们提供深入的数据。
监视器屏幕主要由一组负责的工程师观看,特别是在部署新的功能或者在高负荷工作的时候。
另一个需要记住的要点是,云环境和云监视都处在早期阶段。IT部门需要灵活一些,找到和使用云监视工具,并且要继续寻找更好的新工具。
Parnell称,我们使用Scout工具只有5、6个月的时间。这个工具工作得非常好。但是,在5个月之后,其它的工具可能做得更好。你需要了解市场的脉搏。这样,你才能跟上新的工具。新的公司一直在不断地出现。
他说,另一个要记住的事情是,你要不断地监视你的云厂商提供的服务器以保证你总是拥有性能最佳的服务器。
“这是使用云服务的最大好处之一。使用云服务,你可以通过控制面板放弃速度慢的服务器并且选择另一台服务器。”
监视工具还一直在内部使用以改善网站新功能的开发。这些新功能都是为Bleacher Report的读者提供的。
“如果一个工程师正在部署一个新功能,我要求他们一定要观察性能并且保证这个新功能不会对其它地方的性能造成不利的影响。我们继续调整和精选这个系统中的一切东西以保证它尽可能是速度最快的。如果突然出现一个重要的体育新闻,我们的网络流量会很大。一切都需要升级。我们需要能够处理这个情况。
知道你将得到什么和监视什么
Forrester Research分析师James Staten称,要得到你的公司确实需要的功能,你必须向你的云厂商提出你的具体要求。
Staten称,最重要的事情之一是透明度,他们将向你提供的性能到底是什么?这包括询问他们允许你直接进行什么水平的监视以及他们向你发送什么记录,这样,你就能够看到正在发生什么事情。如果云厂商没有向你提供这些东西,你要求他们提供。
Staten称,你与你的云厂商之间的关系的主要部分是管理你的预期。他指出,你要做的任何性能监视都是你的责任,而不是你的厂商的责任。
如果你自己不能做这种监视,你可以雇用许多公司为你做这个事情。这些公司包括HyperStratus、Keynote Systems、惠普、IBM、Accenture以及其它公司。
许多人认为他们的服务级协议包含性能监视,实际上是不包括的。服务级协议包括可用性,仅此而已。
他补充说,同时,你的公司在云网络中运行的所有的应用程序和服务并非都是重要任务的。因此,你没有必要监视在云中一切应用程序的性能。你必须搞清楚重要的应用程序是什么。
端对端的云管理还差很远
IDC分析师Turner称,最后一个要考虑的事情是云性能监视市场仍然很不成熟。
Turner表示,有许多厂商将从路线图的角度向你谈论那个事情,但是,那是不全面的。今年仍然是主要强调自动化配置。那将允许真正的端对端的云监视。她说,随着今年的过去,我想,我们将看到更高级的东西。
随着更多的公司向云中的生产环境过渡,这种监视需求将变得更大。Turner称,我认为这将是许多机构今年投资的首选领域。她预测称,由于需要的高级程度,可能还需要一两年时间才能达到那个程度。
Staten称,当然,所有的监视需求都有相互矛盾的地方。当你付费进行监视以确保你将得到合同规定的性能的时候,你首先可能损害你的公司采用云服务节省的成本。如果你花许多钱解决延迟问题,那么,你在云服务中也应该花许多钱吗?