防止基础设施停运的四个步骤-电子商务四大基础设施

我们过着忙碌的日子，这让大家都毫无耐心可言;需要多个步骤的私人任务会让人觉得难以对付。一个典型的例子是：预先规划，为全家出行订购机票。

比如说，你好不容易挤出半小时的时间上网购票，看看大家有没有空，到了秋天探望外婆，以便能在机票大促销之际淘到实惠。可是如果你访问不了经常光顾的那家航空公司的网站，或者访问起来速度特慢，因而无法完成购票，那种沮丧可想而知。你是说“好吧”，过后再试一试，还是会去查看其他航空公司的机票?极有可能会是后者，此外你可能恼怒不已，于是在社交网站上吐槽这次糟糕的经历。

美国西南航空公司在今年6月初遇到了网站速度变慢持续多日的故障，当时它正在搞秋季机票促销的活动。高出预期的网站流量导致其网站速度大幅下降，以至于对大多数客户来说，网页超时打不开。更要命的是，免费热线电话同样打爆了，根本打不进去。西南航空公司照例料到了每年秋季机票促销会迎来更旺盛的需求，但事先投入的额外容量不够充足。这番解释不可能让觉得不便的客户感到满意，也不可能让哀叹收入损失的主管们感到满意。

在我们这个始终联通的无线世界，广大客户对电子商务的要求在不断地迅速提高。哪怕网站性能差强人意几秒钟(更不用说几天了!)，就足以将忠诚的客户送到他人怀里。IT部门证明自身价值的办法就是，通过成熟的、优化的容量管理，让业务部门能够满足这些更高的要求。

那么，企业组织如何才能避免诸如此类的客户服务灾难呢?这归结为做好容量管理的四个必要部分：预测及预防、分析有意义的度量指标、规划时兼顾业务需要以及反复测试。

预测及预防

想避免收入和信誉损失、客户流失，***的办法就是预防停运，尤其是无法怪罪于重大灾难的那种日常故障。要收集和分析机器、电源、日志、使用情况和成本数据，尤其要注重性能和资源使用情况。详细地清查和评估当前容量。与面向客户的业务部门合作，根据历史数据以及规划的未来项目，共同找出使用方面的趋势。

一旦你收集并关联了有意义的数据集，就可以运用预测性分析手段了。这样一来，可以对照数据(根据当前容量及/或规划容量)模拟场景，那样让IT部门可以预测停运事件有可能因过度使用或机器故障而出现在哪个时间点。利用详细的数据深入挖掘，分析导致任何意外结果的根源，那样就能查明弱点，一劳永逸地加以解决，以便演变成令人尴尬的公众事件。

数据驱动的智能预测(可能的话还有模拟)可以揭示流量方面预计增长或猛增的级联效应。有了准确的预测，才有可能认真而经济高效地配置足够的资源，根据需要满足需求，而不是在容量匮乏影响最终用户后，随意地添加容量。

分析响应，而不是分析机器利用率

由于数据中心中生成那么多的数据，可能很难知道该分析哪些数据，而IT部门常常分神，把注意力放在只能表明部分情况的度量指标上。要关注性能，而不是机器利用率;要了解你的客户如何访问、何时访问及为何访问你的网站，以及他们对网站性能有怎样的要求。开清楚最终用户的实际要求和体验。如果规划未来的业务项目，务必要明白业务目标，还要明白最终用户需要实施的变化理应解决什么样的问题。

在技术方面，认真分析延迟和响应时间，以便从统计学角度准确洞察最终用户体验。分析工作负载事务、应用程序性能和虚拟机，看看多少时间用在服务活动上、又有多少时间用在等待资源上。进行必要的调整，以便针对面向最终用户的工作负载和事务进行优化。

合理规划

如果说一分预防胜过十分治疗，那么妥善的计划可以避免大量的补救。要预料到销售(想想西南航空公司)、促销、部署新的应用程序和网站、季节性或时段性流量激增带来的影响。做这种类型的规划时，与业务部门(营销、促销和运营等部门)进行合作很重要，其重要性再怎么强调都不为过。规划架构升级时，别忘了运行模拟所需要的时间和资源，那样你才能准确地了解架构在各种场景下对最终用户而言会有怎样的性能。

你不可能预测每一种可能的结果，也不可能控制每一个因素，所以规划响应停运或速度减慢的体系很要紧。响应的速度和效果关系到停运是小问题还是大灾难。西南航空公司的停运事件整整延续了两天，这在分秒必争的电子商务时代简直不可想象，大量的电话很快让网站之外的唯一选择：热线电话也不堪重负。事件响应规划是企业核心服务和竞争能力的一个重要组成部分。

反复测试

与合理规划一样，测试也需要时间和资源，而证明有必要为测试投入时间和资源可能有难度。记住这一点很重要，全面的、针对性的测试能揭示不可预见的不兼容性、故障和容量问题。今年早些时候，一台内部域名服务器(DNS)上所犯的配置错误导致iTunes和苹果商店停运，结果让苹果在短短12个小时损失了估计2500万美元的收入。

在每次变化或升级前后都要进行测试。测试人员往往忽视了之前或之后的测试，或者只管测试，而不解释测试结果的种种差异。针对各种场景反复测试有助于防止客户流失和收入流失，服务出现故障后常常会出现这种双重流失。它还避免了令人尴尬的公众事件以及随后而来的品牌或名誉受损，而这会带来深远的影响。

healthcare.gov网站大瘫痪就是个典型的警世故事;缺少规划和测试引起的大范围服务故障和延迟在社会、经济和公共福利方面带来了深远影响，可能多年过后仍没有消散。

在巨大而复杂的网站和在线服务生态系统中，想确保***无缺的性能，要兼顾太多的因素。保持竞争优势取决于赢得并留住满意的客户，要是没有经过优化的IT服务交付体系，就很难做到这一点。只有结合数据，深入了解你的系统以及客户如何与系统进行互动，做好容量规划和测试工作，才是确保基础设施有弹性、业务获得发展的关键。

英文：4 Steps To Prevent Infrastructure Outages