幸运的是,我们不会经常遇到这种公司IT灾难。但是在IT灾难发生时,你需要迅速采取措施,冷静地解决出现的问题。为此,我们在下面为大家总结了一个可以解决任何网络危机的指南。该指南分五个步骤,并且简单易行。
步骤1:诊断问题
发生了什么问题?此时应当召集技术专家,切实搞清楚到底是哪里发生了故障。首先由谁来确定故障?如果出现了故障,应当采取什么措施,这些措施是否能够解决出现的故障?解决问题的最佳方法是组成团队展开联合调查。在成立联合调查组后,由调查组梳理情况,诊断故障,调查组成员最好在同一地点工作。首先要提出质疑,获取日志文件,查看性能报告和错误信息。然后,使用所有能够使用的诊断工具。虽然这么做可能难以确定导致故障的根本原因,但是我们还应当要做这些工作。
步骤2:充分理解故障所产生的影响
在清楚了导致故障的原因后,你还需要搞清楚它们将会对哪些工作产生影响。故障是影响到了所有的工作,还是仅仅影响到了一个站点或是一个应用,还是仅仅影响到了使用某一接口的员工。查看一下服务中心,看一下哪些员工提交了网络连接故障报修单。在做这一工作的同时还应当提醒服务中心人员,他们可能会收到大量类似问题的报修电话。
搞清楚故障的影响范围将有助于评估问题的严重性,帮助确定解决问题的优先顺序。总的来说,如果故障仅仅影响到一个人,那么与影响到多个站点或多名用户的故障相比,这一故障的紧急程度就要相对低一些。当然,如果发生故障的线路是连接首席执行官办公室的VPN就要另当别论了。
步骤3:行动规划
如果网络发生了故障,你应当做些什么?如果是真实的故障,你可能无法凭借自己的力量解决这些故障,因此你应当打电话给自己的团队寻求帮助。将团队召集起来后,你可能会找到多个解决方案。在这些解决方案中,有些方案执行起来肯定会快一些。在任何人采取行动之前,应当对将要实施的解决方案形成一致意见。
通常,你会发现,首先需要采取一个权宜之计,快速对业务进行失效备援,让业务运转起来。然后再(或同时)采取一个综合性解决方案。这样一来,你将获得充足的时间来解决故障,并且不会对临时性解决方案依赖太久。
需要牢记的是,应当给团队成员指定任务,让每个人都清楚他们下一步将要做些什么,同时还应当为分配的任务设定一个完成时限。
步骤4:动手解决问题
现在每个人都清楚他们应当做些什么工作了。除了动手排除故障外,还应当定期召开情况分析会,听取工作进展报告。解决方案中的某些部分的工作完成起来可能要比其它部分要快,如果出现这种情况,应当及时进行调整,确保每个人都有事做。
与此同时,还应当尽快启动网络监控,密切关注诊断工作,查看一下你所做的工作是否与实际情况存在差距。
此外,及时在服务中心上公布故障排除进展和解决方案规划是一个很好的主意。这样一来,服务中心工作人员就可以及时向打电话投诉或报修的终端用户进行详细的解释。
步骤5:危机回顾
在危机结束,业务恢复正常运转后,你的解决方案工作的如何?在解决了危机后,不要迅速结束危机管理。在事件平息下来后,回顾一下发生的故障将有助于确保相同的故障不再发生。从事件经历中或许能够学到一些经验教训。如果可能的话,应当与团队中的每名成员分享这些经验教训,并且应当花时间总结一些预防措施,防止未来再次发生类似的灾难。
为了防止在需要的时候无法查阅,我们建议大家将这一指南放到随时随地可以访问到的地方。此外,我们还建议将这些经验与团队成员进行分享,让他们也知道在危机来袭时应当做哪些工作。这样一来,你就有信心自己有能力应对出现的任何问题。最好的网络团队应当时刻为应对最坏的情况做好准备,即使最坏的情况从来都没有发生过。