2015年8月6日晚上,部分QQ用户出现无法登录故障,这直接影响到了腾讯旗下多款产品的连接使用,直到22:30左右才恢复正常,事后据腾讯确认是因QQ服务机房故障而导致。而在此之前的半年多时间里,多家知名互联网企业因服务器、网络设备产生的大大小小各种故障已有数十例。对于像互联网公司这样依赖优质的网络体验而生存的企业,如果出现故障,其产生的影响和后果非常严重。
既然网络故障带来的负面作用如此之大,可如何消除这种故障呢?没有任何一家企业愿意出现这种故障,而出了故障则说明其数据中心必定存在健康问题和隐患。因此我们有必要仔细分析数据中心运行故障高发的成因,选择更加完善的监控管理方案,以保证数据中心的健壮稳定。
数据中心作为提供各种数据处理的核心场所,对于IT系统的重要性不言而喻。尤其是对于互联网公司等,包括核心业务在内的所有网络业务都是通过其数据中心提供访问和处理的,数据中心的稳定运行是这些业务正常运行的前提。试想一个电商企业的数据中心如果中断1小时,可能会带来上千万元的损失,而在市场竞争激烈的当下,业务的中断除了遭受经济损失之外,还会流失大量的客户,这对企业未来的发展是非常不利的,所以提供连续的优质网络服务对于一个互联网企业至关重要。
当然,企业也清楚这点,每年花在数据中心上的投入也非常大,除了人员方面的投入,基础设施的建设投入占据了***的比重,但是到头来还是会出现这样那样的故障,为什么?这很大程度上是由于企业业务增长太快,而导致数据中心的负担愈加沉重,在不断扩容或者改造过程中比较仓促,隐藏着不少安全隐患,即便是像腾讯这样的大型企业也在所难免。高速扩张的结果就是系统架构总是要改变,从而带来运维管理上的局促,随着业务量的增长,危机四伏。
数据中心历来都是一个对新技术渴求***烈之地,都希望可以引入先进的技术和设备,从而更好地为业务服务,同时在行业竞争中不落后于人。不过,引入新技术虽然解决了原有系统存在的问题,为业务提供了有效的支撑,但往往给数据中心带来了新的运行风险。因为新技术、新系统可能还有很多不够完善的地方,如果运维管理工作没有跟上,则运行起来就容易出问题。为了保证业务的长期稳定运行,数据中心从应用、服务器、网络、防火墙、物理链路等等都要有生产系统和备份系统,这也会将数据中心设计得过于复杂,实际运维起来非常麻烦,一旦出现问题反而不知道问题出在哪里。因此,再好的技术,也还是会出故障。所以必须要加强对数据中心的监控管理,如此才能降低数据中心出现故障的风险。
实际上,绝大部分数据中心都无法做到常年业务不中断,但是尽可能地减少故障,确保其运行过程中随时监控管理,预、告警任何错误故障,不放过任何相似的问题,将风险降至***,这也是监控管理软件的***使命。