新时代的数据中心
数据中心在国内兴起只有10多年的时间,但明显经历了几个阶段:***阶段(-2005)是普通机房阶段,有UPS供电,有空调制冷,放上IT设备就算一个数据中心了;第二阶段(2005-10),随单机柜IT设备功率增加,强调了气流组织、地板下送风,双路UPS供电;第三阶段(2010-15),进一步优化气流组织,冷/热通道封闭、模块化机房、Tier 3/4等级安全性;第四阶段(2015-),互联网应用剧增、大数据、AI、云服务,导致数据中心规模迅速扩大和集中,数万机柜的超大型数据中心成为主流,能效的追求和创新应用发展到***,自然冷、风墙、水下数据中心、液冷服务器等新技术不断被创造和应用。
当前数据中心呈现如下特征:
- 规模超大,5000机柜以上,有的规划已经超过10万机柜;以前的万平米数据中心都不好意思再说自己是大数据中心了。
- 用电量超大,单个110/220KV变电站已经不能满足供电容量,需从多个变电站供电。并且供电电压提升,10KV供电直接到机楼。一个数据中心园区有多个变电站。
- 用水量大,冷水机组的应用,导致冷却水蒸发量大,有的每月耗水量超过30万吨。建筑物内外管网密布。
- 设施层面的新技术应用多,自然冷、风墙、液冷、山洞、水下、集装箱…
运维新挑战
针对上述新时代数据中心的特征,设施运维管理面临的挑战有:
- 规模超大带来的人员、组织和效率的变化。以前万平米以内的数据中心,人工巡检一次2-4小时,现在数十万平米,人工巡检一次一整天都不够,势必需要划分更小的责任区域。需要更多的运维人员,组织的庞大增加了管理的难度,效率的下降。由于运维人员分布在不同的区域,互相交流减少、易闭塞,情绪变坏。
- 电压等级提高,安全风险增加。以往运维人员接触的是低压(低于1000V),现在供电设备、发电机、冷机都是高压供电,维护安全要求提升,但人员的安全意识、工作习惯、个人保护、安全教育未必全跟上。
- 新应用多,技术能力不足。各种层出不穷的新技术和新应用,对运维人员的培训相对较少,实际操作和维护实践不足,技术积累不够,都会影响发生问题时的处置效果。
- 运维人才供应不足,面对迅速膨胀的超大数据中心,动辄数百人的运维人员需求,市场根本无法提供和满足。但基于上述的原因,运维人才的培训和成长周期比较长,以致大家互相挖角,争抢有限的优秀运维人才,导致运维成本增加。
- 规模的集中,导致风险集中,事故影响增加。前些天亚马逊的数据中心事故,导致了全球大面积的服务和应用中断,损失惨重。因此运维管理的压力超前。