机房宝典:如何解决服务器制冷故障?

运维 服务器运维 服务器
网络基础设施设计是一个错综复杂的过程,每一个细小的决定可能都会影响到数据中心的服务器,其中最容易被忽视的是服务器制冷需求,不是误判就是严重低估,这种失误在各种环境中都时有发生

网络基础设施设计是一个错综复杂的过程,每一个细小的决定可能都会影响到数据中心的服务器,其中最容易被忽视的是服务器制冷需求,不是误判就是严重低估,这种失误在各种环境中都时有发生。历史经验表明,不断紧缩的IT预算迫使数据中心忽略关键的制冷和温度控制需求,即便是大型数据中心有时也是这种情况。只有有效地预防服务器制冷故障,才能确保运行在服务器上的应用永不掉线,企业才能真正地节省开支。那么如何做好服务器的制冷工作,发生故障时如何处理是好呢?(51CTO推荐:俄罗斯变态狂人超频AMD至7G 液氮保证制冷

服务器制冷量

在处理服务器制冷基础设施中的故障前,必须要了解制冷系统是如何工作的,以及究竟需要多少制冷量,制冷与数据中心摆放的电气设备数量紧密相关,预期的电力消耗可以根据设备上标注的安培数进行计算,安培数越大就表示需要更多的制冷量。最简单的计算方法是知道服务器的耗电量(每台服务器或所有服务器),通常,一台单CPU的服务器需要1安培或120瓦(1安培x120伏=120瓦),双CPU(如至强或AMD)服务器需要2安培或240瓦,最后乘以每瓦需要的制冷量(约3.4 BTU)就可以计算出服务器需要的制冷量了。

例如,一台120瓦的服务器需要408 BTU的制冷量(120x3.4),使用这个方法计算出所有服务器需要的制冷量,并向取得认证的HVAC顾问咨询计算结果是否可行。#p#

处理服务器制冷系统的故障

服务器制冷系统发生故障时,最重要的是迅速做出决定,并采取行动,正确的行动将让系统正常运行的时间更长,并防止再发生更严重的故障。下面这些指导方针在发生制冷系统故障时可以参考:

1、了解谁是维修人员,以及如何让他尽快抵达现场。

第一个电话应该打给HVAC工程师,尽可能详细描述问题,这样有助于工程师判断是否需要带零部件,在故障发生的第一时间,必须分秒必争。

2、了解并预测如果制冷设备发生故障将会产生什么影响

例如,在机房温度上升到临界值(>120℉)之前,服务器可以撑多久,这样可以算出留给维修人员的最大时间,以及是否需要启动备用系统。

3、与相关公司就关键环境签署服务水平协议

如果没有签,最好准备一套便携式制冷系统。例如,Tripp Lite的SRCOOL12K就是专门为紧急制冷而设计的,它可以提供大约12K BTU制冷量,有些地方紧急制冷设备非常昂贵,可以短时间租用。如果机房温度达到临界值之前只有几小时的时间,你可能将要面临财政上的损失。

4、关掉非必需的服务器

开发服务器通常是用电大户,在生产期间它们无需运行,还有测试服务器,以及所有非必需的服务器都应该统统关掉。

5、如果机房温度上升到快达到临界值时,最好打开门窗,总之想法降低机房的温度即可,如果户外温度比室内温度要低,可以使用风扇将热空气吹出去。

6、最后一条是处理制冷系统故障时最重要的一条:确保提前做好所有数据的备份工作。

如果提前做好了制冷系统故障处理应急预案,当真正的故障发生时将会发挥巨大的作用。如果你知道你的服务器等不到故障解除就要关掉,最好提前启动远程备用数据中心,并做好转移的准备。企业的应急计划应保证任何情况下业务的正常运转,即使是非常紧急的情况也应该如此。此外,还应该制定灾难恢复计划,在突发事件等紧急情况下,可以有序地将整个数据中心上的业务转移到备用数据中心。

#p#

服务器制冷冗余

一个制冷设备发生故障不应该将整个数据中心陷入烤箱,如果制冷系统做了冗余,并有相应的故障转移计划,你就可以慢慢等维修工程师上门。

最基本的冗余制冷方法是n+1,但很大一部分取决于制冷需求和公司的预算,对于一个中等规模的数据中心(约1000平方英尺),可选的制冷方案有多种,例如,你可以给服务器机房部署一个1.5吨位的AC设备,再加一个1吨位的设备作为备用,这些装置可以负载均衡。

ESPO的网络架构师David Langlands说:“对于中等规模的环境,最好找个获得认证的HVAC专家交流交流,如果资金允许,一个完整的n+1冗余环境在给定时间内将有3-4个制冷装置在运行,这意味着你的制冷系统将可以保持100%可用”。

对于大型数据中心(大于5000平方英尺),制冷需求有所不同,相对于中小型数据中心,大型数据中心一般都会加入预防制冷故障的设计,只有这样,不管是正常例行维护还是故障处理,即便是在业务高峰期,即使有多套系统在运行,都有充足的维修时间保证。诸如艾默生电气或一些知名独立顾问都可以帮助你设计具有冗余的服务器制冷解决方案。

大型数据中心一般都采用以下这些制冷技术:

- 抬高地板下面的空间,增强冷空气流动。

- 在服务器之间的空隙处加装挡板,提高空气流动效率。

- 整个机房的空气全部来源于冷通道,所有热空气全部从热通道排除去,对于大型机房,还应安装多条冷热通道。

- 安装在屋顶的冷却器将乙二醇通过封闭的管道推入到数据中心,在数据中心循环,以达到降温的目的。

- 使用AC型鼓风机将通过乙二醇冷却的空气吹入服务器机房。

还有其它种类的制冷设备和技术,最好还是听听HVAC专家的意见,他们可以帮助你选择最合适的产品。#p#

服务器制冷最佳实践

最后,我们总结了几个处理数据中心制冷问题的重要原则:

- 在快速拨号组里加入HVAC专家的号码。有制冷冗余就绪计划。

- 监控温度,并建立一个系统记录温度变化情况,当服务器温度超出警告阀值时及时提醒,AVTECH TemPageR就是这样的系统,它会以日志和图形的方式展示温度值,这个200美元的设备简直千值万值。

- 除了温度外,还要监控湿度,不要让服务器机房结冰。

- 查看所有水流的去向,不管是用滴水盘还是水路由方法,只要将水流引出机房,不渗漏即可。

- 数据中心对制冷的需求越来越高,但制冷需求增长速度却常常被忽视,Langlands说:“不要根据当前的需求设计制冷系统,应提前做好未来制冷量增长的规划”。

小结

在规划或处理服务器制冷系统故障时有太多的因素需要考虑,最好的办法是防患于未然,用一句话道出其中的天机就是:做好冗余和备份,熟记HVAC专家的联系方式。

【编辑推荐】

  1. 数据中心制冷选择 风冷液冷谁更佳?
  2. 寒光照铁衣 利用外部冷源实现机房制冷
  3. 俄罗斯变态狂人超频AMD至7G 液氮保证制冷

 

责任编辑:小明 来源: TechTarget
相关推荐

2009-06-29 19:20:05

刀片服务器机架服务器

2017-09-28 10:00:44

机房故障方法

2009-12-11 10:27:07

APC

2009-11-19 16:47:47

路由器故障

2011-07-13 16:26:30

服务器

2012-07-03 14:02:28

路由器故障

2010-08-27 10:08:57

DHCP服务器

2009-08-18 15:26:01

服务器常见故障

2009-09-24 15:17:19

打印服务器

2018-10-16 09:28:43

网站服务器故障

2009-09-24 15:09:27

打印服务器

2019-12-27 11:13:24

高并发服务器逻辑

2023-08-27 18:30:44

系统inode

2009-01-05 18:12:47

BalancePoin灾备虚拟化

2010-09-27 16:23:28

APC

2010-08-03 14:58:38

APC

2024-04-29 10:56:26

数据中心服务器服务器机房

2017-04-29 10:14:31

2009-01-09 23:01:24

2010-05-19 10:40:19

虚拟机备份
点赞
收藏

51CTO技术栈公众号