近日,谷歌(Google)第一次允许媒体记者进入该公司位于世界各地的数据中心进行参观拍摄,向世人展示其迷宫一样的世界。这些数据中心日以继夜地处理着全球网民的搜索请求、Youtube视频和邮件等。虽然本次公布的只是一些图片和非常有限的视频资料,且没有详细注释说明,但如古老的谚语所述:一张图片胜过千言万语,今天我们将就这些有限的图片管中窥豹,分别从制冷、机柜、服务器、建筑等方面做一些最粗浅的分析以飨读者。
一、制冷篇
图1是谷歌某个数据中心的内部场景。从该图可以首先看出这个数据中心的冷站规模很大,整个房间管道林立,色彩斑斓非常好看。
图1 谷歌某数据中心内部场景
空调管道采用了谷歌企业标准色来区分不同管路的功能。例如,绿色标注的是冷却水回水管,黄色是冷却水供水管、蓝色是冷冻水供水管,深红色和冷机侧的粉红色管是冷冻水回水管,白色的是消防管路,从而便于运维人员快速定位并查找问题。IT设备同样也采用五种颜色的网线,加上不同数据中心不同主题的装修风格,都是数据中心颜色标识管理的典范。
图1的左侧是大型冷水机组,右侧是板式热交换器,以便在室外温度较低时候采用板换散热实现水侧节能(water-side economizer)。谷歌也非常重视数据中心的耗水问题,据他们估算,采用高效节能方式的数据中心每年可节约几亿加仑的饮用水。
从图1还可以看出,有一些运营层面的小细节也考虑得非常周全。例如,管路屋顶等地方采用了很多的电动吊装葫芦链条,方便重型设备的吊装维护或更换;又例如,管路底部采用了中间凹两边凸的滚轮型支撑,这样会减少管路振动和拉伸形变产生的物理应力;还有,楼层间的竖管采用了U型弯曲以便减少水温变化和建筑形变带来的隐形损伤;冷机周边地面也配备了应急排水口,等等。此外,在偌大的机房中,运营人员采用同样运用了谷歌标准色的自行车来进行现场巡视。 #p#
二、微模块机柜篇
图2为谷歌在美国俄克拉荷马州的数据中心,整个机房在大量服务器LED指示灯的闪烁下显得非常整洁和梦幻。
图2 谷歌俄克拉荷马州数据中心
从这个整机房的俯视图看,数据中心采用了厂房式大开间框架结构。封闭热通道的一排排机柜构成庞大微模块阵列,机房顶部是供电网络桥架和消防管路,服务器和交换机的状态灯闪烁着,只有极少量的机房级照明。
整个数据中心面积很大,走道以及顶部空间都非常宽敞,但设备区却较为紧凑。机柜间冷通道才两块砖多点的距离(标准砖宽度为600mm),其中热通道占用了大约两块砖的距离,而且服务器机柜的深度较短,也就一块砖多些。
从图2较近处还可以发现有些地方以蓝色布帘密封。这些密封的地方应该是空缺的位置,是留给服务器机柜的,这也说明了谷歌的服务器部署是以机架为单位快速安装部署的。用布帘密封可以隔绝冷热气流的混合,减少冷量的浪费,体现了精细化运营的思想。高密度的服务器采用全正面维护,顶部为密集的TOR交换机单元。
仔细观察图2还可以看出,谷歌采用了创新的空调置顶散热方式。整个机房大环境作为冷通道提供冷量给服务器吸入,加热后的热空气在封闭通道内上升,然后通过热通道顶部的空调盘管制冷,并被几个烟囱状导风管和大散热风扇重新循环回外部冷环境。这种空调置顶布局虽然存在着盘管漏水、更换维护较难等风险,并对产品质量和施工工艺要求非常高,但其气流组织较为合理。例如热气流自动上升,冷气流自动下沉,从而减少风扇的功耗,且机房大冷池环境可以作为缓冲池,减少局部空调故障引发的热保护。
据相关资料显示,谷歌微模块(图3)的整个热通道温度非常高,像个大烤箱,温度可以高达49摄氏度,以至于一旦必须进去维护,那么服务器必须关掉才行。采用热通道封闭可以提供一个较为舒适的现场运营环境,热量被限制在热通道中,并被冷冻水带走。虽然大开间铁皮厂房的冷量密封保温特性不太好,但因为谷歌服务器的高温工作特性(如图3所示谷歌服务器的深度较短,大约只有600mm多的深度,散热会比较容易),送风温度高达27摄氏度,因此这个较高温度下的冷量传递损失不会很大,围栏效应的影响几乎可以忽略。
图3 谷歌微模块内的热通道
图3显示了谷歌微模块热通道内部的一些细节。例如,热通道宽度大约是两块标准地板砖,里边安装的是机柜顶部空调盘管的安装支架和加固支撑,地板底下的快接软管提供冷冻水给热通道顶部的空调盘管。从冷冻水管的数量和密度上看,顶部空调盘管也做了模块化冗余设计,是个很不错的设计。服务器全正面维护,每台服务器采用三个分布式较大风扇散热,绿光来自服务器内部LED状态灯。根据整机房以及微模块内的照片,我们还可以猜测到,为匹配置顶空调。
谷歌的微模块是6个机柜为基本单元来建设,每排机柜以3个机柜为最小颗粒不断延伸。谷歌自行设计的服务器采用尽可能少的能耗,并控制风扇转速到足够低,只要服务器内部温度不要超过设定值就可以了,处处都体现节能。
谷歌在供电和制冷等方面总能打破常规。例如,他们有些机房没有采用商用的传统UPS和精密空调方案。图4则是谷歌创新的“三明治”服务器,谷歌还为此申请了专利。“三明治”服务器采用的是液冷散热片,上下两个服务器靠此散热片内部的冷冻水以及循环风扇带走热量。
图4 谷歌“三明治”服务器示意图
当然,也不是谷歌的所有机房都采用这些创新的散热方案,例如一些POD小机房(图5)和网络设备间(图6)就采用传统的散热方案。图6展示的网络设备间采用了传统的风管上送风或者地板下送风方式散热,双路冗余高可靠供电。不过,在这些传统机房模块中谷歌都采用了简单低成本的塑料帘子隔离冷热通道方案,避免了冷热气流直接混合短路,也大大提高了能源利用效率。
图5 谷歌一POD小机房
图6 谷歌某数据中心的网络设备间
从谷歌早期发布的一个POD机房优化视频中可以看出,通过一些精细化运营手段,例如机房CFD仿真改善气流组织、采用冷热帘隔离、提高送风温度、安装蓝色LED灯用于照明等措施,可以使数据中心PUE值从原来的2.4降低到1.5以下。这也说明即使不用费心创新,单纯采用运营优化也可以实现较好的节能效果。 #p#
三、谷歌服务器篇
步入谷歌的大型数据中心,整个机房的服务器阵列非常整齐壮观,海量的服务器风扇同时运转带来巨大的噪音,以至于进入数据中心必须佩戴防噪耳塞。
图7 谷歌数据中心的服务器阵列
从图8和图9可以看到谷歌的服务器上架有两种配置方式,分别是低密方式——每机柜约放置十五六台服务器,以及高密方式,每机柜接近三十台左右(可能采用类似Facebook的1.5U高效风扇设计)。
图8 低密度机柜
图9 高密度机柜
除开密度不一样,共同的地方则是都采用了TOR交换机置顶,PDU和网络快速接口都在左侧。每台服务器含有2个或者更多的子机,服务器没有前面板也无上盖板,这样不仅成本更低,散热也更好。而且服务器通常很短,采用不同颜色的网线做功能区分。网线和电源线采用快插接口,即插即用。机柜底下滚轮设计方便整机架快速部署和搬迁,全正面维护,方便现场快速维修和免工具更换。
透过这些照片,也可以看到不同版本不同类型的谷歌服务器设计。和早前发布的带铅酸电池服务器设计不一样,新版本的服务器结构更为方正美观。最关键的是,这些自行打造的服务器要比标准的商用服务器要便宜不少。
尽管仍被视为互联网公司,谷歌实际上已经成为世界上最大的硬件制造商之一,因为它的设备多数是自己制造的。
1999 年的时候,谷歌基础设施高级副总裁Urs Hölzle[zy1]从“三个开电子商店的家伙”那里买了 2000 个剥离下来的电路板。通过改造,去除不必要的部件,谷歌构建了自己的服务器。DIY服务器的价格是1500美元,而当时的商用机价格约为5000美元,考虑到其上百万量级的服务器设备,那么DIY服务器带来的成本节约会是天文数字。
谷歌DIY的服务器简单易维护。如果服务器出了故障,甚至可以免工具快速维修,实在无法维修则直接报废拆解成电子垃圾回收。并且,谷歌在定制的服务器内部安装了分布式的带电池UPS,可以省掉传统数据中心大量UPS的采购成本。而且该内置UPS可以实现供电效率99.9%,相比传统的UPS方案也实现数据中心总节能15%,这在能源紧张运营电费高涨的今天无疑是非常大的费用节省。
图10 谷歌工作人员在维修服务器
为了统一管理自己的服务器,谷歌开发了一个软件系统。数据中心管理者能够通过这个系统指挥数千个电脑,如同一个计算机一样。在 2002 年的时候,谷歌开发了谷歌 File System,可以在不同的机器上顺利地传送文件。MapReduce则是谷歌为编写云端服务而开发的系统,它的开源版本Hadoop已经成为业界标准。
此外,谷歌还开发了一个自动化的决策系统 Borg,用于决定哪个机器最适合某项任务。这对服务器集群的稳定性提出了更高的要求。为此,谷歌内部有一个团队,叫做 SRE(网站可靠性工程团队),他们的任务就是使用各种方法,对服务器进行破坏,以检测公司进行危机处理的能力。每年,SRE都会进行一次虚拟的战争,叫做DiRT(disaster recovery test)。攻击是虚假的,但是几乎和现实一样,危机管理人员必须按照处理程序来做,如果他们不能找出处理方式,攻击就必须停止,以免影响到真正的用户。
谷歌公司内部的某个墙上展示着一排排的主板,那些代表着谷歌成立以来自己打造的不同时代的服务器。其中有一块标明着2008年7月9日,那是谷歌有史以来的第一百万台服务器,但这是个累计的数字,并不意味着那个时间谷歌已经拥有百万台服务器的规模。 #p#
四、数据中心建筑篇
谷歌在数据中心选址上非常谨慎。以谷歌位于哥伦比亚河畔的Dalles数据中心(图11)为例,谷歌喜欢将数据中心建设在河流旁边开阔的谷地。而且,可以看出其典型的建筑风格是大开间低层厂房结构,多为结构较为合理的长条矩形状。大型架空冷却塔和底下的储冷罐位于建筑边上,附近是两个为数据中心配套的变配电站。直接采用附近水电站便宜的绿色充足水电来给数据中心供电,空气质量很好。
图11 谷歌Dalles数据中心
图12 谷歌Dalles数据中心平面布局图
类似选址的还有谷歌建于比利时的数据中心(采用运河的水处理后来散热),以及芬兰湾哈米纳数据中心(直接采用海水来给数据中心散热),而不像国内,许多大型数据中心受限于种种原因多建在沿海城市,忍受着空气质量不好、电力容量少电费高、多层建筑租金昂贵等多种弊端。
总之,谷歌的数据中心选址多位于能源较为丰富、气候条件较好的地方。一则可以大量使用绿色低成本的能源,二则还可以利用较为优越的地理气候条件实现更为节能的自然冷却。目前谷歌主流的数据中心年PUE值基本可以达到1.2以下的水平。且数据中心和周边自然环境融合很好,数据中心周围倘佯的小鹿、漫山的野花、氤氲的冷却塔蒸汽、静谧的河流以及雪地垂钓等,都体现了人与自然的和谐相处。
五、结语
谷歌非常注重自己的信息安全,例如谷歌会将使用过的硬盘全部销毁。就数据中心的创新技术而言,Hölzle说:“谷歌付出了鲜血、汗水和眼泪,也希望其他公司也能付出自己的艰辛来自己打造,成就更多的发现和伟大。”
虽然谷歌这次如此大规模地公开其数据中心的秘密,但谷歌所透露的都是通常一两代之前的技术。至于谷歌当前的技术究竟发展到什么水平?我们还不得而知,但谷歌自己说过,一旦他们自己的员工看过了谷歌正在打造的2013年下一代数据中心和服务器集群,那么他们将无比抱怨目前的这些设计。
即便如此,本次披露的这些数据中心也像是一件件精美的艺术品,使用的技术也都是业界非常领先的技术。我们在拭目以待谷歌更多更新数据中心技术的同时,应该从这些资料中学习并理会其思想,以同样孜孜不倦的创新精神去实现构建完美的数据中心。