了解数据中心设计中的三大最重要的因素,有助于帮助您企业更顺利的完成数据中心设计的起草过程。而将本文作为正确确定您企业数据中心业务需求的参考借鉴指南,则有助于您企业从一开始就得以最大限度地提高整体数据中心的性能,稍后的避免重大升级。
几大基本因素推动了数据中心的设计要求和成本。在制定预算和草拟数据中心的设计蓝图之前,需要对这几大基本因素有相当正确的把握。而如果不这样做的话,很可能会导致数据中心正式投入运营后的相关问题。
在数据中心已经投入运行后才来修复错误是相当具有挑战性的,而且其成本代价昂贵,在操作上也具有一定的风险性。而如果企业数据中心的设计构建团队能够在开始阶段就参考了本文作为其数据中心设计指南,以正确的确定需求,并且其设计符合现代行业标准和实践方案的话,则在数据中心建成运营后的多年内都不必实施重大升级。
在数据中心的设计中:三大最重要的因素分别是可靠性水平、增长潜力(包括正面或负面的)以及硬件流失率或更新率。
确定真正的IT可靠性需求
企业的每一名员工都认为他们各自所操作运营的系统和应用程序是关键性任务,但实际的衡量措施则是,如果他们的系统和应用程序在任何时间发生停机中断,会给企业组织带来怎样的后果。如:系统的停运可能让企业暴露于安全性隐患中,甚至造成员工生命财产或企业的一些其他资产面临严重的风险,或者也可以拿企业或将面临的财务和声誉方面的损失来进行衡量。
停机中断的影响应该基于其持续时长进行量化:十五分钟,半小时,一小时,两小时,四小时,八小时或更长时间。这警告数据中心的设计师们要在数据中心的设计中包括多少冗余,并允许企业组织能够将可靠性成本与潜在风险进行比较。
通常,遵循Uptime Institute的Tier IV严格正常运行时间水平的操作运营人员们并没有完全理解这在数据中心的设计复杂程度、资本成本和运营支持方面到底意味着什么。在大规模的数据中心,Tier IV是合理的,但其对于整个数据中心的操作运营空间而言可能不是必要的。考虑将设施分区,具有较不重要的功能的设施通常在Tier III或甚至Tier II区域中。
在进行任何设计之前,对于系统的关键性逐一进行现实性的评估,应该是实施任何数据中心设计的第一步。有了这些信息,并了解了驱使数据中心相关系统进行实际分类的要素,才有助于数据中心设计师们确定最合适的且符合成本效益的设计建造方法。
即使该设施的设计具有统一的冗余和可靠性目标,但围绕着正常运行时间做出设计决定的过程将帮助优先考虑哪些系统在实施主要中断恢复过程中的需要得到重点注意。
与增长预测的相关问题
尽管云服务为数据中心新机柜的空间不足的难题带来了一定的缓解,但许多企业组织仍然需要保持对于其关键计算的直接控制。数据中心规划指南应包括现场搬迁和增量增长等方面的注意事项。在经历了服务提供商的成本和/或性能问题困扰后,部分企业组织又开始逐步将操作运营撤回到自己的数据中心。
而使得预测变得更加具有挑战性的是,功率、热负载和空间经常会独立增长,即使IT设备机柜数量下降了。较小的IT硬件通常意味着垂直规模的减小,但这通常使硬件更深。现在,标准高度机柜的深度必须为42英寸至48英寸(1060至1200毫米),而不是传统的36英寸(900毫米)。数据中心需要更宽的通道用于在机架和设备中操作。现在的机柜比传统机柜宽24英寸(600毫米),以适应电缆密度的增加,以及双电源板和电源线的增加,并且不会阻塞排气空气流量。当前,整个数据中心业界所推荐的标准是30英寸(760毫米)宽。即使机柜数量实际并没有增长,机柜深度和宽度组合的增加也将需要更多的占地面积。
打包到机柜中的IT硬件越多,以及从每款设备中所获得的性能越高,就将需要消耗越多的功率,同时也就会有越多的热密度需要越多冷却处理。虚拟化和整合是数据中心这一设计指南变革背后的主要驱动力。密集操作需要更多空间用于不间断电源,配电单元和空调设备,其中大部分现在都安装在设备机架行内。即使新建的方法不会增加总的建筑面积要求,但物理布局也将如此。
在进行兼并和收购的公司,以及突然获得资助将主要计算系统注入设施的研究企业组织中,增长尤其难以预测。
在未来几年里,不会有真正准确的增长性预测,但是对概率的实际评估将支持多年来支持模块化设计的弹性规模化缩放。这种灵活性是衡量一处成功的现代数据中心设计的真正措施。
由于硬件的高流失更新率,一些企业组织开始维护自有的数据中心。而为了保持最佳的竞争性能,金融机构具有短的硬件更新周期。学术研究机构的大型研究系统的更新周期则没有那么频繁。任何企业组织机构都可能由于各种原因而迅速变化细分。高速率的硬件流失更新需要数据中心快速和便捷地调整容量,这通常是一个人工手动的任务。操作运营空间、电力功率和冷却需求的大规模且频繁波动增加了主机设施的费用账单。
数据中心的硬件流失更新率很容易基于其操作运营历史实施量化。这一信息显著影响了数据中心设计中内置的灵活性程度。运营操作人员需要及时获取更新信息,以支持不断变化的计算需求,保持能源效率并最小化能源成本。
电源功率和热负载
一旦设计人员遵循设计指南了解了基本要求,就可以从电源功率和热负荷开始来建立实际参数了。
避免操作空间每平方英尺过度的功率分配——今天的数据中心在整个空间都是统一的。按照平均值进行设计在一些地方会产生容量不足的情况,而在其他一些地方则又会造成过度配置,以及如果整个设施装备有最大预计负载,则又会造成不必要的成本消耗。
按机柜开发负载估计。现有的机柜负载很容易从智能电源板或通过电工的钳位仪表上获得。来自钳位仪表的电路负载测量是瞬时的,并且不是随时间的推移获得的平均值,但仍然提供了相对的机柜工作状况的良好指示,设计者可以从中进行规模大小的判断。
建筑物的影响
数据中心建筑在您可以接近理想的数据中心设计的距离方面起着不可避免的作用。即使是绿色环保的建筑也有其实际的限制。但是,当您必须使用现有的结构时,建筑条件往往会对设计和成本造成严重的破坏。现有机柜列中断了机柜行,导致空间布局效率低下。不规则的墙壁塑造了布局,降低了地板空间的效率。楼板可能需要结构加固,或需要更宽间距的机柜行来分散负载。板到板的高度可能不允许升高的地板以输送空气。操作机房的高度决定了设计是否可以使用回风室,或者是否有足够的空间来安装协调的架空基础设施。如果没有高架地板,电源,电缆桥架,冷却和照明管道都会产生开销——甚至可能会产生冲突。数据中心的窗户是一个主要问题,应该在数据中心建筑规范中删除或覆盖。货运电梯通道必须是强制性的,因为其是搬迁移动昂贵设备而不会遇到陡峭的楼梯或尖锐墙角障碍的明确路径。当然,除非数据中心建筑物具有足够的电力,并能够获得通用运营商的通信支持,否则其成本将飙升,而设计方面所带来成本优势将永远是有限的。
数据中心必须始终有空间以用于冷却塔,热交换器和发电机。这些大的设备单位也会产生噪音,设计师必须采取相应的措施,以确保这些噪音不打扰到在建筑物或近邻的人员。
数据中心的设计没有一刀切的解决方案。甚至容器集装箱化的模块在一定程度上也是定制的。但对于企业专门建立的数据中心而言,大型投资应该特别进行慎重的考虑。在建立预算,确保正式破土动工之前,务必遵循此数据中心设计指南。
新的数据中心指标衡量能源,冷却效率
新的数据中心指标超越了电源使用效率的范畴,以确定基础设施的总体效率,注重能源和冷却。尽管电源使用效率指标具有其优势,但并不总是足以完全优化数据中心的效率。IT团队需要更详细的数据中心指标,包括电源和冷却基础设施以及计算系统,以真正优化数据中心。 作为朝着这个方向所迈出的一步,美国环境保护局在2007年发表了一份关于数据中心效率的报告,宣布了他们开发服务器能源之星评级的意图——他们也确实这样做了,尽管比预期晚了几年。绿色网格组织在2010年发布了水使用效率和碳使用效率指标,虽然他们得到的关注度相对较少。在2016年六月,绿色网格组织宣布推出了性能指标(PI),一个着眼于冷却标准的指标,并把它与能源效率进行整合。我们正在被大量数据中心的性能和效率指标所淹没,但对于大多数IT团队而言——即使对他们的电力使用效率(PUE)实施了定期跟踪——仍然需要采取更先进的数据采集和分析能力的相关度量步骤。对于那些准备使用更复杂的优化工具的企业而言,有一些关键性的考虑因素。
扩展数据中心度量的目的
通过关闭闲置僵尸服务器、整合和虚拟化的应用程序或购买能源之星评级的硬件来节约能源是很常见的。但是,除非电力和冷却基础设施也进行了优化,否则减少现有系统的负荷可能是非常困难的,并且将不会显著提高能源效率。这意味着PUE会变得更糟。通过使用PUE作为基准,而不是跟踪度量,可能看起来好像没有节省能源,相关的投资和努力也是不值得的。企业的管理层预期他们的投资产生了一个较低的PUE,而对这个数字实际上意味着什么并没有很好的理解。
而这就是其他数据中心衡量指标的价值所在了,例如绿色网格组织的数据中心能源生产力(DCeP)。 DCeP量化的是数据中心实际产生的有用的工作负载所消耗的能量瓦特数。DCeP度量允许用户建立其有用的工作负载的定义。例如,在线搜索公司可能将其有用的工作负载定义为完成的搜索数。而对于零售商而言,这可能是销售的数量。 PUE仍然是必要的,但DCeP数字可能更容易被经验较少的人们所理解。虽然DCeP不是科学上准确的指标,但其提供了一种方法来量化您使用的能量所实现的实际效果。如果一组服务器几乎没有工作并且大多数时间都处在闲置状态,则它消耗最少的能量,需要最小的冷却并且不会显着影响PUE。但其仍然会消耗一定的能源。DCeP将对这一消耗进行显示;其目标是最小化能量消耗并最大化有用的工作。对于处于领先地位的企业组织机构来说,想要在他们所使用的每一瓦特功率中都能够实现真正有用的生产性计算,复杂的服务器可以提供远远超出CPU利用率的操作数据,而更复杂数据中心指标则可以跟踪结果。
但PUE和DCeP仍然是关注于能源效率和能源消耗减少的。使用它们可能会产生无法识别的后果,因为它们不会显示为了节省能量而做出的损害数据中心设备冷却和可靠性的负面影响。新的PI度量标准,对于具有超过一般数据收集技能、以及优化其操作的每个方面的能力的管理人员们最为有用。
PI测量的四个级别
有四个级别的PI测量。1级是基本的,不需要使用复杂的设备。2级需要更彻底和准确的测量。3级和4级增加了计算流体动力学(CFD)空气流模拟,以提供性能的视觉图像,并且能假设场景,观察未来的能力和故障模式以及能量效率。 3级是正常建模。4级使用实际的详细测量来校准CFD模型,作为其他检查的准确基线。
使用扩展数据中心度量标准(如PI和DCeP)有三个要求:
- 跟踪PUE;
- 定义在计算操作中什么工作构成有用的工作负载;
- 获得对于每台机架所消耗功率和温度的详细测量。
PI通过组合PUE、IT热依从性和IT热适应性来补充现有方法。后两者分别基于ASHRAE推荐的和允许的热封套。热适应性和弹性检查冗余冷却在正常和异常条件下的工作状况。如果必须降低计算机机房的空调空气温度以满足热合规目标,则PUE可能增加。 PI度量的要点是知道硬件被冷却的可靠性、设施的能效如何、以及一个条件如何影响另一个条件。决定距离想要达到的操作的最大值的接近程度,以及要所达到能效目标或PUE的目标。然后,测量实际条件,并将它们绘制在三角形图表(也称为蜘蛛图)上,看看它们与您企业的目标有多接近。
现在,有几种数据中心的指标,以最大限度地提高整体数据中心的能源效率方面的工作,包括每单位能量消耗的输出和相对于能源效率的可靠性。对于大多数操作而言,坚持基本原理和跟踪电源使用效率仍然是优先事项。其他的指标也可以适当跟踪,但PUE仍然是基础。即使您企业还没有准备好采取更为深层次的措施,但还是要了解并知道行业正在提出什么建议——如果您企业已经确立了自己的相关节能目标的话。