【2013年11月15日 51CTO外电头条】在数据中心当中,我们需要在设计、建设以及维护等方面投入大量精力--甚至需要比管理数据流更为用心。我们还需要对物理环境进行深入了解。我们需要让所有设备运作在合理的温度,也需要保护设备免受各种潜在风险的干扰--从未经授权访问到带宽“爆缸”不一而足。
环境监控是数据中心建设及维护工作中的重要组成部分,但目前在大部分层面中都没有得到足够的重视。在多数情况下,设计顾问可能在拿出一份数据中心设计方案之后就甩手走人,导致整套基础设施虽然拥有消防及冷却系统却缺乏必要的远程遥测或者监控系统。有的时候,服务器的监控工作可能要由服务器管理人员负责、网络体系的监控工作由网络管理人员负责、存储机制由存储管理员打理,但却没人关注机房本身。
对于刚刚建立起来的全新数据中心来说(或者刚刚完成改造的原有数据中心),我们需要处理的***要务在于部署远程遥测与环境监控系统--不只局限于单一机房的个别区域,而是整体机房内的多个区域。自动程控方案及其它类似机制就是此类环境监控系统中的常见分布式部署类型,而且每一家数据中心都应该配备这些解决方案。
掌握运行温度
说起应该监控什么、如何实施监控,我个人的总体思路是:无论收集多少统计结果与数据点都不过分。很显然,我们需要监控温度,但除了最直观的机架入口之外、机房的天花板与地板也是监控的必要区域。在理想状况下,我们应该每隔几个机架就在前端设置一个温度传感器,用于测量流入硬件的空气的实际温度。
环境温度同样非常重要,如果数据中心内设有热空气排放通道、我们还需要在这里设置测量装置。除此之外,我们也不能忘记测量露点温度、湿度以及气流,其具体测试区域同样应该覆盖整套基础设施。再有,记得为机架安装开闭传感器,用于监控其何时被打开。
我希望能在机架附近、空调机组附近以及任何潜在水源附近安装液体感应装置,这类出于某些原因而未能独立排布的输水管道很可能发生渗漏,因此必须通过感应装置加以监控。大家还可以借助拉绳传感器测量机架通道的长度。这些传感器构造简单,能在接触到地板上的水流时***时间发出警报。振动及烟雾传感器这些在他人眼中似乎无足轻重的装置也能为我们服务,用以进一步提升监控效果。
当然,摄像头也是必不可少的。在数据中心内部,不应该存在任何摄像头无法覆盖的死角。将固定位置与旋转-变焦摄像头组合使用,而且至少要在关键位置使用具备红外线功能的摄像头,从而实现黑暗环境下的可视需求。
如何处理这些数据
有了这么多数据收集点,我们已经对数据中心有了非常深入可视化监控基础--其监控范围涵盖机房当中的服务器及其它硬件设备。这些数据应该得到良好的维护、追踪以及引导。利用SNMP(即简单网络管理协议)及Cacti等工具、或者由供应商提供的方案,大家应该能够在任何时间调出任何一个传感器的数据并加以查看。大家还可以比较几个月来随着新设备的增加、环境温度是否有所提升,也可以验证特定机架是否处于开启状态。
说起警示系统,我们需要经过一段时间的实际应用来为某些传感器找到合理的警报阈值,并通过电子邮件及文本形式交付警报消息。对于高流量数据中心来说,大家可能不希望每次有人走进机房就收到警示;但在很多低流量数据中心内,这样的设定就非常必要。无论何时,只要传感器被触发、摄像头应该立即开始记录图片或者视频,这些图片及视频应该被发送到存储服务器当中--最理想的状态是将结果同步到离线系统当中。
确保自己拥有至少一条模拟电话线路也是个不错的主意。将这条线路与Linux设备相对接,或者采用3G/4G/LTE数据连接能够在紧急状态下自动启用并发挥作用。一旦数据传输线路无法连通,这可能会成为我们检查数据中心的惟一途径。
如果大家感觉这样的处理方式太过夸张,不妨问问那些曾经在纽约及新泽西的数据中心里经历过飓风桑迪的悲催同行们。他们会揭示这样的真理:即使这种影响巨大、意料之外的环境灾难只发生一次,也足以证明我们数据中心监控系统存在的合理性与必要性。我希望大家永远不要经历同样的严峻考验,但与此同时,请各位自己不要抱有这样的侥幸心理。
原文链接:http://www.infoworld.com/d/data-center/hot-or-not-know-your-data-centers-environment-230529