【51CTO.com快译】数据中心变得越来越复杂不是什么秘密。有更多类型的硬件和管理软件,更频繁变化的工作负载以及公共云。随着边缘计算即将来临,情况只会变得更错综复杂。
许多业内人士希望机器学习让数据中心的管理人员在面对这种复杂情形时能够更从容。几家公司已经在销售使用机器学习算法的数据中心管理软件。一些从数据中心作为计算机的整体角度来解决问题,另一些选择单单专注于散热或电源。虽说散热是当今低效运作的数据中心浪费大量能源的一方面,但利用智能软件工具来管理电气数据中心基础设施却大有好处。
一家名为Virtual Power Systems(VPS)的初创公司正利用机器学习来消除数据中心中通常所谓的“搁置电源”。数据中心有一个为支持超出必要的电源负载而设计的电气系统很常见。有时这是有意为之,以确保冗余,而有时是由于设计人员无法预测数据中心在将来会如何使用。
VPS的“软件定义电源”解决方案使用内置电池的智能电气硬件(包括施耐德电气等合作伙伴的设备),在整个数据中心内更合理而高效地重新配电。该公司表示,需求变化时,它可以动态重新配电。
该软件名为ICE,使用的机器学习可以集中预测电源需求(包括电池管理和电源尖峰概率),并将配置模式发送到数据中心楼层硬件中运行的推理引擎,然后根据实际需求来调整每个机架可供使用的电源负载。
VPS的***技术官Karimulla Shaikh告诉我们:“如果你有冗余的基础设施,有两条电源线进入机架,你以这种方式来部署负载,那样万一发生故障,可以从一个切换到另一个。这意味着你最多使用每一路50%的容量。如果使用我们的交换系统,可以使用100%的负载。如果发生故障,交换系统是智能的,它能够介入将所有负载移到电池上、持续一小段时间,然后利用我们的软件,将应用程序转移到别处或者让工作负载下线。”
软件构建的机器学习模型还可以用作模拟器,以了解如果你添加更多的服务器或机架,电源传输会受到怎样的影响。
但这仅仅是个开始。Shaikh表示,VPS正与一些客户合作,设法完全避免典型的冗余数据中心基础设施设计。它还关注数据中心能源之间的动态切换,比如市电、燃料电池和间歇性可再生能源。
Nlyte Software的数据中心基础设施管理(DCIM)软件被该公司的***战略官Enzo Greco比作“面向数据中心的实时ERP(企业资源规划)”,它最近为其解决方案添加了使用IBM Watson机器学习服务的预测性热量和电源管理功能。Watson帮助它基于来自传感器、设备和应用程序工作负载信息的数据来构建模型。Greco表示,在许多情况下,收集所有数据已经相当容易,那么为何不更常使用它、为你所用呢?
许多数据中心已经有温度和湿度传感器、实时操作服务器数据和功率计。他说:“几乎随时可以从任何现代设备获得数据,无论是UPS还是PDU。”机器学习系统可以找出隐藏的模式以及不同系统和端点之间的联系。
Greco说:“我们能够预测将来某个时间服务器和机架层面的电源异常。”在稳定状态下,机架可能耗电10kW,但在某个时候,可能激增至15kW。“有了足够的历史数据,就可以预测将来一小时这个机架会耗电15kW。”电源尖峰可能是机械问题或应用软件引起的。“也许你是在批处理模式下运行SAP,也许你的交易系统在峰值状态下运行。”
他表示,如果你能预测电源尖峰,可以通过移动工作负载、关闭服务器或者对UPS电池进行一些预防性维护来做好准备。
大多数Nlyte客户在使用机器学习系统来接收警报、了解可能有问题的方面。该软件公司还在开发预测故障和预防性维护模块。Greco说:“功率和热量是预测故障的两个极好的主要指标。如果你可以预测功率异常,这是表明你可能遇到应用软件问题或遇到机械问题的主要指标。”
除了比操作人员更迅速地检测异常外,机器学习还可以帮助操作员更清楚地了解其数据中心中的电气基础设施冗余机制。Uptime Institute的研究副总裁Rhonda Ascierto告诉我们:“由于某个因素(比如操作实践发生变化),机房的电源冗余性可能不如当初设计时。关键是确保数据中心的每个部分在冗余配置方面都按照你预期的那样来操作运行,尽管这些数据中心的性质在不断变化。”
机器学习有望将数据中心的可用性策略从被动变为主动。他解释道:“UPS是被动的,它等到电源故障后切换至正常系统。应用软件在发生故障后恢复,这是被动的。变成主动意味着不用等;将来我会遇到问题,现在就解决问题。”
原文标题How Machine Learning Is Used to Manage Data Center Power Today,作者:Mary Branscombe
【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】