如今,大多数围绕人工智能(AI)的讨论都集中在自动驾驶汽车、聊天机器人、数字孪生技术、机器人技术,以及使用基于人工智能的智能系统从大型数据集中提取商业洞察力。但是人工智能和机器学习将会在企业数据中心的服务器中扮演重要角色。
人工智能在提高数据中心效率以及扩展业务方面的潜力可分为四个主要类别:
- 电源管理:基于人工智能的电源管理可帮助优化加热和冷却系统,从而降低电费,减少工作人员并提高效率。该领域的代表性供应商包括施耐德电气、西门子、Vertiv和伊顿公司。
- 设备管理:人工智能系统可以监视服务器、存储设备和网络设备的运行状况,检查以确保人工智能系统配置正确,并预测设备何时将发生故障。调研机构Gartner公司表示,AIOps IT基础设施管理(ITIM)类别的供应商包括OpsRamp、Datadog、Virtana、ScienceLogic和Zenoss。
- 工作负载管理:人工智能系统可以自动将工作负载实时移动到更高效的基础设施上,包括在数据中心以及在混合云环境中,在内部部署、云计算和边缘计算环境之间。越来越多的中小型企业提供基于人工智能的工作负载优化服务,其中包括Redwood、Tidal Automation和Ignio。像思科、IBM和VMware这样的主要厂商也提供这样的产品。
- 安全性:人工智能工具可以了解正常网络流量的情况,发现异常情况,区分需要安全从业者注意的警报的优先级,帮助进行事故后分析,并为有关企业安全漏洞的防御措施提供建议。提供这一功能的供应商包括VectraAI、Darktrace、ExtraHop和Cisco。
综上所述,人工智能可以帮助企业创建高度自动化、安全、自我修复的数据中心,这些数据中心几乎不需要人工干预,并且能够以更高的效率和弹性运行。
戴尔技术公司全球首席技术官办公室的杰出工程师Said Tabet解释说:“人工智能自动化技术可以扩展到超出人类能力的水平来解释数据,收集优化能源使用、分配工作负载和最大化效率所需的必要见解,以实现更高的数据中心资产利用率。”
就像自动驾驶汽车的承诺一样,自驱动数据中心至今还没有出现。在数据中心应用的人工智能的突破有很多技术、运营和人员方面的障碍。如今,虽然采用的人工智能技术刚刚起步,但潜在的好处将使一些企业不断寻找机会采取行动。
电源管理充分利用服务器工作负载管理
据估计,数据中心消耗了全球3%的电力,并造成了约2%的温室气体排放。因此,无论是为了节省成本,还是为了节能环保,很多企业都在认真研究数据中心的电源管理。
调研机构451 Research公司高级分析师Daniel Bizo表示,基于人工智能的系统可以帮助数据中心运营人员了解当前或潜在的冷却问题,例如由于高功率密度机柜阻碍了气流而导致的冷空气输送不足、精密空调单元性能不佳,或冷热通道之间的冷空气输送不足。
Bizo说,人工智能系统可以通过将精密空调系统数据与环境感知读数相关联来学习设施。
IT咨询和顾问机构StorageIO公司的创始人Greg Schulz补充说,“电源管理是一个很容易实现的成果。这意味着使电源设备更智能地工作。”
企业还要有一个容量规划的角度。除了寻找热点和冷点之外,人工智能系统还可以确保数据中心为适当数量的物理服务器供电,并且在电力需求临时激增的情况下,还有能力启动和关闭新的物理服务器。
Schulz补充说,电源管理工具正在开发与管理设备和工作负载的系统的连接。例如,如果传感器检测到服务器运行温度过高,则人工智能系统可能会快速自动将工作负载转移到未充分利用的服务器上,以避免可能影响关键任务应用程序的潜在中断。然后,人工智能系统可以调查服务器过热的原因,可能是风扇故障(HVAC问题)、物理组件即将崩溃(设备问题),或者服务器刚刚过载(工作负载问题)。
人工智能驱动的健康监控、配置管理监督
数据中心有很多需要定期维护的物理设备。人工智能系统可以帮助数据中心的定期维护,并收集和分析遥测数据,从而确定需要立即关注的特定区域。Schulz说,“人工智能工具可以探查所有这些数据和异常点。监视数据中心运行状况始于检查设备配置是否正确以及是否达到预期效果。由于大型数据中心可以有上千个IT机柜和数万个组件,这些工作是劳动密集型的,因此并不总是能够及时彻底地执行。”
他指出,基于大量传感数据日志的预测性设备故障建模可以发现即将出现的组件或设备故障,并评估其是否需要立即维护,以避免任何可能导致服务中断的容量损失。
瞻博网络公司企业和云计算营销副总裁Michael Bushong认为,企业数据中心运营商应忽略一些与人工智能相关的过度宣传和炒作。
Bushong说,“也许有一天,人工智能系统可能会告诉工作人员哪里出现问题并加以解决。”
依赖关系映射在人工智能可能有用的领域中也很重要。如果数据中心管理人员正在对防火墙或其他设备进行策略更改,那么意外的后果是什么?Bushong说:“如果我提议进行更改,可能存在的变化非常有用。”
保持设备平稳安全运行的另一个重要方面是控制所谓的配置漂移,这是一个数据中心术语,指的是临时配置的变化随着时间推移会导致产生问题。Bushong说,人工智能可以作为额外的安全检查,识别即将发生的基于配置的数据中心问题。
人工智能与安全
Bizo认为,人工智能和机器学习可以通过对事件进行快速分类和聚类来简化事件处理(事件响应),从而识别出重要事件并将其分离开来。更快的根本原因分析有助于运营人员做出明智的决定并采取行动。
Schulz补充说,人工智能在实时入侵检测中特别有用。基于人工智能的系统可以检测、阻止和隔离威胁,然后可以进行法医调查,以确定到底发生了什么问题。
在安全操作中心(SOC)工作的安全专业人员经常会收到过多的警报,但基于人工智能的系统可以扫描大量的遥测数据和日志信息,从而清除日常任务,从而使安全专家能够腾出时间来处理更深层次的调查。
基于人工智能的工作负载优化
在应用程序层,无论是在内部部署还是在云平台中,人工智能都有可能自动将工作负载移动到适当的着陆点。Bizo说:“人工智能和机器学习将来应该根据有关性能、成本、治理、安全性、风险和可持续性的众多规范,对将工作负载放置在何处做出实时决策。”
例如,可以将工作负载自动转移到节能的服务器上,同时确保服务器以最高效率(利用率为70%~80%)运行。人工智能系统可以将性能数据整合到其中,因此对时间敏感的应用程序可以在高效的服务器上运行,同时确保不需要快速执行的应用程序不会消耗过多的能量。
基于人工智能的工作负载优化引起了麻省理工学院研究人员的注意,他们去年宣布开发了一个人工智能系统,可以自动学习如何在数千台服务器上调度数据处理操作。
但是,正如Bushong指出的那样,现实情况是,当今的工作负载优化是像Amazon、谷歌和Azure这样的超大规模企业的重中之重,而不是企业数据中心。这有很多原因。
实施人工智能的挑战
优化和自动化数据中心是正在进行的数字化转型计划不可或缺的一部分。戴尔公司的Tabet补充说:“由于发生疫情,许多组织正在寻求进一步的自动化,推动人工智能驱动并能够自我修复的‘数字数据中心’的构想。”
谷歌公司在2018年宣布,已将其几个超大规模数据中心的冷却系统控制权转为人工智能程序,该公司报告称,人工智能算法提供的建议使能源使用量减少了40%。
但是对于很多企业来说,在数据中心中采用人工智能技术非常有抱负。Bizo说,“一些人工智能和机器学习功能可用于事件处理、基础设施运行状况和冷却优化。但是,要想实现人工智能和机器学习模型超越当今标准数据中心基础设施管理(DCIM)所能实现的更多突破,这需要多年的时间。”
Tabet说,“一些障碍是需要雇用或培训合适的工作人员来管理系统。另一个需要注意的问题是数据标准和相关架构的需要。AIOps平台的成熟度、IT技能和运营成熟度是主要障碍。高级部署面临的其他新挑战包括数据质量以及IT基础设施和运营团队中缺乏数据科学技能”。
Bushong补充说,最大的障碍始终是工作人员。他指出,聘用数据科学家对许多企业来说都是一个挑战,而培训现有员工也是一个难题。长期以来,很多员工一直在抵制让他们无法掌控的技术。他指出,软件定义网络(SDN)技术已经存在10年的时间,但是超过75%的IT运营仍然是命令行界面(CLI)驱动的。
Bushong说:““很多人相信,各种基础设施的运营商都准备将控制权交给人工智能。”
而这就是Bushong建议企业应该向着人工智能方向迈进的原因。