有些人认为,人工智能(AI)理解和解决问题时近乎具有神秘的力量。而人工智能广泛应用于人们日常生活的许多领域,因此,实现这一目标的硬件开始在数据中心中应用。
数据中心本身存在一系列复杂的问题,包括优化和预测。那么,如何采用人工智能这种神奇的技术来改善数据中心运营?
将人工智能应用在数据中心
机器学习(尤其是深度学习)可以检查大量的数据集,并在其中找到不依赖于人类用来理解和预测数据的模型的模式。它还可以预测未来将重复出现的模式。
如今的数据中心设施越来越成熟和齐全,传感器可以提供大量有关IT性能和环境因素的实时和历史数据。2016年,为了提高效率,谷歌公司将人工智能应用到数据中心上,得到了业界关注。
谷歌公司使用其拥有的人工智能技术DeepMind来优化其数据中心的冷却。2014年,该公司宣布其数据中心工程师Jim Gao正在使用人工智能技术来实现推荐引擎。
2016年,该项目利用神经网络优化了谷歌公司在新加坡的数据中心的冷却设施,这些神经网络学习如何预测数据中心的温度,并提供了积极应对的建议。
根据DeepMind的研究工程师Richard Evans的说法,该结果使该数据中心的冷却费用减少了40%,而PUE(能源使用效率)减少了15%。他表示,“由于算法是理解复杂动态的通用框架,因此我们计划将其应用于数据中心环境中的其他挑战。”
该公司2018年宣布的下一步计划是自动运行数据中心冷却系统,人工智能系统在工作人员的监督下调整数据中心的运行设置。为了确保冷却系统安全运行,运营团队限制了其设置,因此只节省了30%的冷却费用。
该系统每五分钟用数千个传感器对数据中心冷却系统拍摄一次快照,并将其输入云中的人工智能系统。这预测了潜在的行动将如何影响未来的能源消耗,并选择了最佳的选择。这将数据发送到数据中心,由本地控制系统验证,然后实施。
项目团队报告系统已经开始产生出乎意料的优化效果。Dan Fuenffinger来自谷歌公司的一家数据中心运营商,他采用该系统工作了很长时间,他说:“我们看到人工智能学会利用冬季的低温条件,产生比正常温度更低的冷却水,这真是令人惊讶,因为这样可以减少数据中心内冷却所需的电能。”
Jim Gao表示,这个成功案例证明了该系统可以安全有效地运作。其决策将受到安全规则的审查,运营人员可以随时接管。
在这个阶段,谷歌公司的人工智能优化只有一个客户,那就是其自身。但这一想法得到了学术界的大力支持。
稳定性很重要
加拿大安大略省麦克马斯特大学计算基础设施研究中心(CIRC)负责人Suvojit Ghosh表示,人类和简单的基于规则的系统可以对任何情况做出反应,但是当环境发生变化时,它们的反应并不相同,而人工智能可以做得更好,因为它能够预测变化。
Ghosh说,“我们知道运行的服务器过热将会导致宕机。但如果有温度波动,这种情况显然会更糟。简单的规则使数据中心迅速达到最佳稳态位置,但在此过程中,它们会使温度突然发生阶段性变化,结果发现这会浪费很多能量。如果温度条件经常变化,那么其能耗可能抵消收益。如果环境温度已经达到21℃~27℃,然后再下调的话,将会浪费电能。”
一些数据中心服务商为此做出了回应。数据中心基础设施管理(DCIM)服务商已经采用了人工智能技术,而一些已经在进行预测分析的公司已经采用了机器学习技术。
分析机构Romonet公司联合创始人Zahl Limbuwala说,“当前机器学习的各个方面都处于平台的初始数据处理阶段,在将传感器和仪表的原始数据输入预测建模引擎之前,对其进行标准化、清理、验证和标记。”
电力和冷却方面的智能化措施有不同的名称。例如华为公司的电力、冷却和DCIM智能化技术名称分别称之为iPower、iCooling和iManager。
与谷歌和其他公司一样,华为公司从简单的实际步骤开始,例如使用模式匹配来控制温度并发现制冷剂泄漏的证据。在电力系统中,它致力于使用人工智能识别和隔离设备故障。
该公司高级营销经理Zou Xiaoteng表示,在拥有1,540个机架的廊坊数据中心,华为公司大幅降低了使用iCooling技术的PUE值。该数据中心设施的功率密度约为每机架6kW,IT负载率为43%。
DCIM供应商Nlyte公司在2018年将其工具与世界上最知名的人工智能项目之一IBM公司的Watson集成之后,将其应用在DCIM产品中。
Nlyte公司首席执行官Doug Sabella当时预测,人工智能技术增强DCIM将带来伟大的成就。
他说,“简单的事情就是预防性维护。但是,除了预测性事物之外,工作人员借助DCIM更好地管理工作负载。在应用程序性能管理方面需要考虑一些问题:可以根据有限的数据集选择要放置工作负载的位置,那么将它放在公共云中还是私有云中?有助于确定位置和基础设施的属性是什么?
这一决定中并没有包含整体关键信息,但从人工智能的角度来看,可以帮助数据中心实际减少工作负载和优化工作负载,并降低工作负载失败的风险。我们看到人工智能对数据中心的运营将产生巨大的影响。”
IBM Watson公司物联网北美市场营销负责人Amy Benett看到了另一个实用的方面。他说,“人工智能作为数据中心团队的新成员可以一直工作却不会感到疲倦。”
据报道,Watson技术在医疗保健等要求更高的领域并没有像承诺的那样达到预期效果,这让Watson的表现有些黯然失色。但应用在数据中心可能是其恢复良好声誉的舞台。数据中心的关键设施的管理要比人体健康简单得多。
下一阶段的发展
Ghosh说,“现在是人工智能解决更大问题的时候了。”这与Sabella的观点相呼应。在最初的应用之后,提高功率和冷却效率的努力最终实现了收益。在这一点上,人工智能可以开始管理加载的内容。
Ghosh 表示,“使用计算历史记录的成本进行智能负载平衡或容器编排,可以降低特定应用程序的能源成本。这可能会节省一半的IT能源成本。只需使用人工智能来安排工作,而这不会考虑关闭闲置服务器或其他类似的事情。”
除此之外,Ghosh还在数据中心进行设备运行声音的人工智能分析。他说,“经验丰富的员工会根据设备运行的声音知道出了什么问题。”
华为公司高级经理Zou Xiaoteng说,“如果变压器出现问题,其噪声模式会发生变化。通过学习变压器的噪声模式,人工智能可以使用声学技术来监控变压器的运行状态。”
Ghosh说,“这种方法允许人工智能超越专家具有的知识和经验,并了解人类认知永远无法理解的东西。在接下来的10年,我们将能够在故障发生之前对其进行预测。我希望能够创建一种能够完全消除预防性维护需求的算法。”
华为公司高级经理Zou Xiaoteng认为还有一些好处是,人工智能可以将资源利用率再提高20%,同时减少人为错误。
他对人工智能的应用进行了分级。零级数据中心是一个完全采用人工管理的数据中心;第一级数据中心的基本功能是采用传感器可视化数据中心设施;第二级数据中心可以为工作员提供一些帮助,实现无人值守部分功能,人工智能技术将向工程师报告情况,工程师将做出适当的响应;第三级数据中心可以提供根本原因分析和虚拟帮助来解决问题。华为公司的数据中心已经到达了这个阶段。
他说:“在未来,我相信可以使用人工智能来预测是否存在任何问题,并使用人工智能实现数据中心的自我恢复。”
他预测,在这个阶段,DCIM系统甚至可以从专门的人工智能处理器中获益。华为公司已经在尝试使用其Ascend系列人工智能处理器,在云计算和边缘方面采用DCIM进行管理。
大多数用户目前仍然处于早期阶段,但有些用户显然对此持乐观态度。富国银行任务关键设施现场经理Eric Fussenegger表示,“如今,我们使用人工智能来监控设定点,采用DCIM加强了数据中心设施的控制措施。”
Fussenegger表示,人工智能在未来可以进一步发挥作用,智能设备可以在数据中心的日常实际维护和操作中发挥更大作用。
他说,“总有一天,机器人可以接管数据中心清洁工作或维护IT设备,并且工作人员不必在冷热通道区域进行维护。但我认为其工作还是需要工作人员的监督。”