人工智能技术已经通过使用机器学习、计算统计和各种深度学习模型而成为主流技术。社交网络、搜索引擎、购物网站等使用大量的人工智能应用程序,其中包括个性化和产品推荐引擎、点击流分析、图像特征识别和分类,以及广告价格优化等应用程序。
像亚马逊、谷歌和微软这样的公司将这些功能打包到云计算服务中,因此开发人员不必成为精通这些复杂算法的专家。近年来,类似的人工智能方法已应用于IT运营和管理中的许多任务中,这个应用领域现在被称为AIOps。
尽管AIOps通常被认为是提供全面基础设施和运营管理的产品领域,但人工智能也应用在与数据中心硬件(包括存储系统)捆绑在一起的管理软件。
企业可以将人工智能应用于存储管理使用预测机器学习来分析有关系统事件、内部参数和工作负载特定度量(如错误日志、性能度量和存储硬件创建的容量利用率)的大量数据流。由于机器学习模型的准确性与用于训练它们的数据量相关,因此大多数存储供应商都从其客户群中收集匿名数据,以创建大量数据集,捕捉用户可能遇到的几乎任何场景、工作负载和异常情况。
人工智能和设备遥测技术的结合产生了可预测的存储分析产品,这些产品可以显著减少设置时间、自动优化配置、主动警告即将发生的问题,甚至解决常见问题,而无需存储管理员的参与。在这里,将研究供应商提供的一些存储管理产品,这些产品使用人工智能驱动的分析来改进阵列操作和存储管理效率。
典型的人工智能存储特性和功能
在审查这些产品的分析功能之前,了解基础知识很重要。
- 作为一项热门的新技术,“人工智能”这一术语通常会有一些炒作和滥用。曾经被视为标准的功能已得到增强,以合并新数据并转换为人工智能驱动的功能。
- 有时供应商对于人工智能在其产品中的特定用途以及如何在现有产品功能之外增强管理体验方面感到含糊不清。
大多数产品使用机器学习数据分析来提供以下五个功能中的一个或多个功能:
(1)自动化日常支持任务,例如容量管理;
(2)优化设备、容量设置和配置;
(3)更新系统软件、补丁以及特定于设备和安装的修补程序;
(4)通过预测趋势和情景分析来计划资源扩展;
(5)通过特定于平台的优化和指标来管理虚拟化平台。
存储供应商通常使用功能来区分其人工智能驱动的存储分析功能。一个产品的软件执行质量将决定它在多大程度上实现了人工智能的承诺。人工智能给存储管理员带来大量好处,其中包括:
- 通过任务自动化来降低运营费用,尤其是对于容量和性能管理之类的事情,这些事情经常造成计划外的突发事件。
- 通过主动解决问题来提高系统可用性,例如自动扩大容量,在设备之间切换以平衡资源的使用,并在灾难性事件发生之前发出硬盘故障警告。
- 通过推荐最佳配置和工作负载位置,调整参数以响应不断变化的系统遥测以及不过度配置数据集容量,从而更好地利用资源和提高效率。
预测性存储分析工具使系统和管理员可以更有效、可靠地进行操作。
以下内容介绍了人工智能增强型存储产品及其主要功能。这并不是要列出所有使用人工智能的存储分析产品的详尽列表,而是侧重于主要供应商的产品。
(1) Dell EMC CloudIQ
Dell EMC公司向其存储系统的用户免费提供CloudIQ SaaS应用程序,其中包括Unity XT、PowerMax、XtremIO、SC系列、PowerVault、Isilon和Connectrix光纤通道交换机。CloudIQ的功能包括整合的监控、预测分析和异常检测,这些功能部分是通过机器学习实现的。其产品功能包括:
- 统一监视环境中的所有存储系统;
- 预测分析可在关键存储资源有耗尽危险时主动发出警告;
- 异常检测,可以学习系统正常运行的模式,并在检测到可能表明性能或安全问题的偏离时发出警告;
- 确定问题的根本原因。
CloudIQ仪表板、警告和预测依赖于系统警报、性能指标、容量使用和系统配置中的数据,这些数据可以在日志中或通过仪表板、可视化和计算指标显示。CloudIQ的数据摘要(称为主动健康评分)是系统状况的一个指标。分数使用0到100的标准化等级,基于来自组件故障、配置缺陷、性能问题、容量问题和数据保护的数据。
CloudIQ可通过网络或移动设施用户界面(UI)获得,其信息范围从环境中系统的总体运行状况得分到有关单个阵列和存储卷的详细信息。
CloudIQ的洞察力有助于分析存储并进行故障排除。
(2) HPE InfoSight
HPE InfoSight是一种基于云计算的预测性存储分析工具,与此处讨论的其他产品一样,它使用机器学习来分析服务器、存储和虚拟机环境。HPE公司声称,其产品可以在影响运营和工作负载之前预测并解决86%的系统问题。
InfoSight提供了一个中央管理控制台,该控制台可以分析和关联整个基础设施堆栈中的事件,其中包括存储、服务器、虚拟机。它是基于HPE公司收购Nimble Storage之后获得的技术成熟的产品,该公司是使用聚合的匿名数据预测存储性能和资源的行业先驱之一。
与竞争产品一样,HPE公司分析客户数据以建立和完善InfoSight的机器学习模型。该系统可以检测并在某些情况下纠正尚未发生的问题。HPE公司还将InfoSight及其支持操作集成在一起,以自动触发系统无法自动解决的检测到的问题的故障单。
InfoSight提供了一个中央存储管理控制台。
(3) Hitachi Ops Center Analyzer
Hitachi Ops Center Analyzer是Hitachi Ops Center软件套件的一部分,它是机器学习支持的管理软件,用于共享存储系统、服务器、虚拟机和SAN交换机。它可以作为可安装产品或SaaS应用程序使用。其主要功能包括:
- 可以跨越多个数据中心的受监视资源的整合视图;
- 预测分析,以主动警告资源枯竭并指导规划;
- 根据计算出的历史模式进行异常检测;
- 机器学习增强的问题分析,可以通过关联事件、性能度量和配置更改,以及推荐解决方案来自动进行根本原因分析。
预测性存储分析产品与日立公司的其他IT运营软件(包括其Ops Center Automator)集成在一起。与Dell EMC公司的产品一样,Hitachi Ops Center Analyzer具有受监控资源的摘要仪表板,可以突出显示关键警报、警告和性能趋势,但它还允许存储管理员专注于特定的存储系统。
(4) IBM Storage Insights
Storage Insights是IBM公司的免费容量和性能管理产品。此版本支持IBM公司以及某些第三方的虚拟化存储系统。此外,Storage Insights会自动收集并汇总系统日志数据,以提供系统清单以及配置、容量、性能和运行状况监视的基本级别。它还标记违反IBM公司最佳实践的配置,并提供迁移和升级建议。
专业级订阅增加了对IBM公司的文件和对象存储系统以及EMC VNX和VMAX产品的支持。IBM Storage Insights还具有高级库存和监视选项,针对分层数据存储和可定制警报的优化和放置建议。预测分析和容量计划功能需要专业级订阅。
这两种版本都有针对各种IT任务(包括系统操作、配置优化、性能、容量规划、问题解决和产品支持)定制的仪表板。
(5) Infinidat InfiniVerse
Infinidat公司通过智能数据缓存将机器学习从管理平面扩展到存储系统。该产品的缓存管理算法神经缓存(Neural cache)使用系统的数据访问和I/O历史记录来识别用于管理的缓存存储,以提高性能和相关性。
InfiniVerse管理产品包含在所有Infinidat存储系统中,它具有整合的系统和性能监视功能。其中包括基于机器学习的分析,这些分析是基于Infinidat客户群中的匿名元数据进行训练的。这些人工智能驱动的分析确定了改进容量利用率、消除性能瓶颈和优化工作负载布局的更改。存储系统可以识别孤立的(已分配但未使用的)存储容量、硬件故障或应用程序异常,例如当数据库服务器的往返延迟达到不可接受的级别时。
Infinidat公司计划在2020年增加自动化的工作负载移动性,这将在分布式存储集群中的机架之间自动移动工作负载。此功能旨在提高性能和可靠性。
(6) NetApp Active IQ
Active IQ包括上面列出的基于机器学习的基本分析和管理功能,并且与该类别中的大多数产品一样,Active IQ使用从NetApp客户那里收集的元数据来训练和更新其预测模型。与HPE公司一样,NetApp公司将Active IQ与产品支持团队集成在一起,从而使该软件在检测到无法解决的问题时能够自动打开故障单。
与此处讨论的其他存储管理产品一样,Active IQ会生成统计信息和系统仪表板。它使用其分析来产生针对已发现问题的建议措施。例如,风险报告可识别六大类的问题,包括硬件故障、不受支持的配置和资源消耗,并具有纠正措施字段,该字段具有指向客户支持公告、错误报告和解决风险的知识库文章的链接。
Active IQ还通过令牌保护的API公开功能和数据,使组织能够将系统与其DevOps自动化管道和IT关键绩效指标仪表板集成在一起。
(7) Pure Storage Pure1 Meta
Pure1 Meta是Pure Storage阵列的分析平台,它汇总了该公司声称每天从其连接云平台的客户那里获得的超过1万亿个数据点。该数据进入一个数PB的数据湖,该数据湖用于训练容量和性能管理的预测模型。该公司表示,来自其10,000个客户的数据涵盖了至少100,000个不同的应用程序和工作负载配置文件。这使系统可以对整体性能以及与存储阵列上其他应用程序的交互进行建模,以帮助进行工作负载放置、整合和配置优化。
汇总的数据收集还使Pure1 Meta平台能够在漏洞第一次影响客户时对其进行标记,并在漏洞对他人造成安全或可靠性问题之前对其进行检测。检测到漏洞时,Pure1 Meta平台会通知存储管理员,并通过Pure1 Meta支持创建故障单。
Pure1 Meta还包括一个仿真功能,使用户可以查看环境中新工作负载、卷迁移和硬件更改的预期含义。在部署之前测试各种方案可以使存储管理员优化工作负载的放置,并就硬件购买做出更好的决策。 Pure1 Meta可通过Web UI或适用于iOS和Android的移动应用程序使用。
不断发展的人工智能驱动存储市场
人工智能驱动的分析软件已经成为存储供应商的重中之重,这使得预测性和规范性分析的质量以及它们与管理和支持软件的集成成为产品评估的关键点。
以上介绍的预测性存储分析产品专注于每个供应商的硬件,但是增强的人工智能管理软件正逐渐可用于多云环境。因此,不久就会在异构存储环境中看到类似的功能。