高性能计算要求存储系统具有必要的性能和容量,以确保可靠的操作,但是这些系统的价格很高。
高性能计算(HPC)存储的总拥有成本(TCO)超出每GB的初始价格,这意味着IT团队必须考虑其他价格变量。除系统本身的价格外,还有8个因素会导致HPC存储成本增加。
1. 不断变化的业务需求
业务需求会随时间变化,支持它们的工作负载也是如此。HPC存储必须适应这些变化,这可能需要及时重新配置、升级和增加容量。例如,存储系统应能够进行扩展,同时确保最少停机时间,因为延误会导致收入损失和生产率下降。即使很少停机, IT部门仍必须购买和部署其他硬件,而这会增加总体TCO。
在某些情况下,企业可能会过度配置其存储系统,以适应将来的业务需求和工作负载波动。但是,这可能导致不必要的支出和更高的长期维护成本,这也会增加总拥有成本。实际上,HPC系统很少会达到100%的利用率(通常接近80%),而且过度配置的存储会进一步影响长期成本。同时,请注意不要过度使用HPC存储系统,因为这会损害应用程序的性能和生产率。
2. 可靠性和可用性
HPC存储系统应支持持续操作,且确保最少服务中断的情况。该系统应该能够处理驱动器和节点故障,以及其他计划外的中断,同时保持可用性和性能。主要有两种方法可以满足这些要求:前期投资于正确的存储基础架构上,或者后续花费更多的时间和金钱来保持系统正常运行。两种选择都会影响总体拥有成本,但后者通常会导致更高的HPC存储成本。
另一个考虑因素是存储配置。例如,某些RAID级别在驱动器间保持奇偶校验,以提高可靠性,但这需要额外的原始容量。高可用性的存储系统通常会部署冗余组件,例如多路径I / O或双控制器。IT团队可能还会保留备用零件,例如额外的电源。此外,员工必须定期更新或更换组件。所有这些因素都会增加总拥有成本。
3. 系统和数据保护
对于大多数企业而言,保护存储系统及其数据是最重要的工作,但是这些保护工作具有成本。
存储硬件、软件和固件中内置安全功能会增加TCO,维护安全基础架构所需的日常操作同样会增加TCO。例如,企业需要花费时间和资源来管理私钥和访问控制、监视存储和网络系统,确保符合适用的法规,以及定期执行安全性和合规性审核。
灾难恢复策略也会增加总体拥有成本。备份、快照和故障转移操作通常需要额外设备、软件或服务以及人员。同时,IT团队还必须在物理上保护存储系统,这需要附加的火灾警报、检测设备或其他监视工具。
4. 配套软件和服务
存储供应商通常会提供可选的支持和服务合同,这可能会显著提高系统的总体拥有成本,具体金额将取决于供应商和服务水平。企业可选择较低前期成本的最小覆盖范围,但这可能会增加其停机的风险,从而导致日后的HPC存储成本更高。有些第三方公司提供存储维护服务,该服务可能比供应商的计划便宜,但IT团队仍必须将这些成本计入TCO。
TCO还应反映支持该存储系统的软件的任何许可费用。这包括直接推动存储操作的软件,以及与HPC存储系统结合使用的第三方软件(例如,专用文件系统或软件定义的存储)。另外,TCO计算应考虑管理和监视存储基础架构所需的任何其他系统或服务。
5. 存储网络基础设施
存储系统必须能够与其他HPC组件及其他组件进行通信,这就需要可靠的高速网络基础架构,以维持运行。
无论网络结构是以太网、光纤通道还是InfiniBand,IT部门都需要部署和维护组件,例如电缆、交换机、适配器或负载平衡器。在计算存储总拥有成本时,网络成本比较复杂,因为其他HPC组件会共享网络。即使这样,存储总拥有成本也应至少反映这些网络成本的一部分。
像存储系统本身一样,网络基础结构也可能有其自己的服务合同或软件许可费。此外,网络可能会包括冗余组件,例如交换机或适配器,以避免任何单点故障。IT部门可能会维护备件或采取其他措施来限制停机时间,并保持性能。组件更新周期也会增加网络成本。
6. 操作环境
HPC存储系统需要数据中心空间才能运行。尽管现在HPC系统更密集,可减少部分空间,但IT团队仍应在TCO估算中包含这些成本以及相关的数据中心维护和维修费用。
另一个大支出是为存储系统供电和冷却相关的成本。闪存等技术可以降低功耗,但它们仍会增加总体能源成本。
TCO应该考虑对数据中心进行的任何必要更改,以为存储系统做准备。例如,更密集的机架存储可能需要更新电源、增强散热或强化地板。数据中心可能还需要更多的布线或防火系统,以及额外的冗余,例如额外的发电机或不间断电源。
7. 人员配备要求
另一个大笔支出是部署和维护HPC存储系统所需的人员。这包括IT员工花费在采购、设置、配置、集成和测试系统的时间。这还包括持续的管理工作,这可能很复杂且很耗时。 IT团队必须确保系统以最高的性能运行,同时将中断和停机时间降到最低,这可能会显着增加TCO。
向新存储系统的过渡过程也需要时间和资源,包括将数据从旧系统迁移到HPC存储。在某些情况下,IT团队可能需要招募合格的人员来部署和维护系统,或者他们可能需要培训现有人员。这取决于存储系统本身和员工的情况。无论哪种方式,都可能需要进行投资。
8. 计划外停机 为了减少开支,企业可能会倾向于购买可靠性较差的存储系统,或者限制员工培训和雇用方面的投资。但是,这可能会导致更长或更频繁的停机时间,并可能导致收入损失。
在Hyperion Research于2020年5月发布的一项研究中,约有一半的受访者表示其HPC存储系统每月或一次以上发生故障。这些受访者表示,停机时间从不到一天到一周不等,一天的停机时间可能从100,000美元以下到100万美元以上不等。
HPC服务中断会对依靠该技术来持续提高生产力和创新的企业造成严重影响。当系统出现故障时,他们的工作通常会停止,从而导致长期的财务后果。尽管这些HPC存储成本可能难以计算,但应始终将它们包括在TCO估算中,尤其是在比较产品时。