尽管NVMe SSD硬盘是一种高度可靠的存储技术,但它们仍然容易发生偶发故障。以下是使SSD硬盘保持最佳状态的一些最佳做法。
与机械硬盘相比,SSD硬盘十分可靠。然而,没有一种存储技术是完美的。即使是最新的NVMeSSD硬盘,也可能会突然损坏或逐渐崩溃。
人们需要了解即将发生的SSD硬盘故障的迹象,以及了解如何对出现故障的SSD进行故障排除,可以标记出永久性数据丢失和无故障恢复之间的区别。像任何存储设备一样,NVMeSSD最终将失败。唯一的变量是何时。与机械硬盘不同,固态硬盘无法发出声音警告,以提示可能出了问题。然而,虽然SSD硬盘可能已经损坏,但不一定全部丢失数据。
这里介绍了SSD硬盘故障的四个主要原因,以及如何解决这些问题。
1. 过热
NVMeSSD硬盘虽然是新兴产品,但困扰它们最多的问题却是计算技术中最古老的问题之一:热量。IT管理软件和监视工具提供商Solar Winds公司首席技术官Leon Adato表示:“NVMeSSD硬盘可能会疯狂运行,特别是如果正在执行诸如高级计算之类的密集操作时。即使在常规操作下,NVMeSSD硬盘也会产生引起问题的温度。”
提供足够的冷却可以确保SSD硬盘不会过热,从而防止其发生故障或节流到较低的速度。其挑战在于寻找一种从驱动器中散热的方法。有多种解决此问题的方法。Adato说,“您可以使用大型机箱,在其中可以确保芯片上有大量直接的外部气流,或者可以安装散热器,风扇或液体冷却系统。”
将室温降低到较低的温度还可以显著解决与SSD硬盘热量相关的问题。Adato说:“无论采用哪种方法,其想法都是要采取一些措施来增加冷却和/或降低系统机箱内部的环境温度。”
2. 固件故障
SSD硬盘固件异常复杂,许多SSD硬盘故障往往只是一个极端情况,仅在正常运行参数范围之外才会出现此问题。幸运的是,当出现严重的固件问题时,大多数SSD硬盘会自动进入故障保护模式。英特尔公司高级战略规划师兼产品经理,负责开发NVMe规范的财团NVMExpress的工作组联合主席JonmichaelHands说,“如果SSD硬盘无法保证数据的完整性,那么通常卖方会实施'断言'或其他故障模式,使名称空间脱机或置于只读模式,以保护主机软件免于读取不良数据。”
固件问题时有发生。例如,去年11月,惠普企业发布了客户公告,警告其SSD硬盘固件版本HPD8需要严重修复。无法应用此修复程序的组织将在32,768小时的运行时间下看到其驱动器发生故障。结果,恰好在3年270天零8个小时后,存储在驱动器上的所有数据都将丢失。
3. 滥用
SSD硬盘滥用最常见的形式是硬盘过早磨损,因为它与数据中心的工作负载不匹配。Hands说:“例如,具有较低耐久性的[四级单元]驱动器用于横向扩展存储或对象存储,而不用作具有大量随机写入的缓存硬盘。”
幸运的是,可以准确地预测和建模耐久性,因此很容易提前计划以减轻SSD硬盘故障。Hands说:“知道SSD硬盘支持什么DWPD(硬盘每天写入的数据)和TBW(写入的兆字节)。对企业的工作量进行建模,并确定哪种SSD硬盘最好。”为了预测驱动器的失效日期,可以使用有用的工具,例如英特尔的SSD硬盘久性估算器。
4. 潜在问题
在开始引起重大麻烦之前,SSD硬盘问题通常不会变得明显。越早知道存在问题,企业就可以更快地响应情况并最大程度地减少影响。阿达托说:“确保使用硬件监视软件来跟踪...组件的I/O速度,坏块和其他故障模式,以便在出现问题时尽快知道。”
Adato指出,创建一个商业环境也很重要,在该商业环境中,最终用户可以轻松地报告运行不佳,欠佳或异常的基于SSD硬盘系统。他说:“IT部门需要迅速了解故障,而解决故障远比找罪责方重要得多。”
当涉及SSD硬盘故障时,快速解决问题是防止过多损坏的关键。Adato说:“企业所希望的最好的结果是失去了对该驱动器进行写入的能力,但保留了对其进行读取的能力。因此,企业可以在将设备发送到废料堆之前将所有数据复制到另一个SSD硬盘。”