与硬盘驱动器相比,SSD更加可靠;然而,并没有完美的存储技术。即使是最新的NVMe SSD,也可能会突然或逐渐出现故障。
你知道如何判断SSD即将发生故障吗?以及你知道如何对出现故障的SSD进行故障排除吗?如果你知道答案,你也许可以实现无故障恢复,而不是永久性数据丢失。与任何存储设备一样,NVMe SSD最终将出现故障,唯一的变量是何时。与硬盘驱动器不同,SSD无法发出声音警告,提醒你可能有问题。但是,即使SSD可能已损坏,但不一定会丢失全部数据。
下面介绍了SSD故障的四个主要原因,以及如何解决这些问题。
1. 热 NVMe
SSD虽然是新兴产品,但最困扰它们的问题却是计算领域最古老的问题之一:热。 IT管理软件和监视工具提供商SolarWinds的极客Leon Adato表示:“NVMe SSD运行时可能会非常热,特别是如果你正在执行高级计算等密集操作时。即使在常规操作下,NVMe [SSD]也会产生很高温度,而引发问题。”
为了确保SSD不会过热,需要提供足够的冷却,从而防止其发生故障或节流到较低的速度。这里挑战在于寻找方法从驱动器中散热,目前有多种解决方法。Adato说:“你可以使用大型机箱,在其中确保大量直接外部气流,或者你可以安装散热器、风扇或液体冷却系统。”
调整室温到较低的温度也可以有效解决与SSD热量相关的问题。Adato说:“无论你采用哪种方法,其想法都是要采取措施来增加冷却和/或降低系统机箱内部的环境温度。”
2. 固件故障
SSD固件极其复杂,很多SSD故障往往只是极端情况-仅在正常运行参数范围之外才会出现此问题。幸运的是,当出现严重的固件问题时,大多数SSD会自动进入故障保护模式。 英特尔高级战略规划师兼产品经理兼NVM Express(负责开发NVMe规范的组织)的工作组联合主席Jonmichael Hands说:“如果SSD无法保证数据的完整性,那么通常供应商会部署‘断言(assert)’或其他故障模式,使名称空间脱机或置于只读模式,以保护主机软件免于读取不良数据。”
固件问题时有发生。例如,去年11月,惠普企业发布客户公告警告称,其SSD固件版本HPD8需要紧急修复。那些没有安装此修复程序的企业将在32,768小时的运行时间后看到其驱动器发生故障。这意味着,恰好在3年270天零8个小时后,存储在驱动器上的所有数据都将丢失。
3. 误用
SSD滥用最常见的形式是驱动器过早磨损,因为它与数据中心的工作负载不匹配。Hands说:“例如,具有较低耐久性的四级单元驱动器主要用于横向扩展存储或对象存储,而不能用作具有大量随机写入的高速缓存驱动器。”
幸运的是,企业可以准确地预测和建模耐用性,因此很容易提前计划以缓解SSD故障。 Hands说:“你需要知道你的SSD支持什么DWPD(每天写入的驱动器)和TBW(写入的兆字节)。对你的工作量进行建模,并确定哪种SSD最好。”为了预测驱动器的失效日期,你也可以使用有用的工具,例如英特尔的SSD耐用估算器。
4. 潜在问题
SSD问题通常并不明显,直到开始造成大问题。越早知道存在问题,你就可以越快地响应情况,并最大程度地减少影响。Adato说:“请确保使用硬件监视软件来跟踪…组件的I / O速度、坏块和其他故障模式,以便在出现问题时尽快知道。”
Adato指出,创建商业环境也很重要,在该商业环境中,最终用户可以轻松地报告运行不佳、欠佳或异常的基于SSD的系统。他说:“IT部门需要迅速了解故障,并快速解决故障,这远比追责重要得多。”
对于SSD故障时,快速解决问题是防止过多损坏的关键。Adato说:“你所希望的最好的结果是失去对该驱动器进行写入的能力,但保留对其进行读取的能力。这样,你可以在丢弃设备前将所有数据拉到另一个驱动器。”