全闪存时代到来,“快”、“稳”无疑是企业用户的定心丸,那么如何打造一款高可靠的全闪存阵列?华为OceanStor Dorado V3具备全面的可靠性技术手段,带来不一样的高可靠体验!
对于华为全闪存系统的可靠性,之前已经从介质可靠性、系统级可靠性、解决方案级可靠性三个层面进行了全面的介绍,本篇将着重从系统可靠性层面为大家做进一步的解读。
冗余是硬件架构的基础
OceanStor Dorado V3采用模块化和无源背板设计,所有模块都采用冗余设计,且模块间的互联网络也采用冗余链路,任何一个模块故障,都不会影响业务连续性。
预警是关键技术
只有预防才是硬道理,相比模块故障后的业务倒换,预防可以进一步降低对业务的影响,在预警后继续保持业务的连续性,并提示客户在适当的时间进行更换,大约68%的故障都可以通过提前预警进行规避。
OceanStor Dorado V3针对链路亚健康、寿命部件、高失效率器件进行预警,避免产品寿命末期或故障累积出现双重故障导致业务中断。具体预警部件包括内存、BBU(备电模块)、风扇、SSD盘、互连的所有链路,通过全面的预警技术,实现对这些部件的提前告警,提前维护,进而在业务受影响前进行更换,提高业务连续性。
故障检测、修复和隔离是必备技术
该技术是发挥冗余部件能力的基础,同时也是华为存储十几年的持续积累结果,如果没有该技术,则冗余就是虚假冗余。OceanStor Dorado V3采用分层检测隔离技术,所谓分层,就是通过硬件逻辑层、驱动层、业务层三个层次模块,自我检测隔离和模块间相互检测隔离,实现了模块间的解耦,有效避免故障模块影响正常模块的工作,以及故障扩散,真实实现系统高可用性。
关键部件高可靠是基础中的基础
作为整个系统的连接单元,背板是系统的关键部件。为了提升系统可靠性,背板采用无源化设计,必要的有源器件采用了1+1冗余设计,故障率极低,完全可以满足系统可靠性要求。
作为存储系统工作的大脑,控制器的重要性不言而喻。为了降低控制器的故障率,从器件选型到生产加工,再到严格的筛选过程,让企业用户获得放心的产品。同时控制器实时的状态监控,可以随时上报控制器的健康状态,方便用户轻松维护。
SSD(固态硬盘)是数据存储的最终部件,华为SSD的MTBF(盘平均故障间隔时间)为300万小时,领先业内水平50%,让存放数据更放心,而且其关键的数据校验算法、冗余配置、备电分组冗余等技术,是SSD可靠的重要支撑。
BBU(备电模块)是数据保护的关键部件,其寿命领先业内水平66.6%,常温状态下系统整个生命周期免更换,并且具备三重安全保护。
华为OceanStor Dorado6000 V3正视图
综上,OceanStor Dorado V3具备部件、冗余、预警、故障检测修复隔离四个层面的技术支撑,也是华为十几年持续积累和创新的结果,为企业的核心业务运行保驾护航!