了解X86服务器平台三大硬件常见的故障-了解服务器硬件

可能对英特尔和AMD两大芯片巨头的产品如数家珍，从之前的至强5400到主流的至强5600、至强7500，以及AMD强劲的12核心x86处理器“Magny-Cours”(马尼库尔)等等。同时，服务器的另外两个核心在CPU的基础上作用不容小视，以带ECC、ChipKill、热插拔技术的内存，防止数据异常丢失的RAID硬盘等组件共同打造出一个坚若磐石的X86服务器。

　　但由于X86服务器和台式机有着很多相似之处，无论是从前期部署、中期维护到后期管理都有着众多相似之处。因此，X86服务器尽管有着成熟稳定的架构体系，也不免出现“罢工”。特别是企业负载应用得多了，遇到的故障是很平常的事情，以三大组件出现的故障与大家共同分享，可以有效避免大家在以后的业务平台上出现。

　　服务器核心——CPU

　　危害程度：★

　　故障回放：做过测试的朋友知道，一台基于Intel至强服务器，开机无显示，系统指示灯疯狂的闪烁，最直接怀疑是CPU与主板的接触不良，但将其更换到多路服务器主板的另外一个CPU插槽之上，依旧没有反应。

　　解决方案：在这种状况下经测量，CPU电压居然出现异常，原来是CPU的VRM(Voltage Regulator Module，电压调节模块)出现了故障，不能执行主板上DC电路转换，无法为CPU提供稳定的工作电压，至此只能更换CPU。

　　笔者认为这个故障是比较致命，CPU的损坏将直接导致整个服务器的不可用，但是CPU本身的安全性是非常高的，故障率极低。所以在日常维护任务中，由于CPU的损坏导致的服务中断情况是较为少见，它的危害程度不算太高，如果是多路服务器更是不用担心CPU损坏而带来的服务器宕机了。

　　服务器平台的另外两大核心，莫过于内存和硬盘，具体到内存的选择上，服务器内存与普通台式机内存还是有一些差异的。仔细观察过服务器内存的用户会发现，相比普通内存单面8颗粒的设计，服务器内存通常单面有9颗芯片，这就是我们常说的ECC内存。

　　服务器读取性能——内存

　　危害程度：★★☆

　　故障回放：之前在一台安装2条2GB内存的服务器上，由于自身承载的服务过多，服务器的处理数据的速度越来越慢，于是，通过增加2条同型号的内存条来升级服务器。将这些内存全部插入主板后，系统检测只有6GB，另外2GB内存神秘消失，反复的插拔新的内存依旧无法正常检测。

　　解决方案：通过服务器产品官方网站了解，该种情况是因为该服务器的内存插槽是配对使用，1-4、2-5、3-6、7-10、8-11、9-12，新内存插在了2、3槽，无法形成配对，自然只能检测出一条内存，将内存插到5槽，8GB内存顺利被检测。

　　可见，服务器内存的优势不仅仅体现在性能上，在容错能力同样投入很多精力，目的是为整个平台提供高稳定环境，之前提到的内存采用的ECC(错误检查和纠正)技术、Register、Chipkill都是为了提高内存的稳定性，使各个内存条和插槽之间能更好的融合。

　　作为服务器存储终端，硬盘的稳定工作关系到企业数据的安全，服务器硬盘就是这个核心的数据仓库，所有的软件和数据都存储在这里，因此服务器硬盘对可靠性和稳定性有着非常高的要求。

　　另外，服务器一般需要24*7小时不停的运行，其硬盘也要24小时不停的运转。因此，服务器硬盘对稳定性和可靠性有着很高的要求。服务器市场上采用的硬盘主要有三种，SATA硬盘、SCSI硬盘以及SAS硬盘，其中SATA硬盘主要应用在低端服务器领域，而SCSI和SAS硬盘则面向中高端服务器。

　　服务器存储核心——硬盘

　　危害程度：★★☆

　　故障回放：每台服务器会出现死机、无征兆的重启，如果频繁出现，就会经数据中心IT运维人员进行检测后发现是硬盘工作时间太长，出现了物理坏道。于是立即将硬盘做备份和更换是最佳解决办法，将硬盘内的数据导出，结果在转移数据的过程中，不停地弹出I/O错误，这直接导致数据转移的速度非常慢，且丢失了很多重要数据。

　　解决方案：这种情况多数是磁头或者盘片出现了错误。如果拆开硬盘盘片出现了划伤，但面积并不大，通过专业的公司可以通过更换磁头后重新恢复数据，恢复了95%以上的数据，这种情况相对来说比较幸运。

　　但通常说防患于未然，如果这个故障发现的及时，在盘片没有出现更多物理损伤前予以解决，一旦等到盘片损坏严重，数据将永久性丢失，为了避免这种状况的发生建议做到以下：

　　在硬盘选择上，要专业的服务器硬盘，比如：平均无故障时间超过1600000小时，年故障率低于0.55%，抗震方面要有300G/2ms的以上的耐冲击能力等等，此外应用相关服务器RAID阵列技术，比如：RAID5，它由至少3块硬盘组成，在向硬盘写入数据信息的同时，还写入校验信息，当其中有1块硬盘出现故障时，可以根据算法从另外2块硬盘上得出这块故障硬盘的数据，安全性大大提高。

　　以上三大组件的故障仅仅是抛砖引玉的简单介绍，其实在服务器故障方面不仅仅限于这几点，在电源、管理模块以及网卡方面也有类似的问题，希望用户在应用中多多积累经验，尽可能减小故障的发生率，提供一个稳定灵活的IT应用环境。