客户安装没有经过DELL测试的第三方的PCI-E卡,导致服务不能正常工作,并且功耗激增,客户意见非常大,经过与DELL的售后同事沟通,此问题来自于DELL在PCI Riser卡上安装了新的传感器,如果检测到为非DELL的认证的PCI-E卡,就会全力驱动风扇及相关供电设备保证卡的正常工作,但是如果为认证卡,就会根据预先设定的标准进行调整风扇转速和供电。
与第三方卡的工程师一同对的DELL 13G服务器PowerEdge R730xd做相关的温度及能耗测试。
测试结果如下:
1
安装了第三方的PCI-E卡,没有进入系统风扇及电源状态,可以看出风扇转速都在5500左右,电源功耗是238W。
2
进入系统后电源及风扇的状态图:
3
我们在系统运行的情况下打开服务器上第三方硬件检测开关,这时风扇及电源状态,风扇从5500RPM提升到了16000RPM,功耗也上升到了392W,十分惊人:
4
关闭掉服务器上对于PCI-E插槽的第三方硬件探测器,并将风扇速度偏移至中等风扇速度45%,这时再观察风扇状态及电源、温度,电源能耗会降低到308瓦,风扇转速维持在10300RPM,CPU的温度为53°。
5
我们开始对PCI-E卡进行加压测试,满负载运行30分钟后,服务器电源、风扇、温度状态图,之前陶工有做过相关测试,满负载情况下,卡运行了5分钟就开始报警,温度超过了90°。30分钟过后,卡的表面温度为60°,核心温度为71.5°,一切正常。服务器的功耗也有所调整为294W,CPU温度维持在50°,风扇由于调整了转速故没有变化,还是10300RPM。
6
测试完PCI-E卡,我们又对PowerEdge R730xd服务器的CPU进行压力测试,使用ptugen – haswell, CPU满负载工作10分钟, 观察风扇、电源、CPU温度状态,可以看到电源为378W,CPU温度在61°,风扇转速不变。由于测试服务器硬盘为满配,抽出一定数量的硬盘后,服务器的功耗下降到310W左右。故测试完成,通过对风扇的转速偏移调整,并关闭掉对第三方硬件的识别,使得PowerEdge R730xd服务器可以正常稳定的工作,不再受到电源能耗偏高,温度过高等一些问题的困扰。
做技术的朋友可能有过类似这样的感觉——每天都会遇到新的问题,或者学到新的知识。然而一个人的时间和精力毕竟有限,不是所有的岗位都能做到总是亲力亲为,每人最擅长的领域也各不相同。为了使工程师自己踩过的坑、那些实用的心得体会也能给大家带来帮助,把经验记录和分享出来就显得尤为可贵,这就是我们开设《工程师笔记》专栏的目的。