Nehalem-EX时代DELL一共发布了三款机器,一款之前测过的刀片服务器M910,以及两款机架式服务器R810和R910。它们都是四路的机器,不过M910和R810都是属于可以做四路也可以做二路配置的机型(51CTO推荐阅读:配4路Nehalem-EX 戴尔M910服务器评测)。
DELL PowerEdge R810
笔者测试过Intel官方送测的Nehalem-EX样机,对7500系列处理器的表现已经有了一个大致的认识。但是笔者还没有接触过同为Nehalem-EX系列的6500系列处理器。R810刚好补全了我们的资料,它是基于6500系列Nehalem-EX:两个Xeon E6540,规格上看,它和E7540很相似,只是它只能组建两路系统而已。#p#
较为“轻便”的2U机架服务器
前面板就是传统的DELL造型,可以搭载6个2.5"热插拔存储
冗余电源、4个全高2个半高扩展槽位置,此外还具备了4个网络接口
#p#
和常见的结构不太一样,R810的风扇位于机箱靠后的位置,位于处理器和扩展卡之间
电源
处理器前方有一个导风罩
热插拔风扇组件
#p#
可以安装四个处理器
处理器板与IO板之间的连接
这个模块就是DELL的FlexMemory Bridge模块了
做成了CPU的样子
内部是SMI和QPI的通道
真正的CPU是这样的:Xeon E6540
#p#
中央黑色散热器下的就是SMB芯片
内置的H700阵列卡,PERC 6/i的下一代,SAS 6Gb/s接口
双Broadcom BCM5709C芯片,每个芯片提供两个千兆端口,并且每个端口都支持8个RSS队列
扩展槽Riser
#p#
通过FlexMemory Bridge模块,达到双路使用128GB内存的配置(32 DIMMs)。
#p#
SiSoftware Sandra Pro Business 2010
|
||||||
---|---|---|---|---|---|---|
测试对象
|
双路Intel Nehalem-EP Xeon X5570 2.93GHz |
双路Intel Westmere-EP Xeon X5670 2.93GHz |
双路Intel Westmere-EP Xeon X5680 3.33GHz |
Dawning I840-H 四路Intel Dunnington Xeon X7460 2.66GHz @Sandra 2009 |
DELL PowerEdge M910 四路Intel Nehalem-EX Xeon E7540 2.0GHz |
DELL PE R810 双路Intel Nehalem-EX Xeon E6540 2.0GHz |
Processor Arithmetic Benchmark
处理器算术性能测试 |
||||||
Aggregate Arithmetic Performance
|
147.17GOPS | 218.69GOPS | 249.2GOPS | 298.6GOPS | 152GOPS | |
Dhrystone iSSE4.2
|
172.5GIPS | 257GIPS | 291.36GIPS | 292201MIPS | 350.47GIPS | 174.32GIPS |
Whetstone iSSE3
|
121.84GFLOPS | 180.41GFLOPS | 207GFLOPS | 208685MFLOPS | 246.73GFLOPS | 129.73GFLOPS |
Processor Multi-Media Benchmark
处理器多媒体性能测试 |
||||||
Aggregate Multi-Media Performance
|
277MPixel/s | 410.36MPixel/s | 465.8MPixel/s | 753.51MPixel/s | 562.11MPixel/s | 288.38MPixel/s |
Multi-Media Int x16 iSSE4.1
|
317.13MPixel/s | 470.51MPixel/s | 534.13MPixel/s | 283.27MPixel/s | 646.86MPixel/s | 330.77MPixel/s |
Multi-Media Float x8 iSSE2
|
237MPixel/s | 350.2MPixel/s | 397.47MPixel/s | 501.36MPixel/s | 477.37MPixel/s | 246MPixel/s |
Multi-Media Double x4 iSSE2
|
128.62MPixel/s | 190.87MPixel/s | 216.17MPixel/s | 260.18MPixel/s | 260MPixel/s | 133.57MPixel/s |
Multi-Core Efficiency Benchmark
多核效率测试 |
||||||
Inter-Core Bandwidth
|
71.15GB/s | 80.7GB/s | 84GB/s | 12.88GB/s | 106.67GB/s | |
Inter-Core Latency
(越小越好) |
18ns | 18ns | 16ns | 110ns | 23ns | |
Cryptography Benchmark
加密解密性能测试 |
||||||
Cryptographic Bandwidth
|
1.26GB/s | 10.33GB/s | 11.72GB/s | 3GB/s | 1.52GB/s | |
AES128-ECB iAES
Cryptographic Bandwidth |
1GB/s | 18.45GB/s | 21GB/s | 2.88GB/s | 1.46GB/s | |
SHA256 iSSE4 Hashing Bandwidth
|
1.49GB/s | 2.22GB/s | 2.52GB/s | 3GB/s | 1.58GB/s | |
.NET Arithmetic Benchmark
.NET算术性能测试 |
||||||
Aggregate .NET Performance
|
55.84GOPS | 73.6GOPS | 80.22GOPS | 89.47GOPS | 58.34GOPS | |
Dhrystone .NET
|
32.11GIPS | 32.2GIPS | 37GIPS | 75397MIPS | 31.67GIPS | 33.36GIPS |
Whetstone .NET
|
79.56GFLOPS | 115GFLOPS | 123.43GFLOPS | 136088MFLOPS | 147.26GFLOPS | 83.32GFLOPS |
.NET Multi-Media Benchmark
.NET多媒体性能测试 |
||||||
Aggregate .NET Multi-Media Performance
|
42.13MPixel/s | 63.18MPixel/s | 71.4MPixel/s | 90MPixel/s | 45.8MPixel/s | |
Multi-Media Int x1 .NET
|
59MPixel/s | 88.64MPixel/s | 100.36MPixel/s | 119.30MPixel/s | 127.38MPixel/s | 64.34MPixel/s |
Multi-Media Float x1 .NET
|
25.22MPixel/s | 37.73MPixel/s | 42.42MPixel/s | 31.74MPixel/s | 52.7MPixel/s | 27.27MPixel/s |
Multi-Media Double x1 .NET
|
48.3MPixel/s | 68.45MPixel/s | 78.48MPixel/s | 58.72MPixel/s | 102.48MPixel/s | 52.22MPixel/s |
大致上,双路E6540的运算性能是四路E7540的一半多一些,和预想的差不多。
#p#
SiSoftware Sandra Pro Business 2010
|
||||||
---|---|---|---|---|---|---|
测试对象
|
双路Intel Nehalem-EP Xeon X5570 2.93GHz |
双路Intel Westmere-EP Xeon X5670 2.93GHz |
双路Intel Westmere-EP Xeon X5680 3.33GHz |
Dawning I840-H 四路Intel Dunnington Xeon X7460 2.66GHz @Sandra 2009 |
DELL PowerEdge M910 四路Intel Nehalem-EX Xeon E7540 2.0GHz |
DELL PE R810 双路Intel Nehalem-EX Xeon E6540 2.0GHz |
Memory Bandwidth Benchmark
内存带宽测试 |
||||||
Aggregate Memory Performance
|
38GB/s | 35GB/s | 35.2GB/s | 33.86GB/s | 33.2GB/s | |
Int Buff'd iSSE2 Memory Bandwidth
|
38GB/s | 35GB/s | 35.2GB/s | 3.49GB/s | 33.86GB/s | 33.18GB/s |
Float Buff'd iSSE2 Memory Bandwidth
|
38GB/s | 35GB/s | 35.18GB/s | 3.49GB/s | 33.85GB/s | 33.23GB/s |
Memory Latency Benchmark(Random)
内存延迟测试(随机) |
||||||
Memory(Random Access) Latency
(越小越好) |
80ns | 83ns | 82ns | 192ns | 161ns(min) | |
Speed Factor
(越小越好) |
55.50 | 57.00 | 64.60 | 98.10 | 90 | |
Internal Data Cache
|
4clocks | 4clocks | 4clocks | 4clocks | 4clocks | |
L2 On-board Cache
|
11clocks | 10clocks | 10clocks | 10clocks | 9clocks | |
L3 On-board Cache
|
49clocks | 57clocks | 60clocks | 84clocks | 97clocks | |
Memory Latency Benchmark(Linear)
内存延迟测试(线性) |
||||||
Memory(Linear Access) Latency
(越小越好) |
7ns | 7ns | 7ns | 41ns | 32ns(min) | |
Speed Factor
(越小越好) |
4.80 | 5.10 | 5.50 | 20.70 | 17.20 | |
Internal Data Cache
|
4clocks | 4clocks | 4clocks | 4clocks | 4clocks | |
L2 On-board Cache
|
10clocks | 11clocks | 11clocks | 10clocks | 9clocks | |
L3 On-board Cache
|
13clocks | 13clocks | 13clocks | 34clocks | 35~45clocks | |
Cache and Memory Benchmark
缓存及内存测试 |
||||||
Cache/Memory Bandwidth
|
142GB/s | 183.26GB/s | 195.6GB/s | 315GB/s | 182GB/s | |
Speed Factor
(越小越好) |
21.20 | 31.00 | 35.20 | 34.80 | 17.60 | |
Internal Data Cache
|
471GB/s | 663.51GB/s | 744.49GB/s | 919.66GB/s | 489.14GB/s | |
L2 On-board Cache
|
295.4GB/s | 537.88GB/s | 611GB/s | 749GB/s | 382.72GB/s | |
L3 On-board Cache
|
112GB/s | 146.33GB/s | 159GB/s | 336.6GB/s | 215.64GB/s |
内存带宽上,双路E6540和四路E7540差不多,因为双路配置下E6540使用了所有的内存控制器,而四路E7540只使用了一个,两个配置下总的内存通道数量是一样的。延迟上,双路E6540配置还要略低一些。
#p#
SPEC CPU 2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC CPU 2006的整数运算包含了400.perlbench PERL编程语言、401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理共12项。
前面得出,纯计算能力单个E6540和E7540没什么差别,组成双路的效率比四路的效率还要略高一点。现在,SPEC得出的整数运算吞吐量,R810达到了M910的69.4%,这表明,R810的双路处理器因为使用了完整的两个内存控制器而得到了实际运算效果的提升,比较明显的462.libquantum 量子计算项目就是这样。
#p#
SPEC CPU 2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves 流体力学、416.gamess 量子化学、433.milc 量子力学、434.zeusmp 物理:计算流体力学、435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共17项测试。
在浮点运算吞吐量上,R810还要比M910高一些(4%),虽然不同的项目有高有低,但是这表明了内存带宽也是很重要的。
#p#
CineBench R11.5 64bit
|
|||||
处理器 | 双路Intel Nehalem-EP Xeon X5570 |
双路Intel Westmere-EP Xeon X5670 |
双路Intel Westmere-EP Xeon X5680 |
DELL PowerEdge M910 四路Intel Nehalem-EX Xeon E7540 |
DELL PE R810 双路Intel Nehalem-EX Xeon E6540 |
显卡 | - | - | - | - | - |
CPU Benchmark
|
|||||
Rendering (1 CPU) | 1.02 pts | 1.02 pts | 1.16 pts | 0.78 pts | 0.79 pts |
Rendering (x CPU) | 9.92 pts | 14.58 pts | 16.40 pts | 19.26 pts | 10.32 pts |
Threads | 16 | 24 | 24 | 48 | 24 |
Multiprocessor Speedup | 9.68x | 14.33x | 14.18x | 24.65x | 13.14x |
这个测试比较侧重于更多的计算核心。
#p#
MMM - Matrix-Matrix Multiplicaion Benchmark
|
|||||
处理器 | 双路Intel Nehalem-EP Xeon X5570 |
双路Intel Westmere-EP Xeon X5670 |
双路Intel Westmere-EP Xeon X5680 |
DELL PowerEdge M910 四路Intel Nehalem-EX Xeon E7540 |
DELL PE R810 双路Intel Nehalem-EX Xeon E6540 |
单位 | GFLOPS | GFLOPS | GFLOPS | GFLOPS | GFLOPS |
Threads 1
|
|||||
5000 step | 7.821975 | 7.842319 | 8.877563 | 5.867645 | 6.007474 |
10000 step | 7.890761 | 7.840417 | 8.883291 | 5.865347 | 5.984136 |
15000 step | 7.888751 | 7.845479 | 8.881528 | 5.826604 | 5.90173 |
Threads 2
|
|||||
5000 step | 15.59136 | 15.62796 | 17.5891 | 11.570261 | 11.815215 |
10000 step | 15.7544 | 15.66469 | 17.73566 | 11.689317 | 11.870882 |
15000 step | 15.7445 | 15.64657 | 17.67208 | 11.602247 | 11.796412 |
Threads 4
|
|||||
5000 step | 30.69218 | 29.99696 | 34.85343 | 21.788607 | 22.342354 |
10000 step | 31.02227 | 29.75883 | 34.90105 | 22.21115 | 22.337463 |
15000 step | 31.04954 | 30.55926 | 34.92557 | 22.073702 | 22.299975 |
Threads 8
|
|||||
5000 step | 36.2252 | 49.03697 | 45.99856 | 41.228878 | 28.497565 |
10000 step | 38.21083 | 50.30305 | 45.99856 | 43.472432 | 29.396352 |
15000 step | 40.71236 | 56.00031 | 47.74417 | 43.37777 | 37.193253 |
Threads 16
|
|||||
5000 step | 59.38371 | 64.04222 | 66.10022 | 73.379889 | 44.935817 |
10000 step | 61.44583 | 62.42291 | 72.38159 | 78.596851 | 51.056532 |
15000 step | 61.83442 | 64.3761 | 73.2495 | 79.099092 | 54.979568 |
Threads 24
|
|||||
5000 step | 54.82514 | 84.13599 | 66.10022 | 94.000418 | 60.406535 |
10000 step | 54.82514 | 88.58685 | 72.38159 | 124.028823 | 63.634763 |
15000 step | 59.18915 | 90.12297 | 73.2495 | 124.574801 | 64.72546 |
Threads 48
|
|||||
5000 step | 97.335138 | ||||
10000 step | 119.780984 | ||||
15000 step | 121.637469 |
和Sandra得出的结果差不多。
SunGard Adaptiv Analytics Benchmark v4.0
|
|||||
处理器 | 双路Intel Nehalem-EP Xeon X5570 |
双路Intel Westmere-EP Xeon X5670 |
双路Intel Westmere-EP Xeon X5680 |
DELL PowerEdge M910 四路Intel Nehalem-EX Xeon E7540 |
DELL PE R810 双路Intel Nehalem-EX Xeon E6540 |
Threads | 16 | 24 | 24 | 48 | 24 |
Time (lower is better) |
138.076s | 110.331s | 94.911s | 139.512s | 147.716s |
black_scholes
|
|||||
处理器 | 双路Intel Nehalem-EP Xeon X5570 |
双路Intel Westmere-EP Xeon X5670 |
双路Intel Westmere-EP Xeon X5680 |
DELL PowerEdge M910 四路Intel Nehalem-EX Xeon E7540 |
DELL PE R810 双路Intel Nehalem-EX Xeon E6540 |
Threads | 16 | 24 | 24 | 48 | 24 |
Time (lower is better) |
9.17s | 6.16s | 5.51s | 4.40s | 8.28s |
更多的计算能力在这两个测试里面是更好的。
#p#
16万TPS左右,比M910还要高点。数据库测试对内存带宽和内存延迟比较敏感。
测试时网络占用率
#p#
R810是DELL推出的基于Nehalem-EX处理器的2U服务器,它可以配置为2路也可以配置为4路。R810提供了32个DIMM的内存支持能力,***容量达512GB,通过DELL的FlexMemory Bridge技术,R810在2路配置下也能完全使用这32个DIMM。R810还支持冗余电源和四个BCM5709C千兆网络端口,通过H700提供了SAS 6Gb/s的阵列支持能力。R810支持6个2.5"热插拔硬盘。
DELL PowerEdge R810
样机配置的是两个Xeon E6540处理器,它和E7540基本没什么区别,除了只能用于双路配置之外。在使用了两个DELL的FlexMemory Bridge模块之后,每个E6540处理器可以应用完整的两个内存控制器以及对应的16个DIMM,从而获得了不错的性能表现,和四路配置的M910相比是互有上下,因为后者每个处理器仅使用了一个内存控制器。我们认为,M910和R910都更适合于双路配置,不过,一些应用下,四路配置也是可以选择的。
【编辑推荐】