前不久,英特尔对外发布了最新的基于Sandy Bridge微架构的32nm至强处理器——E3系列。虽然这并非是英特尔第一次发布基于Sandy Bridge微架构的产品,虽然E3仅仅面向单路应用而生,但不管怎么说,E3的出现的确标志着英特尔在至强处理器发展中迈出了重要的一步,也是Tick-Tock战略中重要的内容(Tock)。
英特尔发布Sandy Bridge微架构32nm至强处理器
得益于桌面级Sandy Bridge处理器的成功,许多人对于至强Sandy Brideg处理器也充满了期待。虽然对于至强处理器应用的服务器环境来说,多媒体性能并非是人们应该关注的内容。而每当提到Sandy Bridge的技术特点——环形总线、AVX指令集、Turbo Boost2等内容都是众多报道中频繁出现的内容。究竟这些技术为我们带来了什么?它们的存在会有哪些的好处。这些还要从Sandy Brideg之前的Nehalem开始说起。
#p#
按照英特尔著名的时钟规律——Tick-Tock来看,Sandy Bridge明显属于后者,也就是Tock范畴。Tock主要是指处理器微架构方面的改变,而核心工艺的上一次升级已经由我们熟悉的Westmere完成了,下一次22nm的升级还要再等等才行。
在进行系统的分析之前,我们先来看看最新的至强Sandy Bridge处理器路线图。相比以往的产品来说,Sandy Bridge至强处理器采用了与桌面级酷睿处理器类似的命名规范,分为E3、E5和E7三个系列。其中,E3系列是面向入门级单路服务器的产品,E5系列则面对了主流的双路服务器平台。唯一有特点的是E7,这款产品虽然在型号上采用了新的命名规则,但是在本质上E7还是上一代架构的产品,它还有一个大家非常熟悉的名字——Westmere-EX 。
至强处理器路线图
本次我们要介绍的至强E3系列属于面向单路服务器应用的产品,使用的是LGA115接口,也就是图中的Sandy Bridge-DT。按照产品布局分析,Sandy Bridge-DT主要定位在入门级的单路服务器,虽然同样是单路,但是高端应用的任务则是由Sandy Bridge-EN来承担。
#p#
正如我们刚才提到的,新一代的至强Sandy Bridge处理器给我们带来的一个印象就是采用了环形总线架构,这也是英特尔在继Nehalem和Westmere之后继续使用环形总线的架构。
Sandy Bridge核外架构图
Sandy Bridge处理器使用了新的环形总线设计。事实上从之前的Nehalem开始,英特尔就转向了融合核心的理念。在Nehalem当中,英特尔将内存控制器融入其中,而在接下来的Westmere当中,GPU也作为融入的对象而出现(只是那时候的GPU还仅仅使用的是45nm工艺)。在之前的8核心Nehalem-EX上,我们就看到了环形总线的身影,不过当时的产品在性能和功耗上并没有表现出明显的优势。
本次Sandy Bridge使用的是重新设计的核外结构,全新的Ring Bus环形总线更能够较好的展示出Sandy Bridge的真实性能。通过上图大家可以看到,Ring Bus环形总线连接各个CPU核心、LLC缓存(L3缓存)、融合进去的GPU以及System Agent(系统北桥)等部分。
这个图片或许可以更好的说明问题。新的Ring Bus环形总线由四条独立的环组成,分别是数据环Data Ring、请求环Request Ring、响应环Acknowledge Ring和侦听环Snoop Ring。借助于环形总线,CPU与GPU可以共享LLC缓存,将大幅度提升GPU性能。
在这个环形总线上,分布着多个Ring Stop,也就是俗称的“站台”。这个“站台”在每个CPU/LLC块上具有两个连接点,而之前使用环形总线的产品,也就是Nehalem-EX环在每个CPU/LLC块上只有一个连接点。
环形总线的存在,可以大大减少核心访问三级缓存的周期。在以往的产品中,多个核心共享一个三级缓存,需要访问的话必须先经过流水线发送请求,在进行优先级排序之后才能进行。新的环形总线将三级缓存分割成了若干部分,借助于每个站台,核心可以快速的访问LLC。LLC小容量缓存的延迟优势与核心频率一致性在这里也就体现了出来,这就使得Sandy Bridge的周期相比以往产品有所缩减,从原来的35-40个缩减到了26-31个。同时,由于每个核心与LLC之间可以提供若干带宽,使得Sandy Bridge的整体带宽也提升了4倍。
#p#
在Sandy Bridge处理器中,英特尔使用了一个全新的概念——System Agent(系统助手)。事实上,System Agent也就是我们之前所说的核外架构,只是英特尔本次给予了其全新的命名,而在以往的名称中,我们亲切的称之为系统北桥。
系统助手
System Agent包含了比以往产品更为丰富的功能,包括整合内存控制器、支持16条PCIE2.0通道的PCIE控制器、图形处理器(GPU)、电源控制单元(PCU)以及DMI总线的IO接口。
PCI-E控制器,可提供16条PCI-E 2.0信道,支持单条PCI-E x16或者两条PCI-E x8插槽;
重新设计的双通道DDR3内存控制器,内存延迟也恢复了正常水平(Westmere将内存控制器移出CPU、放到了GPU上);
此外还有DMI总线接口、显示引擎、电源控制单元(PCU)。
系统助手的频率要低于其他部分,有自己独立的电源层。
#p#
在Sandy Bridge处理器中,最大的改进要算是增加了全新的AVX指令集——Advanced Vector Extensions,高级矢量扩展。这个指令集的增加是X86处理器中的重要内容,不仅仅是提供了更为良好的性能,同时也是对现有指令集的整合与优化。
介绍AVX指令集之前,先要引入一个向量的概念。所谓向量,就是多个标量的组合,通常意味着SIMD(单指令多数据),就是一个指令同时对多个数据进行处理,达到很大的吞吐量。早在1996年,英特尔就在X86架构上应用了MMX(多媒体扩展)指令集,那时候还仅仅是64位向量。到了1999年,SSE(流式SIMD扩展)指令集出现了,这时候的向量提升到了128位。
如今,Sandy Bridge的AVX将向量化宽度扩展到了256位,原有的16个128位XMM寄存器扩充为256位的YMM寄存器,可以同时处理8个单精度浮点数和4个双精度浮点数。换句话说,Sandy Bridge的浮点吞吐能力可以达到前代的两倍。不过现在,AVX的256位向量还仅仅能够支持浮点运算。不过AVX的特别之处在于,它可以应用128位的SIMD整数和SIMD浮点路径。
#p#
既然我们一直在讨论Sandy Bridge核心,那么不谈到其特色的整合GPU显然是不合适的,虽然对于服务器的应用来说多媒体性能的确是无足轻重。其实我们在文章最初就提到过,作为Tioc-Tock时钟式的重要内容,其实从Wesrtmere 32nm处理器开始,英特尔就在处理器中整合了GPU,不过仅仅是将二者封装在一个Die上。因为45nm的GPU与32nm的CPU在制程上不一致,最重要的是关键的内存控制器被放在了45nm的GPU当中,造成了32nm Westmere性能并没有想象的那么出色。而在Tock中,Sandy Bridge的出现解决了这一问题,特别是将GPU整合在了环形总线之内,实现了二者真正的融合。
SandyBridge GPU有自己的电源岛和时钟域,也支持Turbo Boost技术,可以独立加速或降频,并共享三级缓存。显卡驱动会控制访问三级缓存的权限,甚至可以限制GPU使用多少缓存。将图形数据放在缓存里就不用绕道去遥远而“缓慢”的内存了,这对提升性能、降低功耗都大有裨益。
可编程着色硬件被称为EU,包含着色器、核心、执行单元等,可以从多个线程双发射时取指令。内部ISA映射和绝大多数DX10.1 API指令一一对应,架构很像CISC,结果就是有效扩大了EU的宽度,IPC也显著提升。抽象数学运算由EU内的硬件负责,性能得以同步提高。
英特尔此前的图形架构中,寄存器文件都是即时重新分配的。如果一个线程需要的寄存器较少,剩余寄存器就会分配给其他线程。这样虽能节省核心面积,但也会限制性能,很多时候线程可能会面临没有寄存器可用的尴尬。在芯片组集成时代,每个线程平均64个寄存器,Westmere HD Graphics提高到平均80个,Sandybridge则每个线程固定为120个。
#p#
好了,介绍了这么多,终于轮到我们本次评测的主角——至强E3系列登场了。关于至强E3系列,一共有7款产品,其中两款为超低功耗版的产品。它们的主频最低为2.2GHz,最高为2.5GHz。
本次我们拿到的测试产品是E3系列中的E3-1275和E3-1220。前者是E3系列中的高端产品,主频为3.4GHz,支持超线程技术,TDP为80W;后者是E3系列标准版中的最低规格,主频仅为3.1GHz,不支持超线程技术。其中,整合GPU的处理器命名统一以5结尾。
至强E3-1220处理器
至强E3-1275处理器
LGA1155接口处理器
至强E3系列处理器采用的是LGA1155接口,从处理器的背面来看其布局与LGA1156有非常大的区别,也就是说用户不可能直接从LGA1156平滑升级到LGA1155处理器,必须要更换平台。
对于桌面级的Sandy Bridge处理器来说,6系列芯片组,包括P67和H67都是比较好的选择。而在本次测试中,由于我们暂未难道应用于E3系列处理器的主板,因此在测试中我们只能选择P67芯片组进行。这次,我们将针对高端的E3-1270处理器进行测试。
#p#
对于至强E3-1270处理器的测试,我们搭建了一套专门的平台,具体配置如下:
平台信息服务器
|
|
产品名称 | 至强E3-1275处理器 |
平台类型 | 英特尔 P67芯片组 |
处理器子系统 | |
---|---|
处理器型号 | 英特尔 Xeon E3-1275 |
处理器架构 | 英特尔 32nm Sandy Bridge |
代号 | Sandy Bridge |
处理器封装 | Socket 1155 LGA |
核心/线程数量 | 4/8 |
主频 | 3.4GHz |
处理器指令集 |
MMX,SSE,SSE2,SSE3, |
外部总线 | 2×QPI 2933MHz 6.40GT/s 单向12.8GB/s(QPI) 双向25.6GB/s(QPI) |
L1 Code Cache | 4× 32KB 8路集合关联 |
L1 Data Cache | 4× 32KB 4路集合关联 |
L2 Cache | 4× 256KB 8路集合关联 |
L3 Cache | 8MB 16路集合关联 |
服务器主板 | |
主板型号 | 英特尔 DP67BG |
主板芯片组 | 英特尔 P67 |
北桥芯片特性 | 2×QPI VT-d Gen 2 |
内存子系统 | |
内存控制器 | 每CPU集成双通道R-ECC DDR3 1333 |
内存类型 | 2GB R-ECC DDR3 1333 SDRAM ×4条 |
存储子系统 | |
磁盘控制器 | 英特尔 ICH10R SATA AHCI Controller |
磁盘控制器规格 | 4x SATA 3Gb/s+2x SATA 6Gb/s AHCI w/ NCQ RAID 0/1/10 |
控制器驱动 | 英特尔 Matrix Storage Manager 8.8.0.1009 |
硬盘型号数量 | Seagate Barracuda 7200.12 ST3250318AS |
硬盘规格 | 7200RPM 500GB SATA 3Gb/s NCQ 16MB Cache |
网络连通性 | |
网卡控制器 | 英特尔 82576EB Port Gigabit Network Controller |
网卡驱动 | 英特尔 PRO Set 15.8.76.0 |
软件环境 | |
操作系统 | Windows Server 2008 R2 Enterprise Edition SP1 x64 |
本次我们为这款平台搭配的是Windows Server 2008 R2操作系统,而且还增加了SP1补丁。刚刚我们在介绍AVX指令集的时候提到,这个指令集在SP1版本下有比较好的表现,因此我们特别安装了SP1补丁。平台方面,P67平台是当下我们的无奈选择,好在这个是英特尔原厂的主板,还算是比较搭配。出于测试SPEC CPU 2006的考虑,我们为平台搭配了4条宇瞻 DDR3 1333内存,这样系统的内存容量达到了16GB。
#p#
对于服务器性能方面的考察,我们主要分为子系统测试和应用性能测试。在子系统测试中我们按处理器、内存以及磁盘等各个子系统进行了分项测试,当然各子系统的测试成绩也是相辅相成,也需要其它子系统的支持,并非是完全独立的,只是对考察的子系统有所偏重而已。
处理器子系统测试
对服务器处理器子系统的考察,我们主要采用的是业界公认的SPEC CPU 2006测试,该项测试通过对数十个典型应用程序的运行,来测试系统处理器子系统在应用中的整、浮点运算效率。SPEC CPU 2006测试具有很好的开放性,因此在业界为广大用户所接受,可以利用这一公开的测试结果进行系统间运算性能的比较。
此外SiSoftware Sandra也有测试子项可用于处理器运算性能测试,其结果通常以每秒完成的指令数来表现。也可以用作不同处理器间运算效率的比较。
SPEC CPU 2006 v1.1
SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。
SPEC CPU 2006是SPEC组织推出的CPU子系统评估软件最新版,我们之前使用的是SPEC CPU 2000。和上一个版本一样,SPEC CPU 2006包括了CINT2006和CFP2006两个子项目,前者用于测量和对比整数性能,后者则用于测量和对比浮点性能,SPEC CPU 2006中对SPEC CPU 2000中的一些测试进行了升级,并抛弃/加入了一些测试,因此两个版本测试得分并没有可比较性。
SPEC CPU测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常的小。
SPECfp测试过程中同时执行多个实例(instance),测量系统执行计算密集型浮点操作的能力,比如CAD/CAM、科学计算等方面应用可以参考这个结果。SPECint测试过程中同时执行多个实例(instances),然后测试系统同时执行多个计算密集型整数操作的能力,可以很好的反映诸如数据库服务器、电子邮件服务器和Web服务器等基于整数应用的多处理器系统的性能。
我们在被测服务器中安装了英特尔 C++ 11.1.034 Compiler、英特尔 Fortran 11.1.034 Compiler这两款SPEC CPU 2006必需的编译器,通过最新出现的QxS编译参数,英特尔 Compiler 10版本开始支持对英特尔 SSE4指令集进行优化(假如只支持SSE3,则使用QxT编译参数)。我们另外安装了Microsoft Visual Studio 2003 SP1提供必要的库文件。按照SPEC的要求我们根据自己的情况编辑了新的Config文件,使用了较多的编译选项。我们根据被测系统选择实际可同时处理的线程数量,最后得到SPEC rate base测试结果(基于base标准编译,SPEC base rate测试代表系统同时处理多个任务的能力)。
和其它测试部件不同,SPEC CPU 2006需要大量的系统物理内存,我们的SPEC测试在64位的Windows Server 2008 R2 下完成,对于每个运算核心,最低配置1.5GB内存。
内存子系统测试
对于内存子系统的考察,也是利用SiSoftware Sandra来实现,在该软件中有相应组件可进行内存带宽、内存延迟等方面的测试。
SiSoftware Sandra v2011
SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统上的分析软件,这款软件可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。从2007开始,Sandra的Arithmetic benchmarks增加了对SSE3&SSE4 SSE4的支持,在Multi-Media benchmark中增加了对于SSE4的支持,另外还升级了File System benchmark和Removable Storage benchmark两个子项目。对于新的硬件的支持当然也是该软件每次升级的重要内容之一,SiSoftware Sandra 2010对NUMA架构以及最新的Windows 7/Windows Server 2008 R2提供了更好的支持,此外测试项目和测试结果也有了略微的变化。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化,最高可支持32/64路平台。
#p#
激动人心的时刻终于到来了。对于一款处理器来说,许多人都喜欢使用CPU-Z来观察它的规格。下面我们就一起来看看至强Sandy Bridge处理器给我们带来了什么。
因为测试处理器为ES版,所以依然识别为Core i7处理器,不过下面一行倒是看得很清楚——E3 1275
8MB三级缓存,由4个核心共享,每核心分配2MB
测试主板使用的是P67芯片组
我们使用了4条宇瞻4GB DDR3 1333内存,系统总内存容量为16GB
#p#
AIDA64(原EVEREST)是一个测试软硬件系统信息的工具,它可以详细的显示出PC硬件每一个方面的信息。支持上千种(3400+)主板,支持上百种(360+)显卡,支持对并口/串口/USB这些PNP设备的检测,支持对各式各样的处理器的侦测。支持查看远程系统信息和管理,结果导出为HTML、XML功能。
之前这款软件命名为AIDA32,后改名为EVEREST,现在又改名为AIDA64,真是够折腾的。
E3-1275支持超线程技术,我们可以看到完整的8个线程
P67主板仅能够支持双通道内存,不过我们刚刚在介绍System Agent的说过,这个双通道是经过重新设计的
系统北桥实际上就是System Agent,因为我们使用的是P67而非H67,所以显示自带的GPU已禁用
主板南桥信息
#p#
SPEC CPU 2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves 流体力学、416.gamess 量子化学、433.milc 量子力学、434.zeusmp 物理:计算流体力学、435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共17项测试。
首先我们看到的是浮点预算的测试成绩,我们采用的对比处理器为至强X3430。至强X3430是上一代的单路服务器产品,采用45nm工艺,其主频为2.4GHz,4核心4线程。从这个测试结果来看,E3-1275大幅度领先于对比产品,许多项目的性能提升在一倍以上。
这个原因是多方面的。首先从主频上来看,E3-1275相比X3430提升了1GHz的主频,差距很明显;其次是超线程的应用,8线程相比4线程也提升了一倍;第三是处理器微架构的差别,包括整体的设计及制造工艺。因此,至强E3-1275的明显优势也就没什么好奇怪的了。
#p#
SPEC CPU 2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC CPU 2006的整数运算包含了400.perlbench PERL编程语言、401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理共12项。
刚才我们说过了E3-1275在硬件规格及软件设计上的三点优势,这些优势在整数运算中表现更为明显,部分项目领先了X3430达5倍之多。
#p#
SiSoftware Sandra是一款很不错的软件,但是对于Sandy Bridge平台来说,原来的2010版本已经不能使用,而目前提供免费下载的版本型号为2011Lite。相比我们之前使用的Business版本来说,Lite版简化了许多的功能,还好我们常用的测试项目都还在。
在成绩分析前我们必须要清楚,这两个相对比的服务器平台所配的处理器分属于英特尔至强5500和5600前后两个不同的系列,虽然二者每个处理器都是4个核心,但是二者的工作频率却有比较大的差距,联想万全R525 G3采用的至强E5620的工作主频为2.4GHz,是至强5600系列中主频最低的,而对比服务器平台所选用的至强X5570却是至强5500系列中工作主频最高的,为2.93GHz。接下来的对比也将是两个处理器配置悬殊的服务器平台间的较量。
SiSoftware Sandra Lite 2011
|
||
产品名称 | 至强E3-1275 | 至强X3430 |
平台类型 | 单路Sandy Bridge | 单路Lynnfield |
Processor Arithmetic Benchmark 处理器算术运算测试 |
||
---|---|---|
Dhrystone ALU | 136.74GIPS |
62244MIPS
|
Dhrystone ALU vs SPEED | 35.98MIPS/MHz | 48.75MIPS/MHz |
Whetstone iSSE3 | 83.43 GFLOPS |
29187MFLOPS
|
Dhrystone iSSE3 vs SPEED | 21.96 MFLOPS/MHz |
12.16MFLOPS/MHz
|
Processor Multi-Media Benchmark 处理器多媒体测试 |
||
Multi-Media Int x16 iSSE4.1 | 201.26MPixel/s |
106.74MPixel/s
|
Multi-Media Int x16 iSSE4.1 vs SPEED | 78.26 kPixels/s/MHz |
44.48kPixels/s/MHz
|
Multi-Media Float x8 iSSE2 | 153MPixel/s |
81.28MPixel/s
|
Multi-Media Float x8 iSSE2 vs SPEED | 59.48 kPixels/s/MHz |
33.87kPixels/s/MHz
|
Multi-Media Double x4 iSSE2 | 83.54MPixel/s |
42.24MPixel/s
|
Multi-Media Double x4 iSSE2 vs SPEED | 32.49 kPixels/s/MHz |
17.60kPixels/s/MHz
|
Multi-Core Efficiency Benchmark 处理器效能测试 |
||
Inter-Core Bandwidth | 16 GB/s |
13.27GB/s
|
Inter-Core Bandwidth vs SPEED | 4.29 MB/s/MHz |
5.66MB/s/MHz
|
Inter-Core Latency(越小越好) | 42.4ns |
60ns
|
Inter-Core Latency vs SPEED(越小越好) | 0.01ns/MHz |
0.03ns/MHz
|
.NET Arithmetic Benchmark .NET算术运算测试 |
||
Dhrystone .NET | 18GIPS |
11567MIPS
|
Dhrystone .NET vs SPEED | 5MIPS/MHz |
4.82MIPS/MHz
|
Whetstone .NET | 50.1 GFLOPS |
26730MFLOPS
|
Whetstone .NET vs SPEED | 13.92MFLOPS/MHz |
11.14MFLOPS/MHz
|
.NET Multi-Media Benchmark .NET多媒体测试 |
||
Multi-Media Int x1 .NET | 37.72 MPixel/s |
21.93MPixel/s
|
Multi-Media Int x1 .NET vs SPEED | 9.93MPixel/s |
9.14kPixels/s/MHz
|
Multi-Media Float x1 .NET | 13.7MPixel/s |
7.26MPixel/s
|
Multi-Media Float x1 .NET vs SPEED | 3.61kPixels/s/MHz |
3.03kPixels/s/MHz
|
Multi-Media Double x1 .NET | 27.22 MPixel/s |
11.82MPixel/s
|
Multi-Media Double x1 .NET vs SPEED | 7.16 kPixels/s/MHz |
4.92kPixels/s/MHz
|
依然是一边倒的成绩,我们甚至觉得选择X3430作为对比产品有点怠慢了E3-1275。不过没办法,单路服务器处理器数量太少,我们手中的数据有较为有限。
#p#
SiSoftware Sandra Lite 2011
|
||
产品名称 | 至强E3-1275 | 至强X3430 |
平台类型 | 单路Sandy Bridge | 单路Lynnfield |
Memory Bandwidth Benchmark 内存带宽测试 |
||
---|---|---|
Int Buff'd iSSE2 Memory Bandwidth | 17.37 GB/s |
13.78GB/s
|
Float Buff'd iSSE2 Memory Bandwidth | 17.37GB/s |
13.77GB/s
|
Memory Latency Benchmark 内存延迟测试 |
||
Memory(Random Access) Latency (越小越好) | 73.3ns |
89ns
|
Speed Factor (越小越好) | 68.20 |
57.50
|
Internal Data Cache | 4clocks | 4clocks |
L2 On-board Cache | 11clocks | 9clocks |
L3 On-board Cache | 35clocks | 47clocks |
Cache and Memory Benchmark 缓存及内存测试 |
||
Cache/Memory Bandwidth | 97.76GB/s |
51.08GB/s
|
Cache/Memory Bandwidth vs SPEED | 27.06MB/s/MHz |
21.79MB/s/MHz
|
Speed Factor (越小越好) | 38.10 |
27.10
|
Internal Data Cache | 427.84GB/s |
205.08GB/s
|
L2 On-board Cache | 287.5GB/s |
175.49GB/s
|
内存带宽测试中,同样是双路的两款平台在性能上出现了较大的差异,特别是L3缓存的项目中差距较大,这都是环形总线的功劳。
#p#
CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,我们的平台偏向于服务器多一些,因此就只有前两个的成绩具有意义。和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。
CineBench R10
|
||
产品名称 | 至强E3-1275 | 至强X3430 |
平台类型 | 单路Sandy Bridge | 单路Lynnfield |
CPU Benchmark | ||
---|---|---|
Rendering (1 CPU) | 6041 CB-CPU | 3868 CB-CPU |
Rendering (x CPU) | 23643 CB-CPU | 12964 CB-CPU |
Multiprocessor Speedup | 3.91x |
3.35x
|
OpenGL Benchmark | ||
OpenGL Standard | 335 CB-GFX | 7690 CB-GFX |
至强E3-1275处理器。
#p#
本次测试的至强E3-1275是E3系列的高端产品,具备了4核心8线程,性能非常强悍。下面,我们将关闭E3-1275的超线程功能,观察在这个状态下它的性能表现,以便总结超线程技术对于Sandy Bridge处理器的影响。
SiSoftware Sandra Lite 2011
|
||
产品名称 | 至强E3-1275(开启) | 至强E3-1275(关闭) |
平台类型 | 单路Sandy Bridge | 单路Sandy Bridge |
Processor Arithmetic Benchmark 处理器算术运算测试 |
||
---|---|---|
Dhrystone ALU | 136.74GIPS |
106.77GIPS
|
Dhrystone ALU vs SPEED | 35.98MIPS/MHz | 28.86MIPS/MHz |
Whetstone iSSE3 | 83.43 GFLOPS |
49.57 GFLOPS
|
Dhrystone iSSE3 vs SPEED | 21.96 MFLOPS/MHz |
13.40MFLOPS/MHz
|
Processor Multi-Media Benchmark 处理器多媒体测试 |
||
Multi-Media Int x16 iSSE4.1 | 201.26MPixel/s |
163.79MPixel/s
|
Multi-Media Int x16 iSSE4.1 vs SPEED | 78.26 kPixels/s/MHz |
63.69kPixels/s/MHz
|
Multi-Media Float x8 iSSE2 | 153MPixel/s |
111.37 MPixel/s
|
Multi-Media Float x8 iSSE2 vs SPEED | 59.48 kPixels/s/MHz |
43.3kPixels/s/MHz
|
Multi-Media Double x4 iSSE2 | 83.54MPixel/s |
60.16MPixel/s
|
Multi-Media Double x4 iSSE2 vs SPEED | 32.49 kPixels/s/MHz |
23.4kPixels/s/MHz
|
Multi-Core Efficiency Benchmark 处理器效能测试 |
||
Inter-Core Bandwidth | 16 GB/s |
8.84GB/s
|
Inter-Core Bandwidth vs SPEED | 4.29 MB/s/MHz |
2.45MB/s/MHz
|
Inter-Core Latency(越小越好) | 42.4ns |
40.2ns
|
Inter-Core Latency vs SPEED(越小越好) | 0.01ns/MHz |
0.11ns/MHz
|
.NET Arithmetic Benchmark .NET算术运算测试 |
||
Dhrystone .NET | 18GIPS |
15.81GIPS
|
Dhrystone .NET vs SPEED | 5MIPS/MHz |
4.16MIPS/MHz
|
Whetstone .NET | 50.1 GFLOPS |
29.34GFLOPS
|
Whetstone .NET vs SPEED | 13.92MFLOPS/MHz |
7.72MFLOPS/MHz
|
.NET Multi-Media Benchmark .NET多媒体测试 |
||
Multi-Media Int x1 .NET | 37.72 MPixel/s |
29.17MPixel/s
|
Multi-Media Int x1 .NET vs SPEED | 9.93MPixel/s |
7.68kPixels/s/MHz
|
Multi-Media Float x1 .NET | 13.7MPixel/s |
8.16MPixel/s
|
Multi-Media Float x1 .NET vs SPEED | 3.61kPixels/s/MHz |
2.15kPixels/s/MHz
|
Multi-Media Double x1 .NET | 27.22 MPixel/s |
16.24MPixel/s
|
Multi-Media Double x1 .NET vs SPEED | 7.16 kPixels/s/MHz |
4.27kPixels/s/MHz
|
对比开启与关闭超线程的测试数据我们发现,处理器计算性能方面,开启超线程之后会有30%-50%左右的性能提升,多媒体方面的性能提升为30%左右。而在.NET测试中,这个数值被缩小到了15%-30%,效能测试的时候两者的差距大约为40%。总体而言,在开启超线程之后,Sandy Bridge至强处理器在运算性能上会有30%左右的提升,这个数值与Nehalem与Westmere的成绩是差不多的,事实上我们也没发现Sandy Bridge在超线程方面有什么特别大的改动。
#p#
接下来同样是开启与关闭超线程下的内存/缓存系统测试。
SiSoftware Sandra Lite 2011
|
||
产品名称 | 至强E3-1275(开启) | 至强E3-1275(关闭) |
平台类型 | 单路Sandy Bridge | 单路Sandy Bridge |
Memory Bandwidth Benchmark 内存带宽测试 |
||
---|---|---|
Int Buff'd iSSE2 Memory Bandwidth | 17.37 GB/s |
17.78GB/s
|
Float Buff'd iSSE2 Memory Bandwidth | 17.37GB/s |
17.78GB/s
|
Memory Latency Benchmark 内存延迟测试 |
||
Memory(Random Access) Latency (越小越好) | 73.3ns |
73.2ns
|
Speed Factor (越小越好) | 68.20 |
68.30
|
Internal Data Cache | 4clocks | 4clocks |
L2 On-board Cache | 11clocks | 11clocks |
L3 On-board Cache | 35clocks | 35clocks |
Cache and Memory Benchmark 缓存及内存测试 |
||
Cache/Memory Bandwidth | 97.76GB/s |
100.55GB/s
|
Cache/Memory Bandwidth vs SPEED | 27.09MB/s/MHz |
27.09MB/s/MHz
|
Speed Factor (越小越好) | 38.10 |
39.10
|
Internal Data Cache | 424.22GB/s |
424.22GB/s
|
L2 On-board Cache | 355.42GB/s |
355.42GB/s
|
相对比的两台服务器所作用的处理器都采用了集成内存控制器的设计,由于工作主频的不同,这两款不同处理器的QPI传输并不一样,联想万全R525 G3所用处理器的QPI带宽为5.86GT/s,而对比平台的至强X5570处理器的QPI为6.4GT/s。不过这两个服务器平台的内存的实际工作频率却并不一样,虽然在测试中两个平台所使用的内存条都是DDR3 1333,联想万全R525 G3共安装了6条,它的实际工作频率为1066,而对比平台共装配了18条内存,内存工作频率只能达到800MHz,也正是以上这一内存安装方式的不同,直接导致了处理器QPI频率较低的联想万全R525 G3内存带宽成绩占了上风。
#p#
最后我们进行的是CineBench项目的测试。CineBench测试中有一个处理器核心能效比的内容,我们相信这个项目更可以看出开关超线程之后的性能差距。
CineBench R10
|
||
产品名称 | 至强E3-1275(开启) | 至强E3-1275(关闭) |
平台类型 | 单路Sandy Bridge | 单路Sandy Bridge |
CPU Benchmark | ||
---|---|---|
Rendering (1 CPU) | 6041 CB-CPU | 6188 CB-CPU |
Rendering (x CPU) | 23643 CB-CPU | 20886 CB-CPU |
Multiprocessor Speedup | 3.91x | 3.38x |
OpenGL Benchmark | ||
OpenGL Standard | 335 CB-GFX | 336 CB-GFX |
CineBench10所进行测试项目在于考察单核心与多核心的性能对比。我们可以看到,对于CineBench R10来说,开启超线程下的MS成绩为3.91,关闭的时候只有3.38,相比之下提升了15.6%。
CineBench R11.5
|
||
产品名称 | 至强E3-1275(开启) | 至强E3-1275(关闭) |
平台类型 | 单路Sandy Bridge | 单路Sandy Bridge |
CPU Benchmark | ||
---|---|---|
Rendering (1 CPU) | 1.52 pts | 1.42 pts |
Rendering (x CPU) | 6.84 pts | 5.59 pts |
MP Ratio | 4.51x | 3.95x |
OpenGL Benchmark | ||
OpenGL | - | - |
而在最新的Cinebench R11.5进行的测试中,两者的成绩差距并没有拉大,依然在15%左右。因为CineBench只考察核心与效能的关系,而之前我们的测试项目更多还依赖于整体平台的性能,因此单纯从提升来说,CineBench只能看到15%的提升,但是开启超线程之后,整体平台的提升会更高一些。
#p#
Tick-Tock战略的出现,使英特尔避免了在同一年更新制程和微架构,有效的规避了新平台、新制程出现所带来的商业风险。而将新品首先试水桌面平台,进而在推广到服务器平台也是非常明智的举措,这次Sandy Bridge处理器就充分说明了这个问题。事实上,由于配套芯片组的问题,Sandy Bridge处理器在推广之初就遭遇挫折,幸好英特尔的反应够快,在服务器平台上我们并没有发现这样的问题。而随着至强Sandy Bridge处理器的推出,也标志着英特尔在桌面和服务器两个平台上全面转向了新的微架构,Tock时代终于到来了。
至强Sandy Bridge处理器终于现身了
Sandy Bridge处理器相比上一代的产品有了非常大的改进,包括AVX指令集、环形总线架构、全新System Agent系统助手、革命性的整合GPU等内容。事实上,Sandy Bridge最大的特征在于全32nm整合CPU和GPU,但对于服务器来说,GPU作为多媒体工具来说并没有实际的用处,除非可以通过GPU加速运算。
我们再来看看性能。相比上一代的至强3400系列来说,至强E3系列在性能上有了大幅度的提升, 有着至少30%的性能优势,部分项目的性能优势得到了翻倍。相比之下,超线程方面自从Nehalem开始为至强处理器增加了这一功能之后,在Sandy Bridge上面我们并没有看到明显的革新。
对于至强系列来说,E3仅仅是低端的入门版本,今年英特尔主推的依然是面向双路服务器应用的E5系列,不过这个系列要等到下半年才可以看到。今天,英特尔发布了E7系列的产品,虽然使用了全新的命名,但是E7却是我们熟知的Westmere-EX。
我们相信,随着新一代Sandy Bridge至强处理器的出现,我们在服务器领域可以看到越来越多的、性能更为出色的产品出现。我们期待着这一天的早日到来。
【编辑推荐】