intel NehalemEP处理器首发深度评测 第五部分.docx
- 文档编号:10527039
- 上传时间:2023-02-21
- 格式:DOCX
- 页数:15
- 大小:884.04KB
intel NehalemEP处理器首发深度评测 第五部分.docx
《intel NehalemEP处理器首发深度评测 第五部分.docx》由会员分享,可在线阅读,更多相关《intel NehalemEP处理器首发深度评测 第五部分.docx(15页珍藏版)》请在冰豆网上搜索。
intelNehalemEP处理器首发深度评测第五部分
在以往,缓存/内存上,AMD的Opteron和Intel的Xeon基本上是采用了两个策略:
AMDOpteron采用了直联架构,处理器独立拥有L1/L2,所有核心共享L3,每一个处理器都直接访问RAM和另外的处理器;IntelXeon则采用了传统的MCH架构,4核心处理器中,独立拥有L1,每两个核心共享一个L2,没有L3,此外所有的处理器通过FSB互通,以及通过FSB再通过MCH访问RAM。
相对来说,在处理器大架构上,AMD的无疑更为先进一些。
现在,Nehalem-EP也采用了直联架构,因此对比起来,AMDOperton的优势就消失了。
无论AMD还是Intel,目前的内存架构仍然是读取和写入对称:
速度都一样。
毫无疑问,虽然不同的应用具有不同的读写比,不过在大多数情况下都应该是读需求远高于写需求的,未来可能会采用特别为读取优化的不对称内存读写架构。
SiSoftwareSandraProBusiness2009
测试对象
IntelNehalem-EP
双路IntelGainestown
XeonX5570
2.93GHz
DawningAS650
双路AMDShanghai
Operton2378
2.40GHz
DELLPE2900III
双路IntelHarptown
XeonE5430
2.66GHz
MemoryBandwidthBenchmark
内存带宽测试
IntBuff'diSSE2MemoryBandwidth
12.74GB/s
16.59GB/s
6.13GB/s
IntBuff'diSSE2MemoryBandwidthvsSPEED
25.52MB/s/MHz
9.43MB/s/MHz
FloatBuff'diSSE2MemoryBandwidth
12.75GB/s
16.58GB/s
6.13GB/s
FloatBuff'diSSE2MemoryBandwidthvsSPEED
25.50MB/s/MHz
9.43MB/s/MHz
MemoryLatencyBenchmark
内存延迟测试
Memory(RandomAccess)Latency
(越小越好)
81ns
106ns
108ns
Memory(RandomAccess)LatencyvsSPEED
(越小越好)
0.16ns/MHz
0.16ns/MHz
SpeedFactor
(越小越好)
61.40
83.80
95.20
InternalDataCache
4clocks
3clocks
3clocks
L2On-boardCache
10clocks
16clocks
18clocks
L3On-boardCache
48clocks
58clocks
CacheandMemoryBenchmark
缓存及内存测试
Cache/MemoryBandwidth
143.24GB/s
77.08GB/s
68.88GB/s
Cache/MemoryBandwidthvsSPEED
50.01MB/s/MHz
32.89MB/s/MHz
26.52MB/s/MHz
SpeedFactor
(越小越好)
20.90
36.00
111.90
InternalDataCache
448.46GB/s
299.00GB/s
421.23GB/s
L2On-boardCache
421.42GB/s
162.91GB/s
122.68GB/s
SiSoftwareSandra对比,用蓝色标出了性能特出的项目
和上一页类似,采用了直联架构之后,Nehalem-EP的缓存/内存性能大幅度提升,凭着3.2GHz的QPI总线和三通道DDR3-1333,这个成绩在Nehalem-EP当中也是最好的。
对比AMDShanghai,Nehalem-EP居然在内存带宽测试上不及(很奇怪),其余的都是Nehalem-EP平台占优。
并且在缓存子系统中,除了L1Data时钟周期略长之外,L2、L3都比AMDShanghai要快。
SPECCPU2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。
SPECCPU2006的整数运算包含了400.perlbenchPERL编程语言、401.bzip2压缩、403.gccC编译器、429.mcf组合优化、445.gobmk人工智能:
围棋、456.hmmer基因序列搜索、458.sjeng人工智能:
国际象棋、462.libquantum物理:
量子计算、464.h264ref视频压缩、471.omnetpp离散事件仿真、473.astar寻路算法、483.xalancbmkXML处理共12项。
IntelNehalem-EP/GainestownXeonX5570SPECCPU2006整数运算性能
对比频率更高的Harpertown,Nehalem-EP/Gainestown的性能可谓让人大吃一惊:
提升超过了100%,XeonX5570的得分为183,比XeonE5430的74.8分高144.7%,成绩斐然——当然CPU的主频也高了10.2%,同频率下的提升也达到了122.1%。
在测试当中,403.gccC编译器(270.1%)、429.mcf组合优化(336.0%)、462.libquantum物理:
量子计算(379.8%)、471.omnetpp离散事件仿真(370.2%)、473.astar寻路算法(182.1%)、483.xalancbmkXML处理(218.8%)这6项的提升都很明显,这些项目都能因直联架构而获益。
所有的项目都能从超线程当中获得提升。
SPECCPU2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves流体力学、416.gamess量子化学、433.milc量子力学、434.zeusmp物理:
计算流体力学、435.gromacs生物化学/分子力学、436.cactusADM物理:
广义相对论、437.leslie3d流体力学、444.namd生物/分子、447.dealII有限元分析、450.soplex线形编程、优化、453.povray影像光线追踪、454.calculix结构力学、459.GemsFDTD计算电磁学、465.tonto量子化学、470.lbm流体力学、481.wrf天气预报、482.sphinx3语音识别共17项测试。
IntelNehalem-EP/GainestownXeonX5570SPECCPU2006浮点运算性能
浮点运算上的提升比整数上更大,Nehalem-EP/Gainestown的得分为153,比Harpertown的57分高168.4%,单位频率的提升达到了143.6%,这是IMC、QPI、HTT的集合成果,表明了Nehalem架构的强大优势(Nehalem-EP测试上仍然是整数性能表现强于浮点性能表现)。
在测试当中,410.bwaves流体力学(406.3%)、433.milc量子力学(365.2%)、434.zeusmp物理:
计算流体力学(140.4%)、436.cactusADM物理:
广义相对论(115.8%)、437.leslie3d流体力学(410.7%)、450.soplex线形编程、优化(329.1%)、459.GemsFDTD计算电磁学(273.8%)、465.tonto量子化学(131.9%)、470.lbm流体力学(318.2%)、481.wrf天气预报(197.7%)、482.sphinx3语音识别(472.6%)这11个项目的提升都很大,提升幅度都是几倍几倍的,最高的是482.sphinx3语音识别(472.6%),XeonX5570的性能是XeonE5430的5.7倍以上。
ScienceMarkv2.0Membench
ScienceMarkv2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件,MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块,它可以测试系统内存带宽、L1Cache延迟、L2Cache延迟和系统内存延迟,另外还可以测试不同指令集的性能差异。
ScienceMarkv2.0MembenchL1测试成绩
ScienceMarkv2.0MembenchL2测试成绩
ScienceMarkv2.0Membench内存测试成绩
首先我们进行的是ScienceMark的测试,主要考察系统的缓存和内存子系统情况。
L1/L2Cache的成绩主要是跟处理器频率相关,因为目前的处理器当中L1Cache都是和处理器核心同频率的,而L2Cache基本上也是——当前的处理器L2都是全速的(放置在处理器内但不在同一个芯片上的PentiumII为半速L2,而Pentium之前的处理器L2则和处理器分离,速度更低)。
越快的频率,L1/L2性能就越好。
而内存带宽主要由两部分相关:
比较大的部分是内存架构,小部分是内存操作指令(集),例如使用最新的SSE指令集比通常的ALU指令集会得到更大的吞吐量,而不同的SSE版本性能也有不同。
ScienceMarkMembench
厂商
Intel
Intel
Intel
产品型号
Nehalem-EP
IntelGainestown
XeonX55702.93GHz
AS650
AMDShanghai
Operton23782.40GHz
PowerEdge2900III
IntelHarpertown
XeonE54302.66GHz
内存技术参数
4GBR-ECCDDR3-1333SDRAMx6
4GBR-ECCDDR3-1333SDRAMx6
4GBR-ECCDDR3-1333SDRAMx6
L1带宽(MB/s)
47880.48
48167.88
55376.16
L2带宽(MB/s)
19604.64
14314.34
16757.55
内存带宽(MB/s)
10116.61
6672.76
4485.09
L1CacheLatency(ns)
32BytesStride
2cycles
0.68ns
1.25ns
1.13ns
L1AlgorithmBandwidth(MB/s)
Compiler
43072.25
34042.63
25201.96
REPMOVSD
43467.25
34864.10
25467.15
ALURegCopy
11949.09
12166.94
13093.65
MMXRegCopy
22537.36
25698.47
25242.19
SSEPAlign
47773.13
48167.40
52826.21
SSE2PAlign
47880.48
48167.88
55376.16
L2CacheLatency(ns)
4BytesStride
3cycles
1.02ns
1.25ns
1.13ns
16BytesStride
3cycles
1.02ns
1.25ns
1.50ns
64BytesStride
8cycles
2.73ns
3.75ns
4.51ns
256BytesStride
8cycles
2.73ns
6.25ns
4.51ns
512BytesStride
7cycles
2.39ns
6.25ns
4.89ns
L2AlgorithmBandwidth(MB/s)
Compiler
18039.64
11609.57
11880.48
REPMOVSD
19604.64
12140.00
12536.88
ALURegCopy
8788.90
9273.71
8577.86
MMXRegCopy
14083.83
12042.45
13408.31
SSEPAlign
18731.92
14314.34
16719.97
SSE2PAlign
5833.93
14289.88
16757.55
MemoryLatency(ns)
4BytesStride
3cycles
1.02ns
1.67ns
1.13ns
16BytesStride
5cycles
1.70ns
5.00ns
4.89ns
64BytesStride
22cycles
7.50ns
20.00ns
19.17ns
256BytesStride
102cycles
34.77ns
34.58ns
59.77ns
512BytesStride
117cycles
39.88ns
81.24ns
68.04ns
MemoryAlgorithmBandwidth(MB/s)
Compiler
9210.17
2872.77
3178.45
REPMOVSD
10116.61
2887.02
3220.23
ALURegCopy
8156.00
2654.29
2789.34
MMXRegCopy
9306.18
2943.85
2972.91
MMXReg3dNow
-
6631.75
-
MMXRegSSE
8781.26
6672.76
3978.53
SSEPAlign
8580.24
5765.46
4128.59
SSEPAlignSSE
9524.07
6611.10
4390.48
SSE2PAlign
8560.83
5766.87
4326.42
SSE2PAlignSSE
9555.13
6612.42
4441.71
MMXBlock4kb
7743.82
4450.46
4063.30
MMXBlock16kb
8321.35
4677.49
4479.88
SSEBlock4kb
7890.10
4441.71
4074.79
SSEBlock16kb
8355.86
4681.34
4485.09
基本上,与处理器结合最紧密的L1,或L2(在有L3的情况下)的延迟总是跟处理器频率密集相关的,从总体测试结果来看,Nehalem-EPXeonX5570全面强于基准平台,不过有两项数值很奇怪:
SSE2PAlign的L1测试和L2测试,这个数值明显不正常。
CineBenchR10
CineBench是基于Cinem4D工业三维设计软件引擎的测试软件,用来测试对象在进行三维设计时的性能,它可以同时测试处理器子系统、内存子系统以及显示子系统,我们的平台偏向于服务器多一些,因此就只有前两个的成绩具有意义。
和大多数工业设计软件一样,CineBench可以完善地支持多核/多处理器,它的显示子系统测试基于OpenGL。
Nehalem-EP/GainestownXeonX5570测试成绩
CineBenchR10
处理器
双路IntelGainestown
XeonX5570
双路AMDShanghai
Operton2378
双路IntelHarpertown
XeonE5430
显卡
-
-
-
CPUBenchmark
Rendering(1CPU)
4410CB-CPU
1797CB-CPU
2931CB-CPU
Rendering(xCPU)
28172CB-CPU
10734CB-CPU
16806CB-CPU
MultiprocessorSpeedup
6.39x
5.97x
5.73x
OpenGLBenchmark
OpenGLStandard
224CB-GFX
98CB-GFX
176CB-GFX
IntelNehalem-EP/GainestownXeonX5570测试成绩对比
单处理器的渲染性能,XeonX5570要比XeonE5430要高50.5%,频率上要高10.2%,架构提升很明显。
在多处理器的渲染测试中,X5570性能要高67.6%,多处理器加速比为6.39x。
Iometer2006.07.27
我们的基准服务器采用了三块15000RPM的SeagateCheetah15K.5硬盘。
Nehalem-EP测试样机则是用两块7200RPMSeagateBarracuda7200.11。
基准平台使用了LSIMegaRAIDSAS8408E硬件阵列卡组建了RAID5阵列,而测试样机使用了一块集成的LSI MegaRAIDSAS阵列卡。
显而易见,Nehalem-EP测试样机的磁盘子系统比较糟糕。
IO读
IO写
读吞吐量
写吞吐量
由于是软阵列,阵列缓存由驱动在主内存中维护,因此512B连续读取IOps和连续吞吐量都很不错,当然……实际应用是另一回事。
NetBenchv7.03
NetBenchv7.03
NetBench7.03Ent_dm.tst测试脚本模拟的是企业级文件服务器应用,它不但要求被测服务器的磁盘子系统可以提供足够的吞吐量,还需要其具有较高的IO处理能力,并且需要较为平衡的读取能力和写入能力。
NetBench性能测试
由于是SATA软阵列——它们的曲线都表现出类似于正态分布一样:
在某处具有一个波峰,两侧则逐渐下滑。
Nehalem-EP测试样机的峰值吞吐量在20台测试客户机时达到,为850Mbps,此后随着客户端的增加,滑落到400Mbps附近。
基准平台属于硬件阵列,Shanghai平台属于SASHost-RAID半软半硬阵列。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- intel NehalemEP处理器首发深度评测 第五部分 NehalemEP 处理器 首发 深度 评测 第五 部分