书签分享收藏举报版权申诉 / 15

立即下载加入VIP,免费下载

当前位置：首页 > 求职职场 > 简历 > intel NehalemEP处理器首发深度评测第五部分.docx

intel NehalemEP处理器首发深度评测第五部分.docx

文档编号：10527039
上传时间：2023-02-21
格式：DOCX
页数：15
大小：884.04KB

《intel NehalemEP处理器首发深度评测第五部分.docx》由会员分享，可在线阅读，更多相关《intel NehalemEP处理器首发深度评测第五部分.docx（15页珍藏版）》请在冰豆网上搜索。

intel NehalemEP处理器首发深度评测第五部分.docx

intelNehalemEP处理器首发深度评测第五部分

在以往，缓存/内存上，AMD的Opteron和Intel的Xeon基本上是采用了两个策略：

AMDOpteron采用了直联架构，处理器独立拥有L1/L2，所有核心共享L3，每一个处理器都直接访问RAM和另外的处理器；IntelXeon则采用了传统的MCH架构，4核心处理器中，独立拥有L1，每两个核心共享一个L2，没有L3，此外所有的处理器通过FSB互通，以及通过FSB再通过MCH访问RAM。

相对来说，在处理器大架构上，AMD的无疑更为先进一些。

现在，Nehalem-EP也采用了直联架构，因此对比起来，AMDOperton的优势就消失了。

　　无论AMD还是Intel，目前的内存架构仍然是读取和写入对称：

速度都一样。

毫无疑问，虽然不同的应用具有不同的读写比，不过在大多数情况下都应该是读需求远高于写需求的，未来可能会采用特别为读取优化的不对称内存读写架构。

　　SiSoftwareSandraProBusiness2009

　　测试对象

IntelNehalem-EP

　　双路IntelGainestown

　　XeonX5570

　　2.93GHz

DawningAS650

　　双路AMDShanghai

　　Operton2378

　　2.40GHz

DELLPE2900III

　　双路IntelHarptown

　　XeonE5430

　　2.66GHz

　　MemoryBandwidthBenchmark

　　内存带宽测试

　　IntBuff'diSSE2MemoryBandwidth

　　12.74GB/s

16.59GB/s

6.13GB/s

　　IntBuff'diSSE2MemoryBandwidthvsSPEED

25.52MB/s/MHz

9.43MB/s/MHz

　　FloatBuff'diSSE2MemoryBandwidth

　　12.75GB/s

16.58GB/s

6.13GB/s

　　FloatBuff'diSSE2MemoryBandwidthvsSPEED

25.50MB/s/MHz

9.43MB/s/MHz

　　MemoryLatencyBenchmark

　　内存延迟测试

　　Memory（RandomAccess）Latency

　　（越小越好）

　　81ns

106ns

108ns

　　Memory（RandomAccess）LatencyvsSPEED

　　（越小越好）

0.16ns/MHz

　　SpeedFactor

　　（越小越好）

　　61.40

83.80

95.20

　　InternalDataCache

　　4clocks

　　3clocks

　　L2On-boardCache

　　10clocks

16clocks

18clocks

　　L3On-boardCache

　　48clocks

　　58clocks

　　CacheandMemoryBenchmark

　　缓存及内存测试

　　Cache/MemoryBandwidth

　　143.24GB/s

77.08GB/s

68.88GB/s

　　Cache/MemoryBandwidthvsSPEED

50.01MB/s/MHz

32.89MB/s/MHz

26.52MB/s/MHz

　　SpeedFactor

　　（越小越好）

　　20.90

36.00

111.90

InternalDataCache

448.46GB/s

299.00GB/s

421.23GB/s

L2On-boardCache

421.42GB/s

162.91GB/s

122.68GB/s

　　SiSoftwareSandra对比，用蓝色标出了性能特出的项目

　　和上一页类似，采用了直联架构之后，Nehalem-EP的缓存/内存性能大幅度提升，凭着3.2GHz的QPI总线和三通道DDR3-1333，这个成绩在Nehalem-EP当中也是最好的。

对比AMDShanghai，Nehalem-EP居然在内存带宽测试上不及（很奇怪），其余的都是Nehalem-EP平台占优。

并且在缓存子系统中，除了L1Data时钟周期略长之外，L2、L3都比AMDShanghai要快。

　　SPECCPU2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等，此外，各种日常操作也主要是基于整数操作。

SPECCPU2006的整数运算包含了400.perlbenchPERL编程语言、401.bzip2压缩、403.gccC编译器、429.mcf组合优化、445.gobmk人工智能：

围棋、456.hmmer基因序列搜索、458.sjeng人工智能：

国际象棋、462.libquantum物理：

量子计算、464.h264ref视频压缩、471.omnetpp离散事件仿真、473.astar寻路算法、483.xalancbmkXML处理共12项。

　　IntelNehalem-EP/GainestownXeonX5570SPECCPU2006整数运算性能

　　对比频率更高的Harpertown，Nehalem-EP/Gainestown的性能可谓让人大吃一惊：

提升超过了100%，XeonX5570的得分为183，比XeonE5430的74.8分高144.7％，成绩斐然——当然CPU的主频也高了10.2%，同频率下的提升也达到了122.1%。

在测试当中，403.gccC编译器（270.1%）、429.mcf组合优化（336.0%）、462.libquantum物理：

量子计算（379.8%）、471.omnetpp离散事件仿真（370.2%）、473.astar寻路算法（182.1%）、483.xalancbmkXML处理（218.8%）这6项的提升都很明显，这些项目都能因直联架构而获益。

所有的项目都能从超线程当中获得提升。

　　SPECCPU2006的浮点运算测试包括的全部都是科学运算，科学运算需要用到大量的高精度浮点数据，如410.bwaves流体力学、416.gamess量子化学、433.milc量子力学、434.zeusmp物理：

计算流体力学、435.gromacs生物化学/分子力学、436.cactusADM物理：

广义相对论、437.leslie3d流体力学、444.namd生物/分子、447.dealII有限元分析、450.soplex线形编程、优化、453.povray影像光线追踪、454.calculix结构力学、459.GemsFDTD计算电磁学、465.tonto量子化学、470.lbm流体力学、481.wrf天气预报、482.sphinx3语音识别共17项测试。

　　IntelNehalem-EP/GainestownXeonX5570SPECCPU2006浮点运算性能

　　浮点运算上的提升比整数上更大，Nehalem-EP/Gainestown的得分为153，比Harpertown的57分高168.4％，单位频率的提升达到了143.6%，这是IMC、QPI、HTT的集合成果，表明了Nehalem架构的强大优势（Nehalem-EP测试上仍然是整数性能表现强于浮点性能表现）。

在测试当中，410.bwaves流体力学（406.3%）、433.milc量子力学（365.2%）、434.zeusmp物理：

计算流体力学（140.4%）、436.cactusADM物理：

广义相对论（115.8%）、437.leslie3d流体力学（410.7%）、450.soplex线形编程、优化（329.1%）、459.GemsFDTD计算电磁学（273.8%）、465.tonto量子化学（131.9%）、470.lbm流体力学（318.2%）、481.wrf天气预报（197.7%）、482.sphinx3语音识别（472.6%）这11个项目的提升都很大，提升幅度都是几倍几倍的，最高的是482.sphinx3语音识别（472.6%），XeonX5570的性能是XeonE5430的5.7倍以上。

　　ScienceMarkv2.0Membench

　　ScienceMarkv2.0是一款用于测试系统特别是处理器在科学计算应用中的性能的软件，MemBenchmark是其中针对处理器缓存、系统内存而设计的功能模块，它可以测试系统内存带宽、L1Cache延迟、L2Cache延迟和系统内存延迟，另外还可以测试不同指令集的性能差异。

　　ScienceMarkv2.0MembenchL1测试成绩

　　ScienceMarkv2.0MembenchL2测试成绩

　　ScienceMarkv2.0Membench内存测试成绩

　　首先我们进行的是ScienceMark的测试，主要考察系统的缓存和内存子系统情况。

L1/L2Cache的成绩主要是跟处理器频率相关，因为目前的处理器当中L1Cache都是和处理器核心同频率的，而L2Cache基本上也是——当前的处理器L2都是全速的（放置在处理器内但不在同一个芯片上的PentiumII为半速L2，而Pentium之前的处理器L2则和处理器分离，速度更低）。

越快的频率，L1/L2性能就越好。

而内存带宽主要由两部分相关：

比较大的部分是内存架构，小部分是内存操作指令（集），例如使用最新的SSE指令集比通常的ALU指令集会得到更大的吞吐量，而不同的SSE版本性能也有不同。

ScienceMarkMembench

厂商

Intel

产品型号

Nehalem-EP

　　IntelGainestown

　　XeonX55702.93GHz

AS650

　　AMDShanghai

　　Operton23782.40GHz

PowerEdge2900III

　　IntelHarpertown

　　XeonE54302.66GHz

内存技术参数

4GBR-ECCDDR3-1333SDRAMx6

L1带宽（MB/s）

47880.48

48167.88

55376.16

L2带宽（MB/s）

19604.64

14314.34

16757.55

内存带宽（MB/s）

10116.61

6672.76

4485.09

L1CacheLatency（ns）

32BytesStride

2cycles

　　0.68ns

1.25ns

1.13ns

L1AlgorithmBandwidth（MB/s）

Compiler

43072.25

34042.63

25201.96

REPMOVSD

43467.25

34864.10

25467.15

ALURegCopy

11949.09

12166.94

13093.65

MMXRegCopy

22537.36

25698.47

25242.19

SSEPAlign

47773.13

48167.40

52826.21

SSE2PAlign

47880.48

48167.88

55376.16

L2CacheLatency（ns）

4BytesStride

3cycles

　　1.02ns

1.25ns

1.13ns

16BytesStride

3cycles

　　1.02ns

1.25ns

1.50ns

64BytesStride

8cycles

　　2.73ns

3.75ns

4.51ns

256BytesStride

8cycles

　　2.73ns

6.25ns

4.51ns

512BytesStride

7cycles

　　2.39ns

6.25ns

4.89ns

L2AlgorithmBandwidth（MB/s）

Compiler

18039.64

11609.57

11880.48

REPMOVSD

19604.64

12140.00

12536.88

ALURegCopy

8788.90

9273.71

8577.86

MMXRegCopy

14083.83

12042.45

13408.31

SSEPAlign

18731.92

14314.34

16719.97

SSE2PAlign

5833.93

14289.88

16757.55

MemoryLatency（ns）

4BytesStride

3cycles

　　1.02ns

1.67ns

1.13ns

16BytesStride

5cycles

　　1.70ns

5.00ns

4.89ns

64BytesStride

22cycles

　　7.50ns

20.00ns

19.17ns

256BytesStride

102cycles

　　34.77ns

34.58ns

59.77ns

512BytesStride

117cycles

　　39.88ns

81.24ns

68.04ns

MemoryAlgorithmBandwidth（MB/s）

Compiler

9210.17

2872.77

3178.45

REPMOVSD

10116.61

2887.02

3220.23

ALURegCopy

8156.00

2654.29

2789.34

MMXRegCopy

9306.18

2943.85

2972.91

MMXReg3dNow

-

6631.75

-

MMXRegSSE

8781.26

6672.76

3978.53

SSEPAlign

8580.24

5765.46

4128.59

SSEPAlignSSE

9524.07

6611.10

4390.48

SSE2PAlign

8560.83

5766.87

4326.42

SSE2PAlignSSE

9555.13

6612.42

4441.71

MMXBlock4kb

7743.82

4450.46

4063.30

MMXBlock16kb

8321.35

4677.49

4479.88

SSEBlock4kb

7890.10

4441.71

4074.79

SSEBlock16kb

8355.86

4681.34

4485.09

　　基本上，与处理器结合最紧密的L1，或L2（在有L3的情况下）的延迟总是跟处理器频率密集相关的，从总体测试结果来看，Nehalem-EPXeonX5570全面强于基准平台，不过有两项数值很奇怪：

SSE2PAlign的L1测试和L2测试，这个数值明显不正常。

　　CineBenchR10

　　CineBench是基于Cinem4D工业三维设计软件引擎的测试软件，用来测试对象在进行三维设计时的性能，它可以同时测试处理器子系统、内存子系统以及显示子系统，我们的平台偏向于服务器多一些，因此就只有前两个的成绩具有意义。

和大多数工业设计软件一样，CineBench可以完善地支持多核/多处理器，它的显示子系统测试基于OpenGL。

　　Nehalem-EP/GainestownXeonX5570测试成绩

　　CineBenchR10

　　处理器

双路IntelGainestown

　　XeonX5570

双路AMDShanghai

　　Operton2378

双路IntelHarpertown

　　XeonE5430

显卡

-

　　CPUBenchmark

Rendering（1CPU）

4410CB-CPU

1797CB-CPU

2931CB-CPU

Rendering（xCPU）

　　28172CB-CPU

　　10734CB-CPU

　　16806CB-CPU

　　MultiprocessorSpeedup

　　6.39x

　　5.97x

　　5.73x

　　OpenGLBenchmark

　　OpenGLStandard

　　224CB-GFX

　　98CB-GFX

176CB-GFX

　　IntelNehalem-EP/GainestownXeonX5570测试成绩对比

　　单处理器的渲染性能，XeonX5570要比XeonE5430要高50.5%，频率上要高10.2%，架构提升很明显。

　　在多处理器的渲染测试中，X5570性能要高67.6%，多处理器加速比为6.39x。

　　Iometer2006.07.27

　　我们的基准服务器采用了三块15000RPM的SeagateCheetah15K.5硬盘。

Nehalem-EP测试样机则是用两块7200RPMSeagateBarracuda7200.11。

基准平台使用了LSIMegaRAIDSAS8408E硬件阵列卡组建了RAID5阵列，而测试样机使用了一块集成的LSI　MegaRAIDSAS阵列卡。

显而易见，Nehalem-EP测试样机的磁盘子系统比较糟糕。

　　IO读

　　IO写

　　读吞吐量

　　写吞吐量

　　由于是软阵列，阵列缓存由驱动在主内存中维护，因此512B连续读取IOps和连续吞吐量都很不错，当然……实际应用是另一回事。

　　NetBenchv7.03

　　NetBench7.03Ent_dm.tst测试脚本模拟的是企业级文件服务器应用，它不但要求被测服务器的磁盘子系统可以提供足够的吞吐量，还需要其具有较高的IO处理能力，并且需要较为平衡的读取能力和写入能力。

　　NetBench性能测试

　　由于是SATA软阵列——它们的曲线都表现出类似于正态分布一样：

在某处具有一个波峰，两侧则逐渐下滑。

Nehalem-EP测试样机的峰值吞吐量在20台测试客户机时达到，为850Mbps，此后随着客户端的增加，滑落到400Mbps附近。

基准平台属于硬件阵列，Shanghai平台属于SASHost-RAID半软半硬阵列。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: intel NehalemEP处理器首发深度评测第五部分 NehalemEP 处理器首发深度评测第五部分

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：intel NehalemEP处理器首发深度评测第五部分.docx
链接地址：https://www.bdocx.com/doc/10527039.html

intel NehalemEP处理器首发深度评测 第五部分.docx

热门标签

intel NehalemEP处理器首发深度评测第五部分.docx