高级计算机体系结构精编_精品文档PPT文件格式下载.ppt
- 文档编号:15115547
- 上传时间:2022-10-27
- 格式:PPT
- 页数:169
- 大小:1.60MB
高级计算机体系结构精编_精品文档PPT文件格式下载.ppt
《高级计算机体系结构精编_精品文档PPT文件格式下载.ppt》由会员分享,可在线阅读,更多相关《高级计算机体系结构精编_精品文档PPT文件格式下载.ppt(169页珍藏版)》请在冰豆网上搜索。
晶体管计算机(1958-1964)每秒几十万次每秒几十万次高级程序语言出现:
高级程序语言出现:
FORTRAN、COBOL等等IBM7094、CDC1604等等第三代:
中小规模集成电路计算机(第三代:
中小规模集成电路计算机(1964-1975)每秒几百万次每秒几百万次操作系统逐步成熟、小型机出现操作系统逐步成熟、小型机出现IBM360、PDP11、VAX11第四代:
大规模集成电路计算机(第四代:
大规模集成电路计算机(1975-)每秒亿次以上每秒亿次以上微处理器出现:
微处理器出现:
Intel,AMD.5摩尔定律到达尺寸极限后怎么办?
会不会有新材料及新器件技术取代会不会有新材料及新器件技术取代CMOS?
硅的平台不可能被取代,但硅平台上生长的器件会不断硅的平台不可能被取代,但硅平台上生长的器件会不断改进改进摩尔定律的进一步延续的技术:
纳米线技术、碳纳米管摩尔定律的进一步延续的技术:
纳米线技术、碳纳米管技术技术一个普及性的技术必须可以工业大规模可制备一个普及性的技术必须可以工业大规模可制备其他任何技术都不具备这个特点其他任何技术都不具备这个特点成为成熟的产业,从高向广发展成为成熟的产业,从高向广发展飞机满天飞了,汽车还遍地跑飞机满天飞了,汽车还遍地跑6摩尔定律与系统结构第一阶段:
晶体管不够用第一阶段:
晶体管不够用计算机由很多独立芯片构成计算机由很多独立芯片构成计算机结构受限于晶体管数目不够计算机结构受限于晶体管数目不够第二阶段:
存储器速度太慢第二阶段:
存储器速度太慢集成度提高,微处理器蓬勃发展集成度提高,微处理器蓬勃发展存储容量指数增加,但访存速度增加缓慢存储容量指数增加,但访存速度增加缓慢Cache占多达占多达80%的芯片面积的芯片面积第三阶段:
晶体管越来越多而第三阶段:
晶体管越来越多而“难难”用用设计验证能力提高与晶体管增加形成剪刀差设计验证能力提高与晶体管增加形成剪刀差功耗问题突出、连线成为主要矛盾功耗问题突出、连线成为主要矛盾不得已向多核发展不得已向多核发展第四阶段:
够用就行?
第四阶段:
7CPU发展趋势:
高性能,低成本高性能多核高性能多核CPU正从向千亿次量级向万亿次量级迈进正从向千亿次量级向万亿次量级迈进片上运算能力的增加使带宽问题日益突出片上运算能力的增加使带宽问题日益突出结合一定领域需求的结合一定领域需求的XPU开始盛行,处理器核加向量开始盛行,处理器核加向量处理器(处理器(VPU)和图形处理器()和图形处理器(GPU)等属于这类结)等属于这类结构。
构。
继功耗问题之后,带宽问题导致第二次结构变革继功耗问题之后,带宽问题导致第二次结构变革功耗问题导致多核结构,带宽问题导致专用核结构功耗问题导致多核结构,带宽问题导致专用核结构为了提高性能而牺牲微处理器的通用性和可编程性为了提高性能而牺牲微处理器的通用性和可编程性8Question?
1多核技术出现原因?
22个1G的多核Vs2G的单核处理器3编程模型:
SIMDvsMIMD?
4虚拟化技术的意义?
9主频障碍过去主频的提高一半靠摩尔定律,一半靠结构优化过去主频的提高一半靠摩尔定律,一半靠结构优化如如P3是是10级流水线,级流水线,P4是是20级流水线级流水线流水线很难再细分流水线很难再细分随着晶体管尺寸的缩小,连线延迟成为主要延迟随着晶体管尺寸的缩小,连线延迟成为主要延迟局部线延迟不变(变短了,但也变细了)局部线延迟不变(变短了,但也变细了)全局的连线延迟还会不断变长(芯片面积不变)全局的连线延迟还会不断变长(芯片面积不变)高主频的复杂设计正在终结高主频的复杂设计正在终结强调:
局部化、流水化、异步、自定时强调:
局部化、流水化、异步、自定时10复杂度障碍晶体管数目的指数增加与设计队伍的增加形成剪刀差晶体管数目的指数增加与设计队伍的增加形成剪刀差设计能力、验证能力设计能力、验证能力晶体管越来越难用晶体管越来越难用串扰问题、片上漂移、可制造性设计串扰问题、片上漂移、可制造性设计处理器结构经历了简单、复杂、简单、复杂的螺旋上升过程处理器结构经历了简单、复杂、简单、复杂的螺旋上升过程最早期的处理器结构由于工艺技术的限制,不可能做得很复杂,一般都最早期的处理器结构由于工艺技术的限制,不可能做得很复杂,一般都是串行执行是串行执行随着流水线、动态调度、随着流水线、动态调度、CACHE、向量机技术等技术的发展,处理器结、向量机技术等技术的发展,处理器结构变得复杂,如构变得复杂,如IBM360系列的机器以及系列的机器以及Cray的向量机的向量机RISC技术的提出使处理器结构得到一次较大的简化技术的提出使处理器结构得到一次较大的简化随着多发射乱序执行技术的实现,随着多发射乱序执行技术的实现,RISC结构越来越复杂,结构越来越复杂,Intel和和HP研制研制的的EPIC结构没有从根本上对处理器结构进行简化结构没有从根本上对处理器结构进行简化11未来可能会流行的CPU结构多核多核+向量处理向量处理典型:
典型:
Larrabee(16wayALU/512bit)向量的位宽:
向量的位宽:
64/128/256/512/1024众核:
同构的基于分片的多核(众核:
同构的基于分片的多核(tilebased)典型:
Tile64处理器核的个数:
处理器核的个数:
64/128512/1024带有协处理器的异构多核带有协处理器的异构多核典型:
CELL通用处理器专用的协处理器(通用处理器专用的协处理器(GPU、流处理、流处理器)器)12摩尔定律发展过程中碰到的“墙”1980s:
存储墙:
存储墙CPU变快,内存只变大不变快变快,内存只变大不变快80%的晶体管用于片内高速缓存等的晶体管用于片内高速缓存等2000s:
功耗墙:
功耗墙一一Intel放弃放弃4GHz的的PentiumIV为标志,终止复杂的高主频设计为标志,终止复杂的高主频设计多核设计成为主流多核设计成为主流未来还有可能碰到的未来还有可能碰到的“墙墙”带宽墙:
带宽墙:
“茶壶里倒饺子茶壶里倒饺子”(性能和带宽(性能和带宽1-2FLOPS:
1BPS的关系)的关系)成本墙:
太贵了做不起(目前只剩成本墙:
太贵了做不起(目前只剩Intel、IBM、TSMC三家)或用三家)或用不起(不起(10nm以后单片成本反而增加)以后单片成本反而增加)应用墙:
应用墙:
16核以上的核以上的CPU卖给谁?
量大面广的应用需要多少核?
卖给谁?
如果克服不了上述如果克服不了上述“墙墙”,通用,通用CPU的摩尔定律到的摩尔定律到2015年即告终止年即告终止13带宽障碍摩尔定律的新定义摩尔定律的新定义片内处理器核的个数指数增长片内处理器核的个数指数增长封装引脚增加缓慢封装引脚增加缓慢每个核使用的引脚数指数下降每个核使用的引脚数指数下降茶壶里倒饺子茶壶里倒饺子高速信号传输缓解带宽瓶颈高速信号传输缓解带宽瓶颈目前引脚上的信号频率已经达到目前引脚上的信号频率已经达到GHz很快会出现板上频率高于片内频率的现象很快会出现板上频率高于片内频率的现象14提高计算机的性能:
减少指令数和提高IPC结构提高计算机性能的常用方法和原则结构提高计算机性能的常用方法和原则加快经常性事件的速度加快经常性事件的速度局部性原理局部性原理利用并行性利用并行性归一化时间计算方法当负载中各程序的执行百分比不同时,计算加权执行时间是一种方法,当负载中各程序的执行百分比不同时,计算加权执行时间是一种方法,另一种方法是另一种方法是“归一化归一化”。
就是说,将执行时间对一台参考机器进行归。
就是说,将执行时间对一台参考机器进行归一化,然后取其归一化执行时间的平均值。
一化,然后取其归一化执行时间的平均值。
SPEC测试程序套件采用了该测试程序套件采用了该方法。
方法。
平均归一化时间既可表示为算术平均值,也可表示为几何平均值。
15影响CPU性能的因素Inst.CountCPIClockRateProgramXCompilerX(X)ISAXXOrganizationXXTechnologyX性能的最本质定义性能的最本质定义完成一个任务(如后天的天气预报)所需的时间完成一个任务(如后天的天气预报)所需的时间以指令为基本单位以指令为基本单位16CPI及IPC在指令系统确定后,系统结构设计者的主要目在指令系统确定后,系统结构设计者的主要目标就是降低标就是降低CPI或提高或提高IPC平均平均CPI“AverageCyclesperInstruction”CPI=(CPUTime*ClockRate)/InstructionCount=Cycles/InstructionCountInstructionFrequency17开发并行性指令级并行指令级并行是过去的是过去的20年里体系结构设计者提升性能的主要途径年里体系结构设计者提升性能的主要途径时间并行性:
指令流水线时间并行性:
指令流水线空间并行性:
空间并行性:
SuperScalar(Out-of-Order)和)和EPIC(编译器优化)(编译器优化)进一步挖掘指令级并行的空间不大进一步挖掘指令级并行的空间不大数据级并行:
数据级并行:
SIMD向量机向量机SSE多媒体指令多媒体指令作为指令级并行的有效补充,在高性能计算及流媒体等领域发挥重作为指令级并行的有效补充,在高性能计算及流媒体等领域发挥重要作用,在专用处理器中应用较多要作用,在专用处理器中应用较多线程级并行线程级并行线程级并行大量存在于线程级并行大量存在于Internet应用应用多核处理器多核处理器多线程处理器多线程处理器是目前的热点是目前的热点18低功耗优化方法优化对象优化对象动态功耗优化动态功耗优化静态功耗优化静态功耗优化优化层次优化层次系统级系统级算法级算法级逻辑级逻辑级电路级电路级版图及工艺级版图及工艺级1.在三台不同指令系统的计算机上运行同一程序在三台不同指令系统的计算机上运行同一程序P时,时,A机需要执行机需要执行1.0*108条指令,条指令,B机需要执行机需要执行2.0*108条指条指令,令,C机需要执行机需要执行4.0*108条指令,但实际执行时间都是条指令,但实际执行时间都是10秒,请分别计算这三台机器在实行程序秒,请分别计算这三台机器在实行程序P时的实际时的实际运行速度,以运行速度,以MIPS为单位。
这三台计算机在运行程序为单位。
这三台计算机在运行程序P时,哪台性能最高?
为什么?
时,哪台性能最高?
2.如果要给标量处理器增加向量运算部件,并且假定向量模式的运算速度是标量模式的如果要给标量处理器增加向量运算部件,并且
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 高级 计算机体系结构 精编 精品 文档