并行体系结构课后答案文档格式.docx
- 文档编号:14968172
- 上传时间:2022-10-26
- 格式:DOCX
- 页数:48
- 大小:39.01KB
并行体系结构课后答案文档格式.docx
《并行体系结构课后答案文档格式.docx》由会员分享,可在线阅读,更多相关《并行体系结构课后答案文档格式.docx(48页珍藏版)》请在冰豆网上搜索。
简述当代的并行机系统
当代并行机系统主要有:
1)并行向量机(PVP)
2)对称多处理机(SMP)
3)大规模并行处理机(MPP)
4)分布式共享存储(DSM)处理机
5)工作站机群(COW)
为什么需要并行计算机
1)加快计算速度
2)提高计算精度
3)满足快速时效要求
4)进行无法替代的模拟计算
简述处理器并行度的发展趋势
1)位级并行
2)指令级并行
3)线程级并行
简述SIMD阵列机的特点
1)它是使用资源重复的方法来开拓计算问题空间的并行性。
2)所有的处理单元(PE)必须是同步的。
3)阵列机的研究必须与并行算法紧密结合,这样才能提高效率。
4)阵列机是一种专用的计算机,用于处理一些专门的问题。
简述多计算机系统的演变
分为三个阶段:
1)1983-1987
年为第一代,代表机器有:
Ipsc/1、Ameteks/14
等。
2)1988-1992
年为第二代,代表机器有:
Paragon、Inteldelta
3)1993-1997
年为第三代,代表机器有:
MIT的J-machine。
简述并行计算机的访存模型
1)均匀存储访问模型(UMA)
2)非均匀存储访问模型(NUMA)
3)全高速缓存存储访问模型(COMA)
4)高速缓存一致性非均匀访问模型(CC-NUMA)
简述均匀存储访问模型的特点
1)物理存储器被所有处理器均匀共享。
2)所有处理器访问任何存储字的时间相同。
3)每台处理器可带私有高速缓存。
4)外围设备也可以一定的形式共享。
简述非均匀存储访问模型的特点
1)被共享的存储器在物理上分布在所有的处理器中,其所有的本地存储器的集合构成
了全局的地址空间。
2)处理器访问存储器的时间不一样。
3)每台处理器可带私有高速缓存,外备也可以某种的形式共享。
第二章性能评测
使用40MHZ主频的标量处理器执行一个典型测试程序,其所执行的指令数及所需的周期数
如表所示。
试计算执行该程序的有效CPI、MIPS速率及总的CPU执行时间。
解:
CPI=totalcycles/totalinstructions
=(45000*1+32000*2+15000*2+8000*2)/(45000+32000+15000+8000)
=
MIPS=时钟频率/(CPI*106)=(40*106)/*106)=
CPU执行时间=totalcycles/时钟频率=
欲在40MHZ主频的标量处理器上执行20万条目标代码指令程序。
假定该程序中含有4种主
要类型之指令,各指令所占的比例及CPI数如表所示,试计算:
①在单处理机上执行该程序的平均CPI。
②由①所得结果,计算相应的MIPS速率。
(1)CPI=1*60%+2*18%+4*12%+8*10%
(2)MIPS=时钟频率/(CPI*106)=(40*106)/*106)=
2.1已知SP2并行计算机的通信开销表达式为:
t(m)=46+()m,试计算:
①渐近带宽r∞=
m1
2
②半峰值信息长度=
[
提示:
to=46μs]
(1)渐近带宽r∞=1/=S
(2)
半峰值消息长度
m
=to*r
∞
=46us*S=
1/2
并行机性能评测的意义。
意义有:
1)发挥并行机长处,提高并行机的使用效率。
2)减少用户购机盲目性,降低投资风险。
3)改进系统结构设计,提高机器的性能。
4)促进软/硬件结合,合理功能划分。
5)优化“结构-算法-应用”的最佳组合。
6)提供客观、公正的评价并行机的标准。
如何进行并行机性能评测
1)机器级性能评测:
CPU和存储器的某些基本性能指标;
并行和通信开销分析;
并行
机的可用性与好用性以及机器成本、价格与性/价比。
2)算法级性能评测:
加速比、效率、扩展性。
3)程序级性能评测:
Benchmark。
简述Gustafson定律的出发点
1)对于很多大型计算,精度要求很高,即在此类应用中精度是个关键因素,而计算时
间是固定不变的。
此时为了提高精度,必须加大计算量,相应地亦必须增多处理器数才能维
持时间不变。
2)除非学术研究,在实际应用中没有必要固定工作负载而计算程序运行在不同数目的
处理器上,增多处理器必须相应地增大问题规模才有实际意义。
已知一程序可并行代码占比例为80%,将其在有10个处理器的系统中运行,求其加速比并
求其极限加速比并分析其结构带来的影响
加速比=1/(20%+80%/10)=1/+=。
极限加速比,即处理器个数无穷大的时候呈现的加速比=1/20%=5。
这个极限加速比,换个角度说是,Amdahl定律在很长一段时间影响了人们对开发并行
计算机的信心,对于本例,因为就算你把处理器做到无穷也只能得到5倍的加速比,同时有
一点更明显,就是处理器数目增加到一定程度后,加速比的增长非常缓慢。
简述影响加速的因素
1)求解问题中的串行分量。
2)并行处理器所引起的额外开销。
3)加大的处理器数超过的算法的并发程度。
为什么增加问题规模可以在一定程度提高加速
1)较大的问题规模可提高较大的并发度。
2)额外开销的增加可能慢于有效计算的增加。
3)算法中串行分量的比例不是固定不变的。
进行可扩放行研究的主要意义
1)确定解决某类问题用某类并行算法和某类并行体系结构结合,可以有效的利用大量
的处理器。
2)对于运行于某种体系结构的并行机的某种算法当移到大规模处理机上的性能。
3)对于某类固定规模的问题,确定在某类并行机上的最优处理器数目和最大的加速比。
4)用于指导改进并行算法和并行体系结构,以使并行算法能尽可能充分利用可扩充的。
大量的处理器。
第三章互连网络
对于一颗K级二叉树(根为0级,叶为k-1级),共有N=2^k-1个节点,当推广至m-元树
时(即每个非叶节点有m个子节点)时,试写出总节点数N的表达式。
推广至M元树时,k级M元树总结点数N的表达式为:
N=1+m^1+m^2+...+m^(k-1)=(1-m^k)*1/(1-m);
二元胖树如图所示,此时所有非根节点均有2个父节点。
如果将图中的每个椭圆均视为单个
节点,并且成对节点间的多条边视为一条边,则他实际上就是一个二叉树。
试问:
如果不管
椭圆,只把小方块视为节点,则他从叶到根形成什么样的多级互联网络
8输入的完全混洗三级互联网络。
四元胖树如图所示,试问:
每个内节点有几个子节点和几个父节点你知道那个机器使用了
此种形式的胖树
每个内节点有4个子节点,2个父节点。
CM-5使用了此类胖树结构。
试构造一个N=64的立方环网络,并将其直径和节点度与N=64的超立方比较之,你的结论
是什么
AN=64的立方环网络,为4立方环(将4维超立方每个顶点以4面体替代得到),直径
d=9,节点度n=4
BN=64的超立方网络,为六维超立方(将一个立方体分为8个小立方,以每个小立方
作为简单立方体的节点,互联成6维超立方),直径d=6,节点度n=6
一个N=2^k个节点的deBruijin
网络如图所示,令ak1ak2
ak3。
。
a1
a0,是一个节点的
二进制表示,则该节点可达如下两个节点:
a
aa
0,a
1。
试问:
k2
k3
10
该网络的直径和对剖宽度是多少
N=2^k个节点的deBruijin
网络直径d=k对剖宽带w=2^(k-1)
一个N=2^n个节点的洗牌交换网络如图所示。
宽度==
N=2^n个节点的洗牌交换网络,网络节点度为
此网络节点度==网络直径==网络对剖
=2,网络直径=n-1,网络对剖宽度=4
一个N=(k+1)2^k个节点的蝶形网络如图所示。
此网络节点度
剖宽度=
N=(k+1)2^k个节点的蝶形网络,网络节点度=4,网络直径=2*k
=网络直径=网络对
,网络对剖宽度=2^k
对于如下列举的网络技术,用体系结构描述,速率范围,电缆长度等填充下表中的各项。
(提示:
根据讨论的时间年限,每项可能是一个范围)
网络技术
网络结构
带宽
铜线距离
光纤距离
Myrinet
专用机群互联网络
200MB/秒
25m
500m
HiPPI
用于异构计算机和其外设的
800Mbps~
300m~10km
组网
SCI
可扩展一致性接口,通常独立
250Mbps~8Gbps
于拓扑结构
光纤通信
多处理器和其外围设备之间,
100Mbps~800Mb
50m
10km
直连结构
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 并行 体系结构 课后 答案