数据库工程师精华篇资料.docx
- 文档编号:24390948
- 上传时间:2023-05-26
- 格式:DOCX
- 页数:38
- 大小:40.74KB
数据库工程师精华篇资料.docx
《数据库工程师精华篇资料.docx》由会员分享,可在线阅读,更多相关《数据库工程师精华篇资料.docx(38页珍藏版)》请在冰豆网上搜索。
数据库工程师精华篇资料
数据库系统工程师精华篇
一、计算机系统知识
1、计算机发展经历了:
大型机(mainframe)阶段:
1946年美国ENIAC;经历了电子管、晶体管、中小规模集成电路、大规模、超大规模集成电路(IBM360,370,09,4300,4900等)制作四个阶段
小型机(minicomputer)阶段:
DEC的VAX系列机
微型机(microcomputer阶段:
APPLEII,IBMPC系列机
客户/服务器(client/server)阶段:
1964年美国航空公司建立的第一个联机订票系统
互联网(internet)阶段:
由1969美国国防部ARPANET发展而来
2、计算机系统由硬件系统和软件系统组成。
硬件由CPU(运算器、控制器)、存储器、外部设备(输入、输出设备)五大部件组成。
CPU包括运算器和控制器,是硬件系统的核心,用于数据的加工处理,完成各种算数、逻辑运算及控制功能。
运算器是对数据进行加工和处理的部件,主要完成算数逻辑运算。
控制器主要功能是从主存中取出指令并指出下一条指令在主存中的位置。
存储器是记忆设备分为内部存储器和外部存储器。
外部设备的输入设备用于输入原始数据及各种命令,输出设备用于输出运行结果。
3、计算机硬件典型结构:
单总线结构、双总线结构、采用通道的大型系统结构。
单总线结构(一般用在微机和小型机中):
用一组系统总线将计算机系统各部件连接起来,各部件间通过总线交换信息。
优点:
易于扩充新的I/O设备,各I/O设备的寄存器和主存储器的存储单元可统一编址,使CPU访问I/O设备更灵活方便;
缺点:
同一时刻只能允许挂在总线上的一对设备间互传信息(即分时使用总线),这限制了信息传送的吞吐量。
双总线结构(在CPU和主存之间增设一条专用高速存储总线)
以存储为中心的双总线结构:
主存可通过存储总线与CPU交换信息,也可通过系统总线与I/O设备交换信息
优点:
信息传送速率高
缺点:
需增加硬件投资
以CPU为中心的双总线结构(其CPU连接I/O的总线称输入输出总线)
优点:
控制线路简单,对I/O总线传输速率要求较低
缺点:
因I/O设备与主存间传递数据要经CPU,CPU工作效率低
采用通道的大型系统结构(在大中型计算机系统中采用)
一台主机连接多个通道,一个通道可连接一台或多台I/O控制器,一个I/O控制器可连接一台或多台I/O设备。
系统具有较大的扩展余地。
4、计算机软件分为:
系统软件和应用软件。
系统软件:
操作系统、编辑程序、各种语言处理程序、数据库系统、连接调试程序
应用软件:
通用程序、程序库、用户程序
5、计算机中数据的表示
6、中央处理器CPU
计算机能执行的基本操作叫做指令,指令由操作码(指明操作类型)和地址码(指明操作数和运算结果存放地址)两部分组成。
运算器是对数据进行加工和处理的部件,主要完成算数和逻辑运算,完成对数据的加工处理。
由:
算术逻辑运算单元(ALU)、累加器(ACC)、寄存器组、多路转换器、数据总线等逻辑部件组成。
控制器主要功能是从内存中取出指令,并指出下一条指令在内存中的位置,将取出的指令经指令寄存器送往指令译码器,经对指令分析发出相应的控制和定时信息,控制和协调计算机运行,完成指令规定的操作。
由:
程序计数器、指令寄存器(IR)、指令译码器(ID)、状态条件寄存器、时序产生器、微操作信号发生器组成。
7、指令的执行过程:
取指令、指令译码、按指令操作码执行、形成下一条指令地址
即:
取指令、分析指令、执行指令
8、CPU的基本功能:
程序控制(重要职能)、操作控制、时间控制、数据处理(根本任务)
9、计算机体系结构分类:
Flynn分类法(按指令流和数据流的不同组织方式分,1966年提出):
单指令流单数据流(SISD)
单指令流多数据流(SIMD)
多指令流单数据流(MISD)
多指令流多数据流(MIMD)
冯氏分类法(1972年美籍华人冯泽云提出用最大并行度进行分类):
最大并行度Pm指计算机系统在单位时间内能处理的最大二进制位数
用平面直角坐标系中一点表示一个计算机系统,
横坐标表示字宽(N位),即:
一个字中同时处理的二进制位数;
纵坐标表示位片宽度(M位),即:
在一个位片中能同时处理的字数
最大并行度Pm=N*M
四类:
字串行位串行(WSBS)N=1,M=1
字并行位串行(WPBS)N=1,M>1
字串行位并行(WSBP)N>1,M=1
字并行位并行(WPBP)N>1,M>1
10、并行性包括两个方面:
同时性和并发行
同时性指:
两个或两个以上的事件在同一时刻发生。
并发行指:
两个或两个以上的事件在同一时间间隔内连续发生。
从计算机信息处理的步骤和阶段角度并行处理可分为:
存储器操作并行、
处理器操作步骤并行(流水线处理机)、
处理器操作并行(阵列处理机)、
指令、任务、作业并行(多处理机、分布处理系统、计算机网络)
11、存储器的三层结构:
高速缓存(cache)、主存储器(MM)、辅助存储器(外存储器)
存储器的分类:
按存储器的位置分:
内存、外存
按材料分:
磁存储器、半导体存储器(按所用元件分:
双极型和MOS型;根据数据是否需要刷新分:
静态和动态)、光存储器
按工作方式分:
读写存储器、只读存储器(根据数据的写入方式:
固定只读存储器ROM、可编程只读存储器PROM、可擦除可编程只读存储器EPROM、电擦除的可编程只读存储器EEPROM、闪速存储器)
按访问方式分:
按地址访问的存储器、按内容访问的存储器
按寻址方式分:
随机存储器RAM、顺序存储器SAM(磁带)、直接存储器DAM(磁盘是一种直接存取存储器,它对磁道的寻址是随机的,而在一个磁道内则是顺序寻址)
12、相连存储器是一种按内容访问的存储器,工作原理是把数据或数据的某一部分作为关键字,将该关键字与存储器中的每一个单元进行比较,找出存储器中所有与关键字相同的数据字。
(可用在高速缓存中;在虚拟存储器中用来作段表、页表或快速存储器;用在数据库和知识库中)
13、高速缓存:
是用来存放当前最活跃的程序和数据的,作为主存局部域的副本。
特点:
容量在几KB到几MB之间;由快速半导体存储器构成,速度一般比主存快5-10倍;内容是主存局部域的副本,对程序员透明。
组成:
控制部分(判断CPU要访问的信息是否在cache中,若在即为命中,命中时直接对cache存储器寻址)、cache部分(存放主存的部分拷贝信息)
高速缓存中的地址映像方法:
直接映像:
全相连映像:
组相连映像:
替换算法的目标是使cache获得高的命中率。
常用算法:
随机替换法、先进先出算法、近期最少使用算法、优化替换算法
14、虚拟存储器:
是由主存、辅寸、存储管理单元及操作系统中存储管理软件组成的存储系统。
分类:
页式虚拟存储器(以页为信息传送单位)
优点:
页表硬件少,查表速度快,主存零头少
缺点:
分页无逻辑意义,不利于存储保护
段式虚拟存储器(以程序的逻辑结构形成的段为主存的分配依据)
优点:
段的界限分明,支持程序的模块化设计,易于对程序段的编译修改和保护,便于多道程序的共享
缺点:
因段的长度不一,主存利用率不高,产生大量内存碎片,段表庞大,查表速度慢
段页式虚拟存储器(是前二者的结合,在虚存中,程序按逻辑结构分段,每段再分成若干大小固定的页)
优点:
兼有前二者的优点
缺点:
地址变换速度较慢
15、外存储器:
用来存放暂时不用的程序和数据,并以文件的形式存储
常用的外存储器:
磁盘存储器
组成:
由盘片、驱动器、控制器、接口组成
种类:
软盘(以软质菊酯塑料薄片为基体,涂敷氧化铁磁性材料为记录介质)
硬盘(采用硬质基体,其上生成一种很薄但很均匀的记录磁层)
光盘存储器
一种采用聚焦激光束在盘式介质上非接触的记录高密度信息的新型存储装置。
组成:
由光学、电学和机械部件等组成
特点:
记录密度高,存储容量大,非接触式读写信息,保存时间长,采用多通道记录时传输速率高,成本低,机械精度要求不高,存取时间长
种类:
只读型光盘CD-ROM、只写一次型光盘(WORM)、可擦写型光盘
16、磁盘阵列:
由多台磁盘存储器组成的一个快速大容量高可靠的外存子系统,常见的称为廉价冗余磁盘阵列(RAID)
RAID分为六级:
RAID0:
RAID1:
RAID2:
RAID3:
RAID4:
RAID5:
17、CISC复杂指令集
RISC精简指令集(只保留了20%的最简单指令)
RISC特点:
指令种类少,一般只有十几到几十条简单指令
指令长度固定、格式少,使指令译码更加简单
寻址方式少
设置最少的访内指令
CPU内部设置大量寄存器,多数操作在CPU内进行
非常适合流水线操作
18、微机中常用的内存与接口编址方式
内存与接口地址独立的编址方法(隔离的编址方法):
内存地址与接口地址是完全独立且相互隔离的两个地址空间
这种编址方式地址清楚,内存地址用于存放程序和数据,接口地址用于寻址外设
缺点:
用于接口的指令太少,功能弱
内存与接口地址统一的编址方法(混合的编址方法):
内存地址和借口地址统一在一个公共的地址空间里,即内存和接口共用这些地址
优点:
原则上用于内存的指令全都可用于接口,指令上不再区分用于内存或用于接口,增强了接口操作功能
缺点:
整个地址空间被分为两部分,常会导致内存地址不连续;内存指令和接口指令相同,读程序是需根据参数定义表仔细辨认
19、直接程序控制:
在完成外设数据的输入输出中,整个输入输出过程是在CPU执行程序的控制下完成的
方式有:
无条件传送:
外设总是准备好的,可无条件随时接收CPU发来的输出数据,也能无条件的随时向CPU提供需要输入的数据
程序查询方式:
CPU通过执行程序查询外设状态,根据外设状态CPU有针对性地为外设提供输入输出服务
优点:
这种思想易于理解,方式易于实现
缺点:
降低了CPU的效率;对外部突发事件无法作出实时响应
20、中断方式(为克服程序控制I/O的缺陷而将中断机制引入到I/O传输过程中)
中断方式完成数据的输入输出:
当I/O系统与外设交换数据时,CPU无需等待和查询I/O状态即可处理其它任务,当I/O完成数据传输后则以中断信号通知CPU,CPU保存正在执行程序的现场,转入I/O中断服务程序,完成I/O数据交换后再返回原主程序继续执行。
系统有多个中断源的情况下常用的终端处理方法:
多中断信号线法(multipleinterruptlines)
每个中断源都有一根属于自己的中断信号请求线向CPU提出中断请求
中断软件查询法(softwarepoll)
当CPU检测到一个中断请求信号后,即转入中断服务程序去轮询每个中断源以确定谁发出了中断请求,对各设备响应的优先级由软件设定
雏菊链法(daisychain)
软件查询耗时,雏菊链是种硬件查询法。
所有的I/O模块共享一根共同的终端请求线,而中断确认信号则以链式在各模块间相连,CPU检测到中断请求信号后即发出中断确认信号,中断确认信号依次在各I/O模块间传递,直到发出请求的模块,该模块将它的ID送往数据线由CPU读取
总线仲裁法
I/O设备发出中断请求前必须先获得总线控制权,可用总线仲裁机制裁定谁可以发出中断请求信号,当CPU发出中断响应信号后,该设备即把自己的ID送往数据线
中断向量表法
中断优先级控制
不同优先级的多中断源同时发出中断请求时CPU应优先响应优先级最高的中断源
(中断嵌套)CPU正在对某一中断源服务时,又有比其优先级更高的终端请求,CPU应能暂时中断正在执行的中断服务转去对优先级更高的中断服务,结束后再回到原有中断服务
21、直接存储器存取方式(directmemoryaccess,DMA)
直接内存存取,指数据在内存与I/O设备间直接成块传送,CPU只需在开始和结束时处理,传送过程由DMA设备控制
DMA传送的一般过程:
外设向DMA控制器(DMAC)提出传送请求
DMAC向CPU提出请求(其请求信号通常加到CPU的保持请求输入端HOLD上)
CPU完成当前总线周期后立即对此请求作出响应。
响应包括两方面:
CPU送出有效的保持响应信号HLDA,加在DMAC上,告知请求得到响应;CPU将其输出的总线信号置为高阻,表示放弃对总线的控制权
DMAC获得总线控制权,并向发出请求的设备送出DMAC响应信号,告知准备传送数据
DMAC送出地址和控制信号,实现数据高速传输
当DMAC将规定字节数传送完时,将HOLD信号变为无效撤销对CPU的请求,CPU检测到无效HOLD信号后知道DMAC传输结束,送出无效HLDA信号,重获系统总线控制权
22、输入输出处理机IOP(用于大型机中)
功能:
是一个专用的处理机,接在主计算机上,根据主机的I/O命令完成外设数据的输入输出
传送方式:
字节多路方式、选择传送方式、数组多路方式
23、流水线技术:
是将一个重复的时序分解成若干个子过程,而每个子过程都可有效地在其专用功能段上与其他子过程同时执行
重叠处理(将指令的执行粗分为分析和执行两个过程):
为提高工作速度,现在大多数计算机在不同程度上采取重叠处理
流水处理(将指令的执行过程细分为取指令、指令译码、取操作数、执行四个过程)
一次重叠可同时执行两条指令,流水处理可同时执行多条指令
流水线技术的特点:
可分成若干个相互联系的子过程
实现子过程的功能所需时间尽可能相等
形成流水处理,需准备时间
指令流发生不能顺序执行时会使流水线过程中断,再形成流水线需要新的时间
流水线结构
按功能分:
单功能流水线:
只完成一种固定功能
多功能流水线:
同一流水线上有多种连接方式来实现多种功能
按同一时间内各段间连接方式分:
静态流水线:
同一时间流水线上的所有功能块只能按一种运算的连接方式工作
动态流水线:
同一时间流水线上的所有功能块可按不同种运算的连接方式工作
按数据表示分类:
标量流水线处理机:
只能对标量数据进行流水处理
向量流水线处理机:
具向量指令,可对向量的各元素进行流水处理
流水线处理机主要指标
吞吐率:
单位时间里流水线处理机流出的结果数。
对指令而言就是单位时间内执行的指令数,若流水线子过程时长不同,则吞吐率为最长子过程的倒数
建立时间:
流水线从开始工作到达到最大吞吐率时所经历的时间
24、总线结构
总线:
广义上,任何连接两个以上电子元器件的导线称为总线
分类:
芯片内总线:
用于集成电路芯片内部件的连接
元件级总线:
用于一块电路板内各元器件的连接
内总线(系统总线):
用于计算机各组成部分件的连接
外总线(通信总线):
用于计算机与外设或计算机与计算机间的连接或通信
内总线:
包括专用内总线和标准内总线,其性能直接影响计算机性能
常见内总线标准:
ISA总线(工业标准总线):
24个地址总线,16条数据线,控制总线(内存读写、接口读写、中断请求、中断响应、DMA请求、DMA响应),+-5V、+-12V电源、地址等
EISA总线:
ISA基础上发展的32位总线,定义了:
32位地址线、32位数据线及其他控制信号线、电源线、地线等196个接点,总线传输速率33MB/s
PCI总线(目前微机上广泛采用的内总线):
有适用32位机的124个信号标准和适用64位机的188个信号标准,传输速率至少133MB/s,64位的为266MB/s,PCI总线时钟与CPU时钟独立,其总线设备即插即用
外总线:
RS-232C(串行外总线)
特点:
所需传输线少,需传输线三条(收、发、地线)即可全双工通信;
传送距离远,电平传送为15米,电流环传送可达上千米;
多重传送速率可供选择;
采用非归零码负逻辑工作,电平<=-3V为逻辑1,电平>=+3V为逻辑1;
具良好的抗干扰性;
SCSI总线(并行外总线)
广泛应用于软硬磁盘、光盘、扫描仪等
早期为8位,后来发展为16位
传输速率由SCSI-1的5MB/s到16位的Ultra2SCSI的80MB/s,现今已达到320MB/s
最多可接63种设备,传输距离20m(差分传送)
USB(通用串行总线)
4条信号线组成,两条传送数据,两条传送+5V容量为500mA的电源
经过集线器HUB进行树状连接最多可达5层
可接127个设备,USB1.0低速1.5Mb/s,高速12Mb/s;USB2.0传送速率480Mb/s
支持即插即用技术和热插拔
IEEE1394(串行外总线)
6条信号线组成,两条传送数据,两条传送控制信号,两条传送8-40V容量为1500mA的电源
可接63个设备
传送速率400、800、1600Mb/s直到3.2Gb/s
支持即插即用技术和热插拔
25、阵列处理机(并行处理机):
是将重复设置的多个处理单元(PU)按一定方式连成阵列,在单个控制部件(PU)控制下,对分配给自己的数据进行处理并行的完成一条指令所规定的操作,属于单指令流多数据流(SIMD)的计算机,通过资源重复实现并行性
SIMD的互联网络:
设计目标:
结构简单灵活,处理器单元间信息传送的步数尽可能少
立方体单级互联网络
PM2I单级互联网络
混洗交换互联网络
26、多处理机系统:
是具有多台处理机组成的系统,每台处理机有自己的控制部件,共享一个主存储器和所有外设,是多指令流多数据流的计算机
多处理机间的互连要满足高频带、低成本、连接方式多样性以及在不规则通信情况下连接的无冲突性
机间互联技术决定着多处理机的性能
多处理机按其结构分类:
异构型(非对称型)多处理机系统:
由多个不同类型或可完成不同功能的处理机组成,按照作业要求的顺序利用时间重叠技术依次对它们的多个任务进行处理,各自完成规定的功能操作
同构型(对称型)多处理机系统:
由多个同类型或可完成同等功能的处理机组成,同时处理同一作业中能并行执行的多个任务
分布式处理系统:
把若干台具有独立功能的处理机互连起来,在操作系统的控制下,统一协调的工作,时最少依赖集中的程序、数据或硬件的系统
多处理机系统的结构:
按照机间的互连结构分:
总线结构(一种最简单的结构,是把处理器与I/O间的通信方式引入到处理机之间)
有:
单总线结构、多总线结构、分级式总线、环式总线等
单总线结构:
处理机和设备通过自身的接口用一套总线互连,统一时间只允许一对处理机或设备间进行信息的传送
多总线结构:
可设置多套总线,如处理机总线、存储总线、I/O总线等,以增加处理器间的通信线路,提高处理器间的传送效率
交叉开关结构:
设置一组纵横开关阵列,把横向处理器P及I/O通道与纵向存储器M连接起来的结构
多端口存储器结构:
把多个多端口存储器的对应端口连接起来,每个端口负责一个处理机P及I/O通道的访问存储要求
开关枢纽式结构:
有多个输入端和输出端在它们之间切换,使输入端有选择的与输出端相连,加入了分解冲突的仲裁单元,仲裁单元与在一个输入端和多个输出端间进行转换的开关单元一起构成一个基本的开关枢纽
多处理机系统特点:
结构灵活性
程序并行性:
表现在多个任务间可利用多种途径实现并行
并行任务派生:
一个程序中存在多个并发的程序段,需专门的指令表示其并发关系以控制并发执行,使得一个任务执行时派生出与其并行执行的另一些任务
进程同步:
因同一时刻不同处理器执行不同指令,且执行时间不等、进度不等,当并发程序间有数据交往或控制依赖时,则采取特殊的同步措施,使它们包含的指令之间保持程序要求的正确顺序
资源分配和任务调度:
资源分配和任务调度的好坏直接影响整个系统效率
27、并行处理机
与采用流水结构的单机系统的异同:
同:
采用流水结构的单机系统一样都是单指令流多数据流计算机
异:
并行处理机采用资源复用技术,采用流水结构的单机系统采用时间复用技术
并行处理机的典型结构
具有分布存储器的并行处理机
其结构中有两类存储器:
一类存储器附属于主处理机,主处理机实现整个并行处理机的管理,其附属的存储器中常驻操作系统
另一类是分布在各个处理单元(PE)上的存储器(PEM),用来保存程序和数据。
每个处理单元(PE)只与附属于自身的处理器直接相连,各处理单元间的通信采用互联网络(ICN)交换数据
具有共享存储器的并行处理机
将若干个存储器构成统一的并行处理机存储器,通过互联网络(ICN)为整个并行系统的所有处理单元共享
这两种结构共同的特点是:
在整个系统中设置多个处理单元,各处理单元按照一定的方式交换信息,在统一的控制部件作用下,各自对分配的数据并行的完成同一条指令所规定的操作
并行处理机的特点:
资源重复:
各处理单元可对响亮所包含的各个分量同时进行运算,每个处理单元可承担多种处理功能,增加处理单元数,可提高并行处理机的运算速度
连接模式:
个处理机间通过互联网络交换数据,互联网络的拓扑结构直接决定并行处理机结构
专用性:
并行处理机直接与一种算法相联系,具有专用性
复合型:
并行处理机的效率体现在向量数组的处理上,整个系统是由三部分复合起来的多机系统,多个处理单元组成阵列并行的处理向量,功能极强的控制部件是一台标量处理机,系统管理功能有高性能单处理机完成
28、计算机安全:
指计算机资产的安全,是要保证计算机资产不受自然和人为的有害因素的威胁和危害
计算机资产包括:
系统资源:
包括硬件、软件、配套设备、设施、有关文件资料,还包括有关服务系统和业务工作人员
信息资源:
包括计算机系统中存储、处理和传输的各种各样的信息
29、信息安全的基本要素:
机密性、完整性、可用性、可控性、可审计性
机密性:
确保信息不暴露给未授权的实体或进程
完整性:
只有得到允许的人才能修改数据,并能判断出数据是否已被篡改
可用性:
得到授权的实体在需要时可访问数据
可控性:
可以控制授权范围内的信息流向及行为方式
可审查性:
对出现的安全问题提供调查的依据和手段
30、计算机系统中的3级安全性指:
技术安全性、管理安全性、政策法律安全性
不同组织的安全评估准则:
美国国防部(DOD)和国家标准局的《可信计算机系统评测标准》TCSEC/TDI;
将系统分为4组7个等级:
1A1
2B3
B2
B1
3C2
C1只提供非常初级的自主安全保护,能实现对用户和数据的分离,进行自主存取控制,数据的保护以用户组为单位
4D最低级别,保护措施很小,没有安全功能
欧共体的信息技术安全评估准则(ITSEC);
ISO/IEC国际标准
美国联邦标准
31、安全威胁:
指某个人、物、事件对某一资源的机密性、完整性、可用性、或合法性所造成的危害
分为两类:
故意(如黑客渗透)、偶然(如信息发往错误的地址)
典型的安全威胁:
授权侵犯、拒绝服务、窃听、信息泄露、截获/修改、假冒、否认、非法使用、人员疏忽、完整性破坏、媒体清理、物理入侵、资源耗尽
32、影响数据安全的因素
内部因素
可采用多种技术对数据进行加密;
制定数据安全规划;
建立安全存储体系,包括容量、容错数据保护,数据备份等;
建立事故应急计划和容错措施;
重视安全管理,制定数据安全管理规范
外部因素
可将数据分成不同的密级,规定外部使用人员的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据库 工程师 精华 资料