第一章 数据库基本理论Word下载.docx
- 文档编号:20994911
- 上传时间:2023-01-26
- 格式:DOCX
- 页数:16
- 大小:246.57KB
第一章 数据库基本理论Word下载.docx
《第一章 数据库基本理论Word下载.docx》由会员分享,可在线阅读,更多相关《第一章 数据库基本理论Word下载.docx(16页珍藏版)》请在冰豆网上搜索。
数据库系统示意图
二、数据模型
数据库存储的是数据,这些数据反映了现实世界中有意义、有价值的信息,数据库不仅反映数据本身的内容,而且也反映数据之间的联系。
数据模型就是用来抽象表示、处理现实世界的数据和信息的工具,它是数据中用于提供信息表示和操作手段的形式框架,也是将现实世界转换为数据世界转换为数据世界的桥梁。
有关数据模型的基本概念是数据库理论的基础。
在介绍几种数据模型之前,先介绍与其相关的一些概念。
1、
数据联系的描述
(1)现实世界:
是指存在于人脑之外的客观世界。
现实世界是客观存在的,
人们管理的对象存在于现实世界之中。
在现实世界里,事务及事务之间存在着联系,这种联系也是客观存在的。
例如,职工和部门,职工在部门中就职;
图书和读者,读者借阅图书;
教师、学生、课程,教师为学生授课,学生选修课程并取得成绩;
货物和客户,客户订货等等。
如果管理的对象较多或者比较特殊,事务之间的联系就可能较为复杂。
(2)概念世界:
概念世界是现实世界在人们头脑中的反映。
是对客观事务及其联系的一种抽象描述。
它不是现实世界的简单复制,而要经过选择、命名、分类等抽象过程产生概念模型。
概念模型是现实世界到机器世界必然经过的中间层次。
建立概念模型涉及下面几个术语。
①实体:
客观存在并可相互区别事务称为实体。
实体可以是实际事物,也可以是抽象事物,还可以是事物之间的联系。
比如,一个职工、一个部门属于实际事物;
一个部门属于实际事物;
一次订货、借阅若干本图书、一场考试则是比较抽象事物。
实体集:
具有相同特性实体的集合。
例如:
全体学生的集合、全体职工的集合、全馆图书等。
实体型:
属性的集合表征一种实体的类型。
如:
可以用学号、姓名、年龄、性别、平均成绩等属性来表征学生这一实体型。
②属性:
用于描述实体的某一方面特性的。
职工实体用若干属性(职工号、姓名、性别、出生日期、职称)来描述。
属性值:
属性的具体取值成为属性值,用以描述一个具体实体。
属性组合(0986、张洋、男、01/06/53、教授)在教师花名册中就表征了一个具体的人。
又如:
图书实体用属性(总编号、总分类、书名、作者、单价)来描述,则属性值(0462009、TP311、数据库基础、卢为、11.50)则具体代表了一本数书。
③域:
属性的取值范围。
年龄的域为大于15小于35的整数,性别的域为(男,女)。
④实体标志符:
如果每个属性组合的值能够唯一地标识出实体集中地每一个实体,则可以选择该属性或属性组合作为实体标识符。
上例中的“职工号”可以作为实体标识符。
由于可能有重明者存在,“姓名”就不宜作实体标识符。
⑤联系:
实体集之间的对应关系称为联系,它反映现实世界事物之间的相互关联。
联系分为两种,一种是实体内部各属性之间的联系。
相同职称的有很多人,但一个职工当前只有一个职称。
另一种是实体之间的联系,如:
一位读者可以借阅若干本图书;
同一本图书可以相继被几个读者借阅。
(3)机器世界:
信息经过加工编码进入机器世界,机器世界的处理对象是数据。
机器世界常用到以下几个概念。
①字段:
相应于属性的数据称为字段,或者叫数据项,又叫数据元素或初等项。
②记录:
相应于每一个实体的数据称为记录。
③文件:
相应于实体集的数据称为文件,它是同类记录的集合。
④记录型:
相应于实体型的数据称为记录型。
⑤关键字:
相应于实体标志符的数据称为关键字,关键字又称为码。
上述概念的对应关系如下:
信息世界
机器世界
实体
记录
属性
字段
实体集
文件
实体型
记录型
实体标识符
关键字
字体、属性、记录、字段均有型与值之分。
职工是一个实体型,李四,王五则是实体值。
属性中的性别、年龄是属性型,而男、女,23、30则分别为性别、年龄的属性值。
三、E-R模型
数据库设计工作比较复杂,它将现实世界的数据组织成符合具体数据库管理系统所采用的数据模型。
实体的联系方法是目前描述概念模型最常用的方法。
它所使用的工具为E-R(Entity-Relation)图。
E-R图可以进一步转换为任何一种DBMS所支持的数据模型。
1、E-R图的三要素
①实体(型):
用矩形框表示,框内标注实体名称。
用椭圆形表示,并用连线与实体连接起来。
如果属性较多,为使图形更加简明,有时也将实体于其相应的属性另外单独用列表表示。
③实体之间的联系:
用菱形框表示,框内标注联系名称,并用连线将菱形框分别与有关实体相连,并在连线上注明联系类型。
实体间的联系类型是指一个实体型所表示集合中的每一个实体与另一个实体型中多少个实体存在联系,并非指一个继续框通过菱形与另外几个矩形框画连线。
“班级”概念模型的E-R图。
2、实体间的联系虽然复杂,但都可以分解为少数几个实体间的联系,最基本的是两个实体间的联系。
联系抽象化后可归结为以下三种类型。
(1)一对一联系(1:
1)
如果对于实体集A中的每一个实体,B中至多有一个实体与之有联系,反之亦然,则称A、B有1:
1联系。
一个公司只有一个总经理,同时一个总经理不能在其他公司兼任。
注意“至多”一词的含义,1:
1联系不一定都是一一对应的关系。
(2)一对多联系(1:
n)
设有两个实体集A、B,若A中每个实体与B中任意个实体(包括零个)相联系,而B中每个实体至多和A中一个实体有联系,则称A和B是1:
n联系。
这类联系比较普遍。
例如,部门与职工是一对多联系,因为一个部门有多名职工,而一名职工只在一个部门就职。
一个学生只能属于一个班级,而一个班级有很多个学生。
(3)多对多联系(m:
若两个实体集A、B中的每一个实体都和另一个实体集中任意个实体(包括零个)有联系,则称A、B是m:
一个学生可以选修多门课程,一门课程可以由多名学生选修。
学生和课程间存在多对多联系。
图书与读者之间是m:
n联系:
一位读者可以借阅若干本图书,同一本书可以连续被几个读者借阅。
研究人员和科研课题之间是m:
一个人可以参加多个课题,一个课题可以由多个人参加。
3、三个实体之间的联系
当涉及三个实体同时发生联系的时候,应进行认真分析以便真实地反映现实世界。
一台机器可以由若干个工人操作,加工若干种零件,某一个工人加工某一种零件是在多台机器上完成的,因为一个零件需要多道工序,不同工序需要不同的机器才能完成。
因此,机器、零件、工人三个实体之间存在着多对多的联系。
再如:
一个供应商可以为若干个项目供应零部件,每个项目可以使用不同供应商的零部件,每种零部件可由不同供应商提供。
因此,供应商、零部件、项目三个实体之间存在着多对多的联系。
4、实例
设有如下教学环境:
一个班级有若干名学生,一名学生只属于一个班级。
一个学生可以选修若干门课程,每门课程可被多个学生选修。
一位教师可以教授若干门课程,一门课程只有一位教师主讲。
每位教师属于一个教研室,一个教研室有若干位教师。
教研室号
四、常用数据模型
1、层次模型
(1)概念:
表示数据之间的从属关系结构,是一种以记录某一事物的类型为根节点的有向树结构。
(2)特征:
层次模型象一棵倒置的“树”,根节点在上,层次最高;
子节点在下,逐层排列,其主要特征如下:
①有且只有一个结点没有双亲结点,称为根结点。
②根以外的其它结点有且只有一个双亲结点。
③层次模型表示的是从根节点到子节点的一个节点对多个节点,或从子节点到父节点的多个节点对一个节点的数据间的联系。
(3)实例:
一个学校的教务管理系统的信息。
学校设有若干学院,每个学院设有若干系,每个系设有若干专业和有若干教师,每个专业和教师只属于一个系;
另外,每个专业开设若干课程并有若干学生,而一个学生只能属于某一个专业,一门课程也只能由一个专业开设。
2、网状模型
是层次模型的扩展,它表示多个从属关系的层次结构,呈现一种交叉关系的网络结构。
网状模型是以记录为节点的网络结构。
①有一个以上的节点无双亲。
②至少有一个节点有多个双亲。
在网状模型中子女到双亲的联系不是唯一的,所以在网状模型中给每一对父节点与子节点之间的联系都指定名字,这种联系称为系。
学生选课网状模型。
该模型包括两个系:
“学生-成绩”系,“课程-成绩”系
3、关系模型
不同数据之间的联系用关系来表示,其实质是将数据的逻辑结构归为满足一定条件的二维表形式,每个二维表称为一个关系。
在二维表中,每一行称为一个记录(也称元组),每一列称为一个数据项或字段(也称属性),数据项名称为字段名或属性名,整个表表示一个关系。
这种模型既可以用来表达事物之间“一对一”和“一对多”的联系,也可以用来表达“多对多”的联系。
①关系中每一列具有相同的属性,每个属性被指定一个不同的属性名(也叫字段名),属性名不能重复,列数根据需要而设置。
②关系中的每一个数据必须是不可再分的数据项,而不是组合的数据项。
③关系中的每一个记录由一个个体事物的诸多属性构成。
④行和列的排列顺序是任意的。
⑤一个关系是一张二维表,不允许有相同的字段名,也不允许有相同的记录存在。
出版图书基本情况表
书号
书名
作者
出版日期
单价
印数
1
射雕英雄传
金庸
11/01/84
24.00
20000
2
倚天屠龙记
09/05/80
32.90
35500
3
陆小凤
古龙
07/08/79
34.70
30000
4
武林外史
10/11/83
19.90
15500
第二节数据库系统的结构
一、数据库系统的组成
数据库系统是一个复杂的系统,因为数据库系统不仅是指数据库和数据库管理系统本身,而且是指计算机系统引进数据库技术后的整个系统。
它由五个部分组成:
硬件资源、软件资源、数据库结构、数据库管理员和用户。
1、硬件资源
数据库系统的硬件资源包括CPU、内存、磁盘、磁带及其它外部设备等。
2、软件资源
数据库系统软件包括以下几种:
(1)操作系统:
如DOS系统、UNIX系统、Windows系统、Linux系统等。
(2)数据库管理系统:
如FoxPor、Oracle、Access、Sybase等。
(3)高级语言编译系统:
C、C++、VB、Java等。
数据库系统软件的核心为DBMS。
3、数据库结构
实际的数据库系统软件产品多种多样,它们支持不同的数据模型,使用不同的数据库语言,建立在不同的操作系统上,数据的存储结构也各不相同,但是大多数数据库系统在总的体系结构上都具有相同的三级模式结构。
数据库系统的三级模式结构由用户级数据库、
概念级数据库和物理级数据库组成。
(1)用户级数据库:
是用户看到和使用的数据库,所以也称为用户视图,又称为子模式、外模式、用户模式等。
用户根据系统给定的子模式,用查询语言或应用程序去操作数据库中的数据。
(2)概念级数据库:
是数据库管理员看到的数据库。
因此也称为DBA视图,又称为模式。
它用于把用户视图有机的结合成一个逻辑整体,描述数据的逻辑结构,不涉及数据的物理存储细节和硬件环境,也与具体的应用程序及使用的高级程序语言无关。
(3)物理级数据库:
又称为存储模式、内模式,是数据库在数据库系统内部的表示,即对数据的物理结构和方式的描述。
内模式是全体数据库数据的内部表示或低层描述,用来定义数据的存储方式和物理结构。
4、数据库管理员(DBA)
为了保证数据库能够高效正常的运行,一般大型数据库都设有专门人员负责数据库系统的管理和维护工作。
这种专门人员称为数据库管理员,他们是一些懂得和掌握数据库全局并设计和管理数据库的骨干人员。
主要职责有:
(1)负责数据库核心及其开发工具的安装及升级;
(2)为数据库系统分配存储空间并规划未来的存储需求;
(3)协助开发者建立基本的对象(表、视图、索引);
(4)负责注册用户并维护系统的安全性;
(5)负责数据库系统的备份和恢复。
5、用户
数据库系统的用户分为两类:
(1)最终用户。
这类用户无需熟悉程序设计语言和数据处理技术,他们通过终端的人机对话,主要对数据库进行联机查询或通过数据库应用系统提供的界面来使用数据库,这些界面包括菜单、表格、图形和报表;
(2)专业用户。
即应用程序员,这类用户应熟悉数据库管理系统(DBMS)接口语言及DBMS提供的数据操纵语言,他们负责设计应用系统的程序模块,对数据库进行操作。
二、数据库管理系统
数据库管理系统是对数据库进行定义、管理、维护和检索的一组软件。
它是基于某种数据模型的,因此,可以把它看成是某种数据模型在计算机系统上的具体实现。
用户使用的各种数据库命令及应用程序的执行,都要通过数据库管理系统。
另外,数据库管理系统还承担着数据库的维护工作。
必须按照数据库管理员所规定的要求,保证数据库的安全性和完整性。
数据库管理系统的功能如下:
☆存储数据
☆创建并维护数据结构
☆允许多个用户并发访问
☆加强安全性和保密性
☆允许提取和操作已存储的数据
☆实现数据录入和数据加载
☆提供不同记录的一致性
☆提供对指定数据快速提取的高效索引机制
第三节数据库新技术
一、数据库技术与其他计算机技术的相互渗透
随着计算机技术应用的发展,数据库技术也快速发展。
数据库技术与其它学科的内容相结合,是新一代数据库技术的一个显著特征,涌现出各种新型的数据库系统。
数据库技术与分布处理技术相结合,出现了分布式数据库系统;
数据库技术与并行处理技术相结合,出现了并行数据库系统;
数据库技术与人工智能相结合,出现了演绎数据库系统、知识库和主动数据库系统;
数据库技术与多媒体处理技术相结合,出现了多媒体数据库系统;
数据库技术与模糊技术相结合,出现了模糊数据库系统;
等等。
1、分布式数据库系统
随着地理上分散的用户对数据库共享的要求,结合计算机网络技术的发展,在传统的集中式数据库系统基础上产生和发展了分布式数据库系统。
分布式数据库的定义:
分布式数据库由一组数据组成,这些数据物理上分布在计算机网络的不同结点(亦称场地或站点)上,逻辑上是属于同一个系统。
分布式数据库系统是在两台或多台地理上或物理上分散而逻辑上集中的数据库系统。
管理这样的数据库系统的软件称为分布式数据库管理系统(DistributedDataBaseManagomentSystem,DDBMS)。
分布式系统通常由计算机网络(局域网或广域网)连接起来,被连接的逻辑单位(包括硬件如计算机、外部设备和软件如操作系统、数据库管理系统等)称为结点或站点。
所谓地理上分散是指各个站点分布在不同的地方。
所谓逻辑上统一是指网络联结的各站点共同组成单一的数据库。
与集中式数据库不同,分布式数据库中应存在适当冗余以适合分布处理的特点,提高系统处理效率和可靠性。
因此,数据复制技术是分布式数据库的重要技术。
但分布式数据库中的这种数据冗余对用户是透明的,即用户不必知道冗余数据的存在,维护各副本的一致性也由系统来负责。
分布式数据库应具有以下特点:
⑴数据的物理分布性
数据库中的数据不是集中存储在一个场地的一台计算机上,而是分布的在不同场地的多台计算机上。
它不同于通过计算机网络共享的集中式数据库系统。
⑵数据的逻辑整体性
数据库虽然在物理上是分布的,但这些数据并不是互不相关的,它们在逻辑上是相互联系的整体。
它不同于通过计算机网络互连的多个独立的数据库系统。
⑶数据的分布独立性(也称分布透明性)
分布式数据库中除了数据的物理独立性和数据的逻辑独立性外,还有数据的分布独立性。
即在用户看来,整个数据库仍然是一个集中的数据库,用户不必关心数据的分片,不必关心数据物理位置分布的细节,不必关心数据副本的一致性,分布的实现完全由分布式数据库管理系统来完成。
⑷场地自治和协调
系统中的每个结点都具有独立性,能执行局部的应用请求;
每个结点又是整个系统的一部分,可通过网络处理全局的应用请求。
⑸数据的冗余及冗余透明性
分布式数据库始于20世纪70年代,繁荣于80年代,在90年代由于其在分布性和开放性方面的优势,获得了青睐。
这一切并不是偶然的,一方面是受到应用需求的刺激,另一方面是硬件环境的发展。
在应用方面,如银行的通存通兑及划汇、全球性民航订票系统、水陆空联运系统、连锁店的管理系统、军事上的情报系统、旅游订票系统等,这些应用都涉及地理上分散的统一组织的管理,集中式的数据库系统已经无法提供合适的支持。
在硬件方面,计算机及通信网络更是突飞猛进的发展。
功能强大的计算机、微型机和工作站,以及日益广泛装备的公用数据网和局域网,为DDBMS的研制提供了一个成熟的实用的环境。
在两方面的推动下,DDBMS得到了迅猛发展。
现在,分布式数据库的应用领域已不再局限于联机事务处理,分布式数据库系统已经广泛应用于分布式计算、互联网应用以及数据仓库等
2、多媒体数据库
当今社会存在着各种形态的信息,计算机要以图形、印刷文字、手写文字、声音、图像、动画和身体语言等多种媒体作为处理对象。
能够管理数值、文件、表格、图形、图像、声音等多媒体的数据库称为多媒体数据库(MultimediaDatabase)。
近年来,大容量光盘、高速CPU、高速信号处理器及宽带网络等硬件技术的发展为多媒体技术的应用奠定了基础。
媒体是信息的载体。
多媒体是指多种媒体,如数字、正文、图形、图象和声音的有机集成,而不是简单的组合。
其中数字、字符等称为格式化数据,文本、图形、图象、声音、视象等称为非格式化数据,非格式化数据具有大数据量、处理复杂等特点。
多媒体数据库实现对格式化和非格式化的多媒体数据的存储、管理和查询,其主要特征有:
(1)能够表示多种媒体的数据。
非格式化数据表示起来比较复杂,需要根据多媒体系统的特点来决定表示方法。
如果感兴趣的是它的内部结构且主要是根据其内部特定成份来检索,则可把它按一定算法映射成包含它所有子部分的一张结构表,然后用格式化的表结构来表示它。
如果感兴趣的是它本身的内容整体,要检索的也是它的整体,则可以用源数据文件来表示它,文件由文件名来标记和检索。
(2)能够协调处理各种媒体数据。
正确识别各种媒体数据之间在空间或时间上的关联。
例如,关于乐器的多媒体数据包括乐器特性的描述,乐器的照片,利用该乐器演奏某段音乐的声音等,这些不同媒体数据之间存在着自然的关联,比如多媒体对象在表达时必须保证时间上的同步特性。
(3)提供更强的适合非格式化数据查询的搜索功能。
例如可以对Image等非格式化数据作整体和部分搜索。
(4)多媒体数据库应提供特种事务处理与版本管理能力。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第一章 数据库基本理论 数据库 基本理论