《地图数据库原理》重点.docx
- 文档编号:28803635
- 上传时间:2023-07-19
- 格式:DOCX
- 页数:25
- 大小:89.29KB
《地图数据库原理》重点.docx
《《地图数据库原理》重点.docx》由会员分享,可在线阅读,更多相关《《地图数据库原理》重点.docx(25页珍藏版)》请在冰豆网上搜索。
《地图数据库原理》重点
第一章绪论
§1-1数据库系统的概念
1.数据(DATA):
数据是数据库中存储的基本对象。
数据的定义:
描述事物的符号记录称为数据。
2.数据库(DataBase,简称DB)数据库,顾名思义,是存放数据的仓库。
定义:
数据库是长期存储在计算机内、有组织的、可共享的数据集合。
3.数据库管理系统(DataBaseManagementSystem,简称DBMS)
数据库管理系统是位于用户与操作系统之间的一层数据管理软件。
4.数据库系统(DataBaseSystem,简称DBS)数据库系统是指在计算机系统中引入数据库后的系统构成,一般由数据库、数据库管理系统(及其开发工具)、应用系统、数据库管理员和用户构成。
§1-2数据库概念的发展
1、人工管理阶段(初等数据文件阶段)
20世纪50年代中期以前,计算机主要用于科学计算。
v硬件状况:
外存只有纸带、卡片、磁带,没有磁盘等直接存取的存储设备;
v软件状况:
没有操作系统,没有管理数据的软件;数据处理方式是批处理;
人工管理数据具有如下特点:
数据不保存;
应用程序管理数据;
数据不共享;
数据不具有独立性;
2.文件系统阶段(独立文件管理阶段)
20世纪50年代后期到60年代中期。
v硬件方面:
已有了磁盘、磁盘等直接存取存储设备;
v软件方面:
操作系统中已经有了专门的数据管理软件,一般称为文件系统;
v处理方式:
不仅有了批处理,而且能够联机实时处理
用文件系统管理数据具有如下特点:
1)数据可以长期保存;
2)由文件系统管理数据;
3)数据共享性差,冗余度大;
4)数据独立性差;
3.数据库系统阶段
20世纪60年代后期以来
v硬件方面:
已有大容量磁盘,硬件价格下降,软件价格上升,为编制和维护系统软件及应用程序所需的成本相对增加;
v处理方式:
统一管理数据的专门软件系统——数据库管理系统。
★数据库系统的特点
1.数据结构化
数据结构化是数据库与文件系统的根本区别。
2.数据的共享性高,冗余度低,易扩充
3.数据独立性高
•逻辑独立性是指用户的应用程序与数据库的逻辑结构是相互独立的,也就是说,数据的逻辑结构改变了,用户程序也可以不变。
数据与程序的独立,把数据的定义从程序中分离出去,加上数据的存取又由DBMS负责,从而简化了应用程序的编制,大大减少了应用程序的维护和修改。
4.数据由DBMS统一管理和控制
§1-3数据库系统的组成
数据库系统一般由硬件设备、软件系统、专业领域的数据库和管理人员构成。
1.硬件平台及数据库
整个
数据库系统对硬件资源提出了较高的要求,这些
要求是:
(1)要有足够大的内存,存放操作系统、DBMS
的核心模块、数据缓冲区和应用程序。
(2)有足够大的磁盘等直接存取设备存放数据库
和备份数据。
(3)要求系统有较高通道能力,以提高数据传送率
2、软件
数据库系统的软件主要包括:
(1)DBMS。
DBMS是为数据库的建立、使用和维护配置的软件。
(2)支持DBMS运行的操作系统。
(3)具有数据库接口的高级语言及其编译系统,便于开发应用程序。
(4)以DBMS为核心的应用开发工具。
(5)为特定应用环境开发的数据库应用系统。
第二章数据与文件组织
§2-1数据与信息
(一)信息
1、定义:
信息是现实世界在人们头脑中的反映。
为人们的生产,建设,管理等提供依据。
2、特性:
1)客观性2)适用性3)传输性4)共享性
(二)数据
指输入到计算机并能被计算机进行处理的数字、文字、符号、声音、图像等符号。
数据是对客观现象的表达。
(三)两者关系
数据是信息的表达、载体,信息是数据的内涵,是形与质的关系。
数据只有经过解释才有意义,成为信息。
数据的格式往往和具体的计算机系统有关,随载荷它的物理设备的形式而改变;而信息一般稳定不变。
(四)数据分类
(1)按功能分类:
标识或排序数据、数量或计量数据、控制数据
(2)按结构特征分类:
格式化数据、非格式化数据
(3)按权威性或确定程度分类:
硬数据和软数据
(4)按数据管理方面分类:
应用数据和元数据
(五)1)数据项组可分为两种:
矢量型和重复组型
矢量型是数据项的一维的有序组合,如日期。
重复组型是在记录内多次重复出现的数据的集合,一个重复组可由单一数据项、矢量型或其它重复组构成。
如一条空间曲线的坐标串。
2)记录可分为逻辑记录和物理记录
⏹逻辑记录是文件中按信息在逻辑上的独立意义来划分的信息单位,它描述向程序员或用户提供数据的方式或观察数据的方法。
⏹物理记录是向计算机发出的单一输入或输出命令而进行的读或写的基本数据单元,它是内存与外部设备间进行信息交换的物理单位。
§2-3文件组织
定义:
文件组织指的是按一定的逻辑结构把有关联的数据记录组织成为文件(称为逻辑文件),并用体现这种逻辑结构的物理存储形式把文件中的数据存放到某种存储设备上,使之构成物理文件的过程。
文件性能度量
1.文件存储空间利用率:
文件包含的数据信息量与文件占用的整个存储空间的比值。
稠密文件是利用率最高的文件(存储空间中全部存放着数据),稀疏文件是利用率很低的文件(存储空间中有许多空着未用的部分,其他文件又不能使用)。
地址是数据存储位置的标志。
1.绝对地址:
也称机器地址,计算机存储控制部件能够识别它。
2.相对地址:
文件中记录的某种顺序编号或磁盘组中块的顺序编号。
其范围从0或1开始到记录或块的最大数目为止。
3.符号地址:
对每个块或记录分配能唯一标识的符号名,称为符号地址。
相对页面号:
外存中的页面顺序编号。
页面指针:
每个页面的外存起始位置(可以是相对地址)。
页面映射表:
每个页面的页面号与指针组成,存放在主设备中。
2.系统缓冲区
系统缓冲区:
主存中特别指定的一块存储空间,以存放从外存读入内存的数据或从内存写进外存的数据。
缓冲区的容量不能小于一个数据块或一个页面。
缓冲区管理:
将缓冲区分成若干块,系统用一个程序分配这些缓冲块,并采用分配算法(用户优先权)使缓冲区的利用为最佳。
正规文件包括串行文件、顺序文件、索引文件、直接文件和表结构文件。
基本文件操作包括:
记录的查找、记录内容的修改、记录的插入与删除
文件组织的主要形式:
§2-4串行文件(流水文件)
串行文件是最简单的一种文件,文件记录的关键字是没有次序的,只是将记录按到来的次序一个接一个地放在存贮器的某个区域中。
主要用作数据库的日志文件和文件组织的临时文件。
记录类型既可相同(记录长度一定)也可以不同(记录长度可变)。
1.记录类型不同时,记录必须有相关的数据项组成,并且数据项应由标识其含义的名称和内容的值组成称为数据项名值对。
若干相关的数据项名值对合起来构成一个有意义的记录。
不定长记录可用记录结束标记识别。
串行文件的特点:
1、只能按顺序扫描整个文件查找,时间长;
2、不适用于随机查找;
3、插入记录方便(放在文件末尾);
4、删除(删除标记)与修改比查找多一次写入时间。
5、重新组织:
抄写旧文件并除去有删除标记的记录,剩下的记录重新组块写入文件的外存空间。
§2-5顺序文件
顺序文件是逻辑上将记录按关键字值的次序由小到大(升序)或由大到小(降序)顺序排列的文件。
可见这是经过整理的串行文件。
当找不到合适数据项作为主关键字时,可选取两个或多个数据项或者给某一数据项附加一个人工域(在人工域中包含顺序号)组成主关键字
顺序文件的存储组织
(1)向量结构:
计算机的存储空间是按绝对地址顺序连续排列的,故存储顺序文件时可按绝对地址顺序连续存放记录。
文件逻辑结构与物理结构一致。
顺序文件的特点:
1、可大大简化查找工作;
2、修改与删除简单;
3、插入记录比较困难,要移动插入点以后的记录(批处理)。
4、重新组织:
需要读取原文件(除去有删除标记的记录)和临时文件,按主关键字将它们归并分类。
§2-6索引文件(IndexFile)
索引文件的特点是除了存贮记录本身(即主文件)以外,还建立了若干索引表,这种带有索引表的文件称为索引文件。
索引文件在存贮器上分为两个区,即索引区和数据区。
索引区存放索引表;数据区存放主文件。
索引表通常按主关键字有序排列,而主文件本身可按主关键字有序或无序排列,前者称索引顺序文件,后者称索引非顺序文件。
1.索引非顺序文件(稠密索引文件)
简称索引文件,它是一种索引随机文件,索引有序,记录按输入顺序排序,即数据区的记录不按关键字顺序排序。
优点:
1)不仅具有存取快,并且无需要求记录顺序排列。
2)提供一个“预查找”,即在索引处就可以由指针来确定所查找的记录是否存在和进行基本的布尔运算。
3)便于处理增删活动。
增加新记录时,将记录放在文件尾,同时建立索引排序。
缺点:
索引表太大,占用过多的存贮空间。
2.索引顺序文件(稀疏索引文件)
把文件各记录按其键值大小顺序存放,并划分成块,这时在索引表中可只给出各块的最大键值及该块记录的起始地址,这种索引表本身较小,对索引的存贮空间管理要求低。
优点:
索引表紧凑,查找速度快。
缺点:
1)要求记录有序且不能提供一个“预查找”。
2)增删比较麻烦,由于是顺序文件,增加新记录必须按键的顺序插到文件中的适当位置,并继续保持文件的顺序性,这就不可避免引起大量记录移动。
删除:
物理删除和逻辑删除
§2-7直接文件(Hash文件)
直接文件又叫随机文件,它是利用散列算法进行组织的文件。
优点:
1)方法简便,存取速度快,节省存储空间
2)插入、删除和修改的效率高
缺点:
1)溢出处理技术比较复杂
2)散列方法的特性与关键字的分布有关
3)只能通过记录的关键字寻址
4)要求等长记录
§2-8表结构文件
特点:
1、指针占用存贮空间;
2、灵活性很大,可根据需要,为一组记录设置几组指针从而可形成不同顺序的逻辑文件;
§2-9倒排文件(InvertedFile)
次关键字索引表中每个索引项应包含次关键字及具有同一次关键字的多个记录的主关键字或物理记录号。
这种次关键字的索引表称作倒排表。
倒排表和文件一起共同构成了倒排文件。
倒排文件的主要优点是对复杂的多关键字查询时,可在倒排表中先完成查询的“交”、“并”等逻辑运算,然后将得到的结果再对主文件中记录进行存取。
也就是把对记录的查询转换成地址集合的运算,从而提高了查询的速度。
倒排文件和一般文件的不同在于一般文件在查询中首先找记录,然后再找该记录所含的各次关键字是否是所查询的内容。
而倒排文件是先定次关键字,然后找含有该次关键字的记录,这样文件查找次序同一般文件查找次序相反,因此称为倒排文件。
第三章数据模型
§3-2数据模型和数据模式的基本概念
模型是现实世界特征的模拟和抽象。
数据模型(DataModel)也是一种模型,它是现实世界数据特征的抽象。
在数据库中用数据模型这个工具来抽象、表示和处理现实世界中的数据和信息。
数据模型应满足三方面要求:
v是能比较真实地模拟现实世界;
v容易为人所理解;
v便于在计算机上实现。
数据结构是对系统静态特性的描述
•数据操作
对数据库中各种对象(型)的实例(值)允许执行的操作及有关的操作规则
数据操作是对系统动态特性的描述。
数据模式:
以一定的数据模型对一个单位的类型、结构及其相互间的关系所进行的描述。
数据模型和数据模式区别:
数据模型是描述现实世界数据的手段、工具。
数据模式是利用这个手段和工具对相互间的
关系所进行的描述。
2.层次模型
层次模型的特点是将数据组织成有序的树结构。
用树结构表示实体间联系的模型称为层次模型。
层次模型的物理实现
(1)物理邻接法
(2)表结构法(3)目录法(4)位图法
(1)物理邻接法
这种方法就是将各层次上的记录按从上到下、从左至右的关系依次记录在存贮器上,这样,数据的层次组织在逻辑顺序上与物理顺序是一致的。
•此方法结构紧凑,节省存储空间,但是查找时要顺序扫描,存取速度慢。
层次模型的优缺点
❑优点:
1)反映了现实世界实体之间的层次关系。
是众多空间对象的自然表达方式,在一定程度上支持数据的重构。
能较好反映地理要素的属性特征,也便于实现要素的定性检索。
2)将数据组织成有向有序的树结构,结构清晰、简单容易实现。
❑缺点:
v不能直接表示多对多的关系;
v难以顾及实体之间的拓扑关系;
v导致数据冗余。
(由于层次模型只有一个双亲,对多于一个双亲的客体,必然在数据库中会出现多次)
v对插入和删除操作的限制比较多(只有当新记录有上属记录时才能插入,删除一个记录意味其下属记录也被删除),且涉及很多指针。
v对子女的访问必须经由双亲结点,查询效率低;并且不能进行方向查询。
v基本不具备演绎功能及操作代数基础
§3-4网状模型与图结构
网状模型的物理实现
(1)简单网状结构的物理实现
v物理邻接加指针;
v顺序文件加指针;
v目录;
v位图.
(2)复杂网状结构的物理实现
v变长指针表;
v目录法或位图法.
网状模型的优缺点
优点:
v可以是描述现实世界中极为常见的多对多关系;在一定程度上支持数据重构,具有一定的数据独立性和共享性,并且运行效率较高。
v能消除数据的冗余,能清楚地表示实体之间的拓扑关系。
缺点:
v由于数据间联系要通过指针表示,指针数据项的存在使数据量大大增加,当数据间关系复杂时指针部分会大量占据数据库存储空间;修改数据库中数据指针也要随着修改。
指针的建立与维护会显得十分困难。
v网状结构的复杂,增加了用户查询和定位的困难,它要求用户熟悉数据的逻辑结构,知道自身所处的位置。
v基本不具备演绎功能及操作代数基本。
层次模型与网状模型相比较
网状模型和层次模型本质上是一样的。
从逻辑技术看它们都用连线表示实体之间的联系,用结点表示实体集。
从物理上看,层次模型和网状模型都用指针来实现实体之间的联系。
区别在于网状模型的连接更加复杂,从而使数据结构更加复杂。
§3-5关系模型
关系模型与层次、网状模型的最大差别是用键而不是用指针导航数据。
其表格简单,用户易懂,用户只需用简单的查询语句就可以对数据库进行操作,并不涉及存储结构、访问技术等细节。
1.属性和域
属性------用来描述事物特征。
域------属性的取值范围。
注意:
①关系数据模型中,所有的属性都应是不可再分的原子数据的集合。
②关系数据模型中,允许某些属性值为空,即NULL。
候选键
候选码(或候选键)――如果关系的某一个属性或属性组的值唯一地决定其它所有属性的值。
而其任何真子集无此性质,则这个属性或属性组称为该关系的候选键。
主键(主码)------一个关系R可有多个候选键,若选中一个作为Key,则它就是主键,其它称候补键,每个元组的主键值应是唯一的。
全键(全码)------由所有属性组成的键,称为全键。
关系模型的完整性规则是用来约束关系的,用来保证数据库中的数据的正确性和一致性。
它包括三类,实体完整性、参照完整性和用户自定义的完整性。
其中实体完整性和参照完整性是关系模型必须满足的完整性约束,被称为关系的两个不变性,由关系数据库管理系统(RDBMS)自动完成。
关系模型的物理实现
•关系模型的物理表示远比层次模型和网状模型的简单,原因在于数据间的联系是通过在各个不同的关系中出现具有相同值的属性项来建立。
•对关系模型来说,其物理表示可以简单归结为各个关系组织成文件,至于文件采用何种方式,可根据数据的使用特点,本着便于查找及节省存储空间的原则,选择适当的文件组织形式,如顺序文件、索引文件、直接文件等。
关系模型优缺点:
优点:
•简单易行,使用、维护方便;
•单一化概念—规范化;
•数据操纵高度灵活,有坚实的数学理论基础,有强有力的数据子语言-关系代数、关系演算等,可文件分解、合并。
•存取路径隐蔽、关系对称正反查找;
•联系文件组成数据库;
•支持数据的重构,具有较强的数据独立性和一致性,具有一定的演绎功能。
缺点:
•实现效率不高(需要大量连接操作);
•描述对象语义的能力较弱(规范化不自然分解);
•模型可扩展性较差(不具备管理多种数类型数据对象的能力);
•模拟和操纵复杂对象的能力较弱。
对传统数据模型的评价
传统数据模型的不足:
以记录为基础,不能很好地面向用户和应用。
不能以自然的方式表示实体间联系。
语义贫乏。
数据类型少,难以满足应用需要
模型之间的相互转换
•1、一切层次与网状结构都可用关系结构来表示
•2、网状结构可以转换为层次结构。
将两个或多个双亲所共有子女的结构予以分解,但转换带来冗余,只有数据冗余不太严重的情况下才是可取的。
§3-6面向对象的模型
1.1面向对象的概念
•面向对象的定义是指无论怎样复杂的事例都可以准确地由一个对象表示。
每个对象都是包含了数据集和操作集的实体,即是说,面向对象的模型具有封装性的特点。
类是关于同类对象的集合,具有相同属性和操作的对象组合在一起。
•概括就是在定义类型时,将几种类型中某些具有公共特征的属性和操作抽象出来,形成一种更一般的超类。
•继承
•继承是一种服务于概括的工具,也就是说,子类的某些属性和操作来源于它的超类。
•继承有单个继承和多个继承。
•单个继承是指子类仅有一个直接的父类。
•多个继承允许多于一个的直接父类。
•联合(association)
•在定义对象时,将同一类对象中的几个具有相同属性值的对象组合起来,为了避免重复,设立一个更高水平的对象表示那些相同的属性值。
聚集是将几个不同特征的对象组合成一个更高水平的对象。
每个不同特征的对象是该复合对象的一部分,它们有自己的属性描述数据和操作,这些是不能为复合对象所公用的,但复合对象可以从它们那里派生得到一些信息。
•传播
•是作用于联合和聚集的工具,它通过一种强制的手段将子目标的属性信息传播给复杂目标。
•传播与继承的区别:
•继承是从上层到下层,应用于类;传播自下而上直接作用于目标。
•继承包括属性和操作;传播一般仅涉及属性。
•继承一般是隐含的,只要声明子类与超类的关系,超类的特征一般会自动遗传给它的子类;传播是一种带有强制性的工具,它需在复杂目标显性地定义它的每个子目标,并声明它需要传播哪些属性值。
§3-7E-R数据模型
实体:
可以相互区别,且可被人们识别的事、物、概念等统统抽象为实体。
实体键:
能唯一识别实体的属性或属性组。
一个实体的键可能有多个,选定一个作为实体的键。
属性:
反映实体特征的称之为实体的属性,每个属性都有其取值的范围,称值集。
联系:
表示实体与实体之间的关系。
在E-R模型中,联系的基本类型有三种:
1:
1(一对一联系);
1:
n(一对多联系);
m:
n(多对多联系)。
第四章
空间对象及其定义
Ø空间实体(SpatialEntity)是地理空间中不可再分的最小单元,它不仅反映事物和现象的本质内容,而且反映它们在地理空间中的位置、分布状况以及它们之间的相互关系
Ø空间实体具有:
属性、空间位置、空间关系和时间四种特征
Ø空间对象(SpatialObject)也称空间目标,它是对空间现象进行抽象得到的结果,是空间实体的物理表示
Ø实体类型:
即实体的几何类型,有点、线、面、体之分
Ø实体属性:
对实体特征的描述,属性有属性值的概念并有等级之分
空间实体的描述
⏹对空间实体的描述有5种内容,即:
⏹识别码、位置、实体特征、实体的角色、行为或功能以及实体的空间特性
⏹识别码:
用于区别同类而又不同的实体,通常用对象标识码(OID)来表示
⏹位置:
可用坐标描述,也可用其它形式(如邮政编码)
⏹空间特征:
也是位置信息的一种,如维数、类型及实体的组合
⏹实体的行为和功能:
是指在数据采集过程中不仅要重视实体的静态描述,还要收集那些动态的变化
基于实体对象的描述
v基于对象的模型将研究的整个地理空间看成一个空域,地理现象作为独立的对象分布在该空域中。
v基于实体的空间模型强调个体现象,该现象以独立的方式或者以与其他现象之间的关系的方式来研究,主要描述不连续的地理现象。
v一个基于实体的观点适合于已经组织好的边界现象,也有的边界随着时间的变化很少固定不变。
v基于实体的空间信息模型把信息空间分解为对象或实体,信息空间看作是许多对象的集合。
实体必须符合条件:
v被识别
v重要(与问题相关)
v可被描述(有特征:
静态属性、动态的行为、结构特征)
空间实体属性描述
v属性数据实质是对地理信息进行分类分级的数据表示。
v属性在计算机中的存储方式是以一组数字或字符的形式存储的。
Ø三维空间对象的定义
Ø三维对象即体状空间实体,是三维空间中的现象与物体,有如下空间特性:
{长度、宽度及高度
{体积
{每个二维平面的面积、周长
{内岛或锯齿状外形
{含有孤立块或相邻块
无拓扑关系的矢量数据模型
❑也称面条数据模型(Spaghetti),仅记录空间对象的位置坐标和属性信息,不记录拓扑关系
❑存储方式
{独立存储:
空间对象位置直接跟随空间对象
{点位字典:
点坐标独立存储,线、面由点号组成
❑特点
{无拓扑关系,主要用于显示、输出及一般查询
{公共边重复存储,存在数据冗余,难以保证数据独立性和一致性
{多边形分解和合并不易进行,邻域处理较复杂
{处理嵌套多边形比较麻烦
Ø拓扑数据模型
❑不仅表达空间对象的几何位置和属性,
还表示空间对象的空间关系
❑表达对象:
主要点、线、面之间的
关联拓扑关系
❑表达方式
{全显式表达
{部分显式表达
❑拓扑数据模型的特点:
{数据结构紧凑、数据冗余小,拓扑关系明晰使得拓扑查询、拓扑分析效率高
{对单个地理实体的操作效率低、难以表达复杂的地理实体、局部更新困难
❑栅格数据结构是基于位置的数据结构,它采用像元阵列来描述空间对象,每个像元的行列号确定位置,用像元值表示空间对象的类型、等级等特征
❑当同一像元要表示多种地理属性时,则需要多个笛卡儿平面来描述,每个笛卡儿平面表示一种地理属性或同一属性的不同特征,这个平面就是“层”
栅格数据的组织方法有三种:
{方法一:
以像元为记录的序列,不同层上同一像元位置上的不同属性值表示为一个列数组
✶节省存储空间
(像元坐标空间)
{方法二:
以层为基础,每一层记录后再记录下一层
✶结构简单、处理方便、存储量大
{方法三:
以层为基础,但每一层则以多边形为序记录多边形的属性值和充满多边形的各像元的坐标
✶节省属性的存储空间
矢量栅格数据比较
矢量数据
优点:
✓表示地理数据的精度较高
✓严密的数据结构,数据量小
✓完整的描述空间关系
✓图形输出精确美观
✓图形数据和属性数据的恢复、更新、综合都能实现
✓面向目标,不仅能表达属性,而且能方便的记录每个目标的具体属性信息
缺点:
✓数据结构复杂
✓矢量叠置较为复杂
✓数学模拟比较困难
✓技术复杂,特别是软硬件
栅格数据
优点:
✓数据结构简单
✓空间
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 地图数据库原理 地图 数据库 原理 重点