地理信息系统第五章 空间查询与空间分析.docx
- 文档编号:25787585
- 上传时间:2023-06-14
- 格式:DOCX
- 页数:71
- 大小:257.86KB
地理信息系统第五章 空间查询与空间分析.docx
《地理信息系统第五章 空间查询与空间分析.docx》由会员分享,可在线阅读,更多相关《地理信息系统第五章 空间查询与空间分析.docx(71页珍藏版)》请在冰豆网上搜索。
地理信息系统第五章空间查询与空间分析
第五章空间查询与空间分析
本章概述:
GIS不仅仅是一个地理数据的存贮系统,它还提供了丰富的数据查询功能。
更重要的,GIS有自己的复杂而科学的空间分析模型和工具,使得我们可以通过GIS的空间分析功能,获取隐藏在GIS数据之中的信息和关系。
地理信息系统集成了多学科的最新技术,如关系数据库管理、高效图形算法、插值、区划和网络分析,为空间分析提供了强大的工具,使得过去复杂困难的高级空间分析任务变得简单易行。
本章将介绍GIS数据查询的基本知识和常用的GIS空间分析模型及其算法。
§5.1空间数据的查询
本节将介绍空间数据查询的含义及图形查询、属性查询、混合查询、模糊查询等几种主要的查询方式,以及如何根据需求来控制查询结果的显示方式。
§5.2空间数据的统计分析
讲述空间数据统计分析中基本统计量的计算和常用统计数据的分类分级算法。
§5.3数字高程模型分析
讲述基于数字高程模型的信息提取、坡度分析、坡面分析、剖面分析和通视性分析、并介绍具体的算法。
§5.4空间数据的叠置分析
空间叠置分析是GIS提取空间隐含信息的重要手段之一,本课介绍基于栅格和基于矢量数据结构的叠置分析方法,包括矢量数据的点、线、面两两叠置和栅格数据的单层和多层叠置分析。
§5.5空间数据的缓冲区分析
缓冲区分析是解决空间实体邻接度问题的有效方法,本课介绍基于栅格和基于矢量数据结构的缓冲区生成算法。
§5.6泰森多边形分析
泰森多边形对于GIS的空间划分、插值等具有重要意义,本节介绍泰森多边形、Delaulay三角形的定义、特性及生成算法。
§5.7空间数据的网络分析
网络是以图论为工具模拟现实信息流通的通道,并解决路径优化、资源配给等运筹问题,网络分析具有重要的实际意义。
本课讲述网络图论基础、路径分析及网络定位及分配模型。
§5.8空间距离的量算
空间距离量算是许多空间分析的基础,在此介绍点、线、面实体之间的距离量算
§5.9空间分析模型
讲述空间分析模型的概念、GIS常用的空间统计分析模型、对应的详细算法及模型库。
§5.1空间数据的查询
在开始介绍空间数据查询之前,我们现来看看一些GIS数据查询的例子:
世界数据中心地震科学中心提供的全球地震GIS查询系统:
全球地震GIS查询的是WDC中国地震学科中心每日动态收集的全球地震数据,以地理信息系统为平台,在全球地图上进行查询。
数据来源是美国NEIC从1995年以来全球4级以上地震每年一幅震中分布图及一周内全球震中分布图(NEIC记录的全部地震)。
用户可以使用GIS数据钻取功能,将地图任意放大,同时可以划定范围来查询该地区的地震活动,也可以使用鼠标点取单个地震来查询该地震的参数。
图5-1-1全球地震GIS查询系统
http:
//www.newcyber-的三维空间目标信息查询:
这是三维场景中的可视化查询,可以直接通过在场景中选取目标来查询目标信息。
图5-1-2三维可视查询
一、空间数据查询的含义
数据查询是GIS的一个重要功能,一般定义为作用在GIS数据上的函数,它返回满足条件的内容。
查询是用户与系统交流的途径。
查询是GIS用户最经常使用的功能,用户提出的很大一部分问题都可以以查询的方式解决,查询的方法和查询的范围在很大程度上决定了GIS的应用程度和应用水平。
数据查询是GIS的一个非常重要的功能,定位空间对象、提取对象信息,是地理信息系统进行高层次空间分析的基础。
本节将介绍GIS数据查询的查询方式、结果显示方式。
由于GIS数据包括图形信息、属性信息和时间要素,因此GIS数据查询实际上包含了图形和属性的双向查询以及基于时间要素的图形、属性联合查询以及自然语言查询、模糊查询、超文本查询等。
二、空间数据查询的方式
目前GIS的空间查询主要有下列几种方式:
基于属性数据的查询:
根据空间目标的属性数据来查询该目标的其他属性信息或者相应当图形信息。
基于图形数据的查询:
基于图形的查询是可视化的查询,用户通过在屏幕上选取地物目标来查询其对应的图形和属性信息。
基于图形的查询包括两种方式:
区域查询和点选查询。
区域查询包括矩形区域、圆形区域和任意多边形区域查询,用户通过在屏幕上指定一个区域来查询其中的地物目标的信息;点取查询指用户通过直接在屏幕上选取地物目标的整体(点状地物)或者局部(线状和面状地物)来查询其信息。
图形与属性的混合查询:
图形与属性的混合查询是指查询条件同时包括了图形部分的内容和属性方面的内容,查询结果集应该同时满足这两个方面的要求。
模糊查询:
一般意义上的模糊查询指的是限定需要查询的数据项的部分内容,查询所有数据项重具有该内容的数据库记录。
GIS中的模糊查询与其他的数据库的模糊查询是相通的,只是更多的具有空间数据的特性。
对于属性数据的模糊查询,完全等同于一般意义的数据库模糊查询;空间数据的模糊查询在于通过目标图形上某一点的(点选)或者某一部分确定整个目标。
由于地物目标的空间特性和计算机环境决定了用户不可能通过点选完整选取目标(线状和面状目标),而只能通过区域或者点选的方式进行图形的查询。
自然语言空间查询:
所谓自然语言查询就是在GIS的数据查询中引入人类使用的自然语言(区别于程序语言和数据库SQL语言),通过简单而意义直接的自然语言来表达数据查询的要求。
自然语言的空间查询的关键在于自然语言的计算机解译以及向计算机查询的转换。
超文本查询:
超文本方式查询是一种基于IE浏览器的查询,在浏览器里面,可以把图形、图像、字符等皆当作文本,并设置一些“热点”(HotSpot),“热点”可以是文本、键、图形或者其部分等。
用户用鼠标点击“热点”后,浏览器可以弹出说明信息、播放声音、完成某项工作等,这些信息往往都是与该目标相关联的信息,从而达到“查询”的目的。
但超文本查询只能预先设置好,用户不能实时构建自己要求的各种查询。
符号查询:
地物在GIS中都是以一定的符号系统表示的,系统应该提供根据地物符号来进行查询的功能。
符号查询是根据地物在系统中的符号表现形式来查询地物的信息,实质是通过用户指定某种符号,在符号库库中查询其代表的地物类型,在属性库中查询该地物的属性信息或者图形信息。
三、查询结果的显示方式
空间数据查询不仅能给出查询到的数据,还应以最有效的方式将空间数据显示给用户。
例如对于查询到的地理现象的属性数据,能以表格、统计图表的形式显示,或根据用户的要求来确定。
空间数据的最佳表示方式是地图,因而,空间数据查询的结果最好以专题地图的形式表示出来。
但目前把查询的结果制作成专题地图还需要一个比较复杂的过程。
为了方便查询结果的显示,Max(1991,1994)在基于扩展SQL的查询语言中增加了图形表示语言,作为对查询结果显示的表示。
(参见6种显示环境参数)
基于属性数据的查询
GIS中基于属性数据的查询包括两个方面的内容:
由地物目标的某种属性数据(或者属性集合)查询该目标的其他属性信息;由地物目标的属性信息查询其对应的图形信息。
我们以自来水管网信息系统为例来讲述这两种方式。
前一种,比如我们需要查找系统中管径80厘米的水管是什么材质制造的;后一种,我们需要在屏幕上显示编码为DH0010339的管道在地图的什么位置上。
目前GIS的地物属性数据库大多是以传统的关系数据库为基础的,因此基于属性的GIS查询可以通过关系数据库的SQL语言进行查询。
一般来说,地物的图形数据和属性数据是分开存贮的,图形和属性之间通过目标的ID码进行关联,通过SQL语言操作数据库进行查询。
基于属性数据查询属性数据的SQL语句一例:
selectaddressfrompipe.dbwhereid='GW1003045'
从管道属性表中查询编号为GW1003045的管道所在的地址。
基于属性数据查询图形数据的SQL语句一例:
selectx,yfrompipecoord.dbwhereid='GW1003045'
从管道坐标表中查询编号为GW1003045的管道的坐标串。
基于图形数据的查询
GIS中基于图形数据的查询包括两个方面的内容:
由屏幕显示的地物目标查询该目标的属性信息;由地物目标查询该目标其他部分的图形信息或者是与其相关的其他目标的图形信息。
我们同样以地下管线系统为例来说明这两种查询。
前一种,我们在屏幕上选取一段管道,通过其ID码在属性数据库中查询它对应的属性数据(如管段类别,埋深等);后一种,我们可以通过点取该管段上的某一点来查找到整条管段,可以查询与该管段相关联的接头、阀门、支管等信息。
一般来说,基于图形数据的查询是一种可视化的查询。
目标的选取包括点选区域和选取两种:
点选时通过鼠标点取点状目标或者线状目标和面状目标的一部分来选取整个目标;区域查询包括下图所示的三种方式:
矩形查询、圆形查询和任意多边形查询,可以自行定义是否只有当目标全部落入指定区域才认为该目标被选中。
图5-1-3区域查询图示
基于图形数据的空间查询,查询条件是屏幕显示图形,为方便用户进行图形选取,点选应该设置合适的选取捕捉范围,区域查询要注意目标与查询区域边界相交时的处理。
可视化空间查询是为方便用户输入查询条件而设计的,在GIS中仍然要翻译成形式化的SQL语言。
查询过程是:
通过屏幕捕捉获取目标的坐标信息,根据坐标信息在图形库中查询对应的图形及其ID,如果是图形是通过部分查询整体,应该通过ID在图形库中找到该目标的所有图形数据,如果是查询属性信息,则通过ID在属性库中查找需要的属性项。
图形属性混合查询
GIS中的查询往往不仅仅是单一的图形或者属性信息查询,而是包含了两者的混合查询。
比如在管线系统中,我们需要查询指定区域内的具有某种属性的目标,例如查询在屏幕上指定圆域以内的管径为80厘米的混凝土管道。
这一查询是图形查询混合查询,查询条件包含了三个条件:
坐标范围限制、管段口径限制和管段材质限制。
查询的结果可以是图形的屏幕显示或者属性的报表显示。
混合查询中有两个方面是比较重要的,一是查询条件的分离,一是查询的优化。
对于多条件的混合查询,查询的条件要分离为对图形和属性的查询,在相应的图形数据和属性数据库中查询,结果为二者的交集。
查询优化在多条件查询情况下可以通过调整查询顺序来提高查询的执行效率。
模糊查询
模糊查询指的是待查询项的数据不确定,具有一定的模糊性或者概括性。
这种模糊性往往导致查询结果是一个目标集合。
模糊查询是快速获取具有有种特性的数据集的快速方法。
例如,我们在数据库中,管段埋藏的起止地址信息是详细到门牌号的,而一条街道的管道往往是由几个管段构成,为了获取某条街道上所有的管段信息,我们可以引入模糊查询。
select*frompipe.dbwhereaddresslike'人民路*'
通过上面的查询语句,我们可以找到人民路上所有管段的信息。
模糊查询本身的特性决定了模糊查询只能适用于查询条件是字符型数据的情况。
对于其他数据类型不适用。
模糊查询的通配符有二种:
'*'和'?
'。
'*'是不限长度的通配符,而'?
'是定长通配符,代表一个字符的位置。
例如对于ID为GW1003056的管段,用"select*frompipe.dbwherenamelike'GW100*6'"语句可以查询到,而"select*frompipe.dbwherenamelike'GW100?
6'"查询不到该管段。
合理使用模糊查询可以提高批量查询的效率。
自然语言空间查询
在空间数据查询中引入自然语言可以使查询更轻松自如。
在GIS中很多地理方面的概念是模糊的,例如地理区域的划分实际上并没有象境界一样明确的界线。
而空间数据查询语言中使用的概念往往都是精确的。
为了在空间查询中使用自然语言,必须将自然语言中的模糊概念量化为确定的数据值或数据范围。
例如查询高气温的城市时,引入自然语言时可表示为:
SELECT name
FROM Cities
WHERE temperatureishigh
如果通过统计分析和计算,以及用模糊数学的方法处理,认为当城市气温大于或等于33.75°C时是高气温。
则对上述用自然语言描述的查询操作转换为:
SELECT name
FROM Cities
WHERE temperature>=33.75
在对自然语言中的模糊概念量化时,必须考虑当时的语义环境。
例如,对于不同的地区,城市为“高气温”时的温度是不同的;气温的“高(high)”和人身材的“高(high)”也是不同的;等等。
因此,引入自然语言的空间数据查询只能适用于某个专业领域的地理信息系统,而不能作为地理信息系统中的通用数据库查询语言。
查询结果的显示环境参数
1、显示方式(thedisplaymode)
有5种显示方式用语多次查询结果的运算:
刷新、覆盖、清除、相交和强调。
2、图形表示(thegraphicalpresentation)
用于选定符号、图案、色彩等。
3、绘图比例尺(thescaleofthedrawing)
确定地图显示的比例尺(内容和符号不随比例尺变化)。
4、显示窗口(thewindowtobeshown)
确定屏幕上显示窗口的尺寸。
5、相关的空间要素(thespatialcontext)
显示相关的空间数据,使查询结果更容易理解。
6、查询内容的检查(theexaminationofthecontent)
检查多次查询后的结果。
通过选择这些环境参数可以把查询结果以用户选择的不同的形式显示出来,但离把查询结果以丰富多彩的专题地图显示出来的目标还相差很远。
§5.2空间数据的统计分析
GIS中空间数据的统计分析是指对GIS地理数据库中的专题数据进行统计分析,这里只介绍基本统计量的计算和常用的统计数据的分类分级算法。
一、属性数据的集中特征数
反映属性数据集中特性的参数有:
变量在各组出现或发生的次数称为频数和各组频数与总频数之比频率、反映了数据取值的集中位置的平均数、以概率为权值的加权平均数的数学期望、以及中数和众数。
二、属性数据的离散特征数
在分析GIS的属性数据时,不仅要找出数据的集中位置,而且还要查明这些数据的离散程度,即它们相对于中心位置的程度,同时,还要分析它的变化范围。
在此.引入刻划离散程度差异的统计特征数,即一组数据中最大值与最小值之差的极差、一组数据中的各数据值与平均数之差的离差、方差、方差的平方根标准差、和衡量数据在时间和空间上的相对变化的程度的变差系数。
三、统计数据的分类分级
为了把GIS地理数据中的统计数据用专题地图的形式表示出来,通常需要对统计数据进行分类和分级。
分类和分级的方法很多,下面介绍两种在统计数据处理中经常用到的算法:
系统聚类法和最优分割分级法。
一、属性数据的集中特征数
反映属性数据集中特性的参数有:
频数和频率、平均数、数学期望、中数及众数。
(一)、频数和频率
将变量xi(i=1,2,…,n)按大小顺序排列,并按一定的间距分组。
变量在各组出现或发生的次数称为频数,一般用fi表示。
各组频数与总频数之比叫做频率,按如下公式计算:
根据大数定理,当n相当大时,频率可近似地表示事件的概率。
计算出各组的频率后,就可作出频率分布图。
若以纵轴表示频率,横轴表示分组,就可作出频率直方图。
用以表示事件发生的频率和分布状况。
(二)、平均数
平均数反映了数据取值的集中位置,常以
表示。
对于数据Xi(i=1,2,…,n)通常有简单算术平均数和加权算术平均数。
简单算术平均数的计算公式为:
加权算术平均数的计算公式为:
其中Pi为数据xi的权值。
(三)、数学期望
以概率为权值的加权平均数称为数学期望,用于反映数据分布的集中趋势。
计算公式为:
其中Pi>为事件发生的概率。
(四)、中数
对于有序数据集X,如果有一个数x,能同时满足以下两式:
则称x为数据集X的中数,记为Me。
若X的总项数为奇数,则中数为:
若X的总顶数为偶数,则中数为:
(五)、众数
众数是具有最大可能出现的数值。
如果数据X是离散的,则称X中出现最大可能性的值x为众数;如果X是连续的,则以X分布的概率密度P(x)取最大值的x为X的众数。
显然,众数可能不是唯一的。
二、属性数据的离散特征数
(一)、极差
极差是一组数据中最大值与最小值之差,即
(二)、离差、平均离差与离差平方和
一组数据中的各数据值与平均数之差称为离差,即
若把离差求平方和,即得离差平方和,记为
若将离差取绝对值,然后求和,再取平均数,得平均离差,记为
平均离差和离差平方和是表示各数值相对于平均数的离散程度的重要统计量。
(三)、方差与标准差
方差是均方差的简称,是以离差平方和除以变量个数求得的,记为σ2,即:
标准差是方差的平方根,记为:
(四)、变差系数
变差系数用来衡量数据在时间和空间上的相对变化的程度,它是无量纲的量,记为Cv:
其中,σ为标准差,
为平均数。
三、统计数据的分类分级
(一)、系统聚类法
系统聚类法是分类数据处理中用得最多的一种方法。
1、系统聚类法的基本思想
其基本思想是:
首先是n个样本各自成一类,然后规定类与类之间的距离,选择距离最小的两类合并成一个新类,计算新类与其它类的距离,再将距离最小的两类进行合并,这样每次减少一类,直到达到所需的分类数或所有的样本都归为一类为止。
2、统计数据的标准化
每个样本单元有多种变量的原始数据,各种变量的量纲和数量大小是很不一致的,变化的幅度也不一样。
假如直接用原始数据进行计算,就会突出绝对值大的变量的作用,而压低绝对小的变量的作用。
为了给每种变量以统一量度,在进行模型的统计计算前,往往需要对原始数据进行标准化变换。
通常使用标准差标准化的方法。
(统计数据的标准化算法)
3、距离系数
对样本进行分类时,个体之间的相似性程度往往用“距离”来度量。
它是将每个样本看成是高维空间的一个点,点与点之间用某种法则规定距离,距离近的点归为一类。
(距离系数的计算)
4、最短距离法系统聚类
类与类之间的距离有许多种定义方法,这里介绍最常用的最短距离法。
在最短距离法中,定义两类之间的距离用两类间最近样本的距离来表示。
用dij表示样本i和j的距离,用G1,G2,…表示类,用Dpq表示类Gp和类Gq的距离,则有:
(最短距离法聚类的步骤)
5、系统聚类法类间距离计算的统一公式
除了最短距离法外,还有其它计算类与类之间的距离的方法,它们除了计算类与类之间距离的公式不同外,其并类的步骤是完全相同的。
而这些距离计算法可以用一个统一的公式表示,而只是系数不同。
这个统一的公式为:
Dkr2=αpDkp2+αqDkq2+βDpq2+δ|Dkp2–Dkq2|
式中系数αp、αq、β、δ对不同的方法取不同的值,上表列出了八种方法的参数值。
统一的公式为编写程序提供了很大的方便。
(二)、最优分割分级法
1、最优分割分级法的基本原理
最优分割分级是在有序样本不被破坏的前提下,使其分割的级内离差平方和为最小而级间离差平方和为极大的一种分级方法。
它可以用来对有序样本或可变为有序(排序)的样本进行分级。
(算法)
2、最优分割的计算
首先必须把数据按从小到大的顺序进行排序,然后逐步进行分割(分级)。
具体分割方法包括最优二分割、最优三分割和最优K分割。
按最优分割分级法计算出的分级结果在用于地图制图前,必须把分级界线的零碎值转换成凑整值。
凑整时分级界线的起点和终点分别向较小和较大的数凑整。
统计数据的标准化算法
如果有n个样本,每个样本有m个数据,则每个变量可记为Xi,j其中i=1,2,…n;j=1,2,…m。
标准化后的变量为X′i,j,则:
式中:
j为第j个变量的平均数;Sj为第j个变量的标准差。
在制图数据处理中,常用S代表标准差。
当用样本标准差对总体标准差进行估算时,则采用无偏估计值,即:
经过标准差标准化后,每种变量的平均值为0,方差为1。
为了避免计算标准差,并把变量变换到0和1的范围内,也可采用极差标准化。
这时可采用下面公式:
式中:
Xjmax和Xjmin为第j组变量的最大和最小值。
用此公式标准化后的变量范围在±1之间。
距离系数的计算
设有n个样本,每个样本测得m项指标,则每个变量记为Xij,i=1,2,…n;j=1,2,…m。
这里只介绍在标准化变量互不相关时采用的欧氏距离。
两样本i和j的距离记为dij,则:
最短距离法聚类的步骤:
①、计算每两个样本的距离。
由于样本i和样本j的距离dij与样本j和样本i的距离dji是相等的,所以只要计算一个。
开始时每个样本自成一类,则类之间的距离Dpq就等于样本之间的距离dpq。
②、找出最小的类间距,设为Dpq,则把Gp的Gq合并为一个新类,记为Gr。
③、计算新类与其它类的距离。
新类Gr和某一类Gk的距离为Drk,则Drk可用下面公式计算出:
Drk=min{Dpk·Dqk}
④、重复第②、③步,直到所有元素都成为一类或达到设定的分类数。
系数
方法
αp
αq
β
δ
最短距离法
1/2
1/2
0
-1/2
最长距离法
1/2
1/2
0
1/2
中间距离法
1/2
1/2
>-1/4≤β≤0
0
重 心 法
np/nr
nq/nr
-αp·αq
0
类平均法
np/nr
nq/nr
0
0
可变类平均法
(1-β)np/nr
(1-β)nq/nr
<1
0
可 变 法
(1-β)/2
(1-β)/2
<1
0
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 地理信息系统第五章 空间查询与空间分析 地理信息系统 第五 空间 查询 分析
![提示](https://static.bdocx.com/images/bang_tan.gif)