空间分布模式与空间相关分析.docx
- 文档编号:11216914
- 上传时间:2023-02-25
- 格式:DOCX
- 页数:23
- 大小:757.64KB
空间分布模式与空间相关分析.docx
《空间分布模式与空间相关分析.docx》由会员分享,可在线阅读,更多相关《空间分布模式与空间相关分析.docx(23页珍藏版)》请在冰豆网上搜索。
空间分布模式与空间相关分析
实习序号和题目
空间分布模式与空间相关分析
实习人
专业及编号
实习目的:
熟悉和掌握SpatialStatisticsTools里的基本工具,对所给数据进行空间分析。
实习内容:
1.参考文献《多尺度人口增长的空间统计分析》,练习多距离L(d)、全局Moran’I与G*统计量分析,显著性检验的置信区间定义为90%;
2.对adabg00数据进行全局与局部的moranI与G统计量分析;
3.对deer数据进行基于距离的最近邻分析与L(d)分析;
实习数据:
1.省区.shp:
中国各省分布图
2.各省第5次和第6次人口普查:
各省人口普查数据
deer.shp:
鹿场点分布图
3.adabg00.shp:
爱达荷州阿达各街区2000年人口普查数据
基本原理:
空间分布的模式一般来说,有三种,分别是离散、随机、和聚合。
离散的概念就是指观测的每个数据之间的差异程度,离散程度越大,差异性就越大。
聚合与离散正好相反,表示在一定区域内的相关程度,就是聚合程度越大,相关性就越大。
随机是纯粹的无模式,既不能从随机数据中获取结论,也发现不了规律和模式。
1.零假设(nullhypothesis):
指进行统计检验时预先建立的假设。
在空间统计中,零假设指的就是空间位置在一定区域里面呈现完全随机(均匀)分布。
在检验结果之前,先对这些结果假设一个数值区间,这个区间一般是符合某种概率分布的情况,如果真实结果偏离了设定的区间,就表示发生了小概率事件。
这样原来的假设就不成立了。
如果计算结果落在-2到2之间,就表示假设是可以接受,但是不在这个范围内,就说明发生小概率事件了。
有两种可能:
1,假设有错误;2,出现了异常值。
2.z得分(Zscores)表示标准差的倍数
标准差:
总体各单位标准值与其平均数离差平方的算术平均数的平方根”也就是“标准差能反映一个数据集的离散程度”。
比如z得分是+2.5,得到的结果是标准差的正2.5倍,表示数据已经高度聚集。
反之,如果是-2.5,那么就表示标准差的负2.5倍,就是高度离散的数据。
置信度:
数据落在期望区间的可能性
在统计学中,一个概率样本的置信区间(Confidenceinterval)是对这个样本的某个总体参数的区间估计。
置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。
置信区间给出的是被测量参数的测量值的可信程度。
这个概率被称为置信水平。
置信水平是指总体参数值落在样本统计值某一区内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。
置信区间越大,置信水平越高。
3.在空间统计分析中,通过相关分析可以检测两种现象(统计量)的变化是否存在相关性,若所分析的统计量为不同观察对象的同一属性变量,则称之为自相关。
而空间自相关反映的是一个区域单元上的某种地理现象或某一属性值与邻近区域单元上同一现象或属性值的相关程度,是一种检测与量化从多个标定点中取样值变异的空间依赖性的空间统计方法。
当变量在空间上表现出一定的规律性,即不是随机分布则存在着空间自相关,空间自相关理论认为彼此之间距离越近的事物越相像。
也就是说,空间自相关是针对同一个属性变量而言的。
4.空间自相关方法按功能大致分为两类:
全域型自相关和区域型自相关。
全域型自相关的功能在于描述某现象的整体分布状况,判断此现象在空间是否有聚集特性存在,但其并不能确切得指出聚集在哪些地区,若将全域型不同空间间隔的空间自相关统计量依序排列,可进一步得到空间自相关系数图,用于分析该现象在空间上是否有阶层性分布。
区域型自相关能够推算出聚集地的范围。
5.最近邻分析
是根据每个要素与其最近邻要素之间的平均距离计算其最近邻指数。
最近邻指数是平均观测距离和平均期望距离之比。
如果小于1,则要素呈现空间聚集式;如果大于1,则要素呈现空间离散模式或竞争模式。
最近邻分析并没有考虑到属性特征,只是根据空间位置。
6.Moran’sI法
高的自相关性代表了空间现象聚集性的存在,空间自相关分析的主要功能在于同时可以处理数据的区位和属性。
全域型Moran’sI计算方式是基于统计学相关系数的协方差关系推算出来的。
I值一定介于-1到1之间,大于0为正相关,且值越大表示空间分布的相关性越大,即空间上聚集分布的现象越明显,反之,值越小代表空间分布相关性小,而当值趋于0时,代表此时空间分布呈现随机分布的情形。
若I值大于0,说明相邻地区拥有相似的数据属性,属性值高或低的地区都有聚集现象;若I小于0,说明相邻地区属性差异大,数据空间分布呈现高地间隔分布的状态;若I趋近于0,则相邻空间单元间相关低,某空间现象的高值或低值呈无规律的随机分布状态。
若I值显著大于I的期望值(I值为正值且显著),说明两点存在相似关系,若I值显著小于I的期望值(I值为负值且显著),说明两点存在不相似关系。
区域空间自相关值累加之和即全域空间自相关Moran’sI值。
其对应的公式为:
7.多距离空间聚类分析(Ripley'sK函数)
Ripley'sK方法是一种点数据模式的分析方法,利用Ripley'sK函数对点数据集进行不同距离的聚类程度分析。
Ripley'sK函数就是用来表明要素的质心的空间聚集或空间扩散的程度,以及在邻域大小发生变化时是如何变化的。
原理:
设定一个起算距离,还可以指定最终距离或者增量步长。
计算的距离增加的时候,包含的相邻的要素自然就会原来越多,那么就可以针对不同的距离,去计算包含的数据的密度。
当全部算完之后,把每个距离的密度进行一下算数平均,并且用这个平均密度,作为用于比较的标准密度值。
然后用每个距离里面,包含的数据量的密度,来与标准密度值进行比较。
大于标准密度,那么我们就认为这个距离上,数据处于聚类分布,而小于标准值的,我们就认为他处于离散分布。
为了避免平均数带来的一些简单粗暴的计算,在研究空间分布的时候,更多是利用零假设的方式,来设定随机数进行分布,作为预期值。
特定距离的K观测值大于K预期值,则与该距离(分析尺度)的随机分布相比,该分布的聚类程度更高。
如果K观测值小于K预期值,则与该距离的随机分布相比,该分布的离散程度更高
多距离空间聚类分析工具返回的值以及含义如下:
应用到的基本工具
1.ArcToolbox—SpatialStatisticsTools—AveragePatterns(分析模式)—AverageNearestNeighbor(平均最近邻)
2.ArcToolbox—SpatialStatisticsTools—AveragePatterns—High/LowClustering(Getis-OrdGeneralG)
3.ArcToolbox—SpatialStatisticsTools—AveragePatterns,SpatialAutocorrelation(MoranI)
4.ArcToolbox—SpatialStatisticsTools—AveragePatterns—Multi-DistanceSpatialClusterAnalysis(RipleysKFunction)
5.ArcToolbox—SpatialStatisticsTools—MappingClusters—ClusterandOutlierAnalysis(AnselinLocalMoransI)
6.ArcToolbox—SpatialStatisticsTools—MappingClusters—HotSpotAnalysis(Getis-OrdGi*)
操作流程图(尽量为图解模型)
操作步骤(方法)
一、参考文献《多尺度人口增长的空间统计分析》,练习多距离L(d)、全局Moran’I与G*统计量分析,显著性检验的置信区间定义为90%
定义工作空间,对province数据添加投影,选择兰勃特投影
处理数据,将统计数据汇总连接到省区的shp文件;
右键点击“province”,采用Symbology/Quantities/Graduatedcolors来符号化“人口增长率”字段;观察分布格局;
分布格局为:
西部部分地区的人口增长率要明显高于东部,如青海,西藏,新疆。
北方地区主要是京津地区增长率较高,南方的上海和广东地区人口增长率高。
由此可知,人口增长率最高的地方主要是发达的地区和贫困地区。
发达地区由于人口迁入导致,而贫困地区是由于出生率高于死亡率导致。
提取质心点,求取点对之间的距离;
k(d)函数
先利用province计算点距离,最短为30734米,最长为2216312米
则步长为十,Beginning_Distance(起算距离)选择30000米,
Distance_Increment(递增步长)选择220000米
红线是观察值,蓝线是期望值,当观察值在期望值上面的时候,是有集聚关系当观察值处于期望值之下的时候是离散分布。
GlobalMoran’I
分析:
通过Morans’I指数判断可以判断人口增长率是否存在集聚。
Moran’sIndex:
0.202915大于0,是观测的Moran’s指数,表示要素呈现空间正相关。
ExpectedIndex-0.030303小于0,是期望的Moran’s指数,表示按期望应该是空间负相关。
Variance:
0.011789,方差很小接近于0表示统计值之间差异并不大。
z-score:
2.147959,绝对值小于2.58对应显著性水平,表示正相关不是非常显著。
p-value:
0.031717小于0.1,表示随机分布的可能性小于10%,相关的可能性大于90%。
二、对adabg00数据进行全局与局部的moranI与G统计量分析;
拉丁人口分布:
进行G统计量分析
利用Getis-OrdGeneralG统计量度量高值或低值的聚集程度。
打开ArcToolbox—SpatialStatisticsTools—AveragePatterns—High/LowClustering(Getis-OrdGeneralG)
输入图层选择adabg00.shp,统计的字段是Latino字段。
勾选GenerateReport选项。
空间关系选择InverseDistance(反距离),选项还有反距离平方等。
计算距离方法选择欧式距离。
是否进行标准化选择默认NONE。
点击OK。
结果显示:
分析:
阿达县的拉丁裔人口分布具有空间集聚特征,且是高密度人口和高密度人口聚集。
ExpectedGeneralG:
0.000172,表示期望的G统计量。
Variance:
0.000000,方差很小接近于0表示统计值之间差异很小。
z-score:
3.770902,绝对值大于2.58对应显著性水平,表示聚集非常显著。
p-value:
0.000163小于0.1,表示随机分布的可能性小于10%,聚集分布的可能性大于90%,即聚集显著。
全局moranI
利用全局Moran'sI统计量根据要素位置和属性值测量空间自相关性。
打开ArcToolbox,SpatialStatisticsTools,AveragePatterns(分析式),SpatialAutocorrelation(MoranI)
输入图层选择adabg00.shp,统计的字段是Latino字段。
勾选GenerateReport选项。
空间关系选择InverseDistance(反距离),计算距离方法选择欧式距离。
是否进行标准化选择默认NONE。
点击OK。
分析:
阿达县的拉丁裔人口分布具有空间集聚特征,但通过Morans’I指数无法判断是高密度人口和高密度人口聚集还是低密度人口和低密度人口聚集。
Moran’sIndex:
0.053588大于0,是观测的Moran’s指数,表示要素呈现空间正相关。
ExpectedIndex-0.006849小于0,是期望的Moran’s指数,表示按期望应该是空间负相关。
Variance:
0.000096,方差很小接近于0表示统计值之间差异并不大。
z-score:
6.164895,绝对值大于2.58对应显著性水平,表示正相关非常显著。
p-value:
0.000000小于0.01,表示随机分布的可能性小于1%,相关的可能性大于99%。
局部的moranI
ClusterandOutlierAnalysis(AnselinLocalMoran'sI)
该工具是局部MoranI算法的实现,可以反映要素与周边要素的相似程度
打开ArcToolbox,SpatialStatisticsTools,MappingClusters,ClusterandOutlierAnalysis(AnselinLocalMoransI)。
输入图层选择adabg00.shp,统计的字段是Latino字段。
空间关系选择InverseDistance(反距离),计算距离方法选择欧式距离。
是否进行标准化选择默认NONE。
点击OK。
打开生成的新图层。
该新图层有147条记录,8个字段,若LocalMoran'sIindex为正,说明该点与邻域内点相似,若为负,说明该点与邻域内点相异。
COType_IDW有4种结果:
HH,HL,LL,LH(HH代表高高值聚集,LL代表低低值聚集,HL代表高值被低值包围,LH代表低值被高值包围)。
检测该县拉丁裔人口是否存在局部“热点”
该工具是局部G指数的实现,可以反映高值或低值在空间上的聚集区域。
也就是我们常说的热点分析,可用来生成热点图。
输入图层选择adabg00.shp,统计的字段是Latino。
空间关系选择FIXED_DISTANCE_BAND,计算距离方法选择欧式距离。
是否进行标准化选择默认NONE。
点击OK。
打开生成的新图层。
该新图层有147条记录,6个字段,在属性表中添加Z分数和P值两个字段。
如果Z值越大且P值越小,说明为热点区域(即高高值的聚集区域);
如果Z值很小(为负)且P值很小,说明为冷点区域(即低低值的聚集区域)。
标准差越小聚集度越高(是热点或冷点的可能性就越大)。
阿达县的拉丁裔人口分布存在局部的“热点”。
三、对deer数据进行基于距离的最近邻分析与L(d)分析;统计检验的置信区间设定为90%。
(1)AverageNearestNeighborSummary(最近邻统计)信息
z-score:
-10.955129,绝对值大于2.58对应显著性水平,在这里表示聚集非常显著。
p-value:
0小于0.01,表示随机分布的可能性小于1%,非随机分布的可能性大于99%,在这里表示聚集非常显著。
ObservedMeanDistance:
25.313385Meters,表示观测平均距离值。
ExpectedMeanDistance:
41.983181Meters,表示期望平均距离值。
NearestNeighborRatio(最近邻指数):
0.602491,表示观测平均距离值与期望平均距离的比值。
结果与分析
一、“人口增长率”分布格局为:
西部部分地区的人口增长率要明显高于东部,如青海,西藏,新疆。
北方地区主要是京津地区增长率较高,南方的上海和广东地区人口增长率高。
由此可知,人口增长率最高的地方主要是发达的地区和贫困地区。
发达地区由于人口迁入导致,而贫困地区是由于出生率高于死亡率导致。
k(d)函数
红线是观察值,蓝线是期望值,当观察值在期望值上面的时候,是有集聚关系当观察值处于期望值之下的时候是离散分布。
GlobalMoran’I
分析:
通过Morans’I指数判断可以判断人口增长率是否存在集聚。
Moran’sIndex:
0.202915大于0,是观测的Moran’s指数,表示要素呈现空间正相关。
ExpectedIndex-0.030303小于0,是期望的Moran’s指数,表示按期望应该是空间负相关。
Variance:
0.011789,方差很小接近于0表示统计值之间差异并不大。
z-score:
2.147959,绝对值小于2.58对应显著性水平,表示正相关不是非常显著。
p-value:
0.031717小于0.1,表示随机分布的可能性小于10%,相关的可能性大于90%。
二、对adabg00数据进行全局与局部的moranI与G统计量分析,需要判断阿达县的拉丁裔人口分布是否具有空间集聚以及存在局部的“热点”;
进行G统计量分析:
阿达县的拉丁裔人口分布具有空间集聚特征,且是高密度人口和高密度人口聚集。
ExpectedGeneralG:
0.000172,表示期望的G统计量。
Variance:
0.000000,方差很小接近于0表示统计值之间差异很小。
z-score:
3.770902,绝对值大于2.58对应显著性水平,表示聚集非常显著。
p-value:
0.000163小于0.01,表示随机分布的可能性小于1%,聚集分布的可能性大于99%,即聚集非常显著。
全局moranI
利用全局Moran'sI统计量根据要素位置和属性值测量空间自相关性。
分析:
阿达县的拉丁裔人口分布具有空间集聚特征,但通过Morans’I指数无法判断是高密度人口和高密度人口聚集还是低密度人口和低密度人口聚集。
Moran’sIndex:
0.053588大于0,是观测的Moran’s指数,表示要素呈现空间正相关。
ExpectedIndex-0.006849小于0,是期望的Moran’s指数,表示按期望应该是空间负相关。
Variance:
0.000096,方差很小接近于0表示统计值之间差异并不大。
z-score:
6.164895,绝对值大于2.58对应显著性水平,表示正相关非常显著。
p-value:
0.000000小于0.01,表示随机分布的可能性小于1%,相关的可能性大于99%。
局部的moranI
ClusterandOutlierAnalysis(AnselinLocalMoran'sI)
打开生成的新图层。
该新图层有147条记录,8个字段,若LocalMoran'sIindex为正,说明该点与邻域内点相似,若为负,说明该点与邻域内点相异。
COType_IDW有4种结果:
HH,HL,LL,LH(HH代表高高值聚集,LL代表低低值聚集,HL代表高值被低值包围,LH代表低值被高值包围)。
检测该县拉丁裔人口是否存在局部“热点”
该工具是局部G指数的实现,可以反映高值或低值在空间上的聚集区域。
也就是我们常说的热点分析,可用来生成热点图。
打开生成的新图层。
该新图层有147条记录,6个字段,在属性表中添加Z分数和P值两个字段。
如果Z值越大且P值越小,说明为热点区域(即高高值的聚集区域);如果Z值很小(为负)且P值很小,说明为冷点区域(即低低值的聚集区域)。
标准差越小聚集度越高(是热点或冷点的可能性就越大)。
阿达县的拉丁裔人口分布存在局部的“热点”。
三、对deer数据进行基于距离的最近邻分析与L(d)分析;统计检验的置信区间设定为90%。
(1)AverageNearestNeighborSummary(最近邻统计)信息
z-score:
-10.955129,绝对值大于2.58对应显著性水平,在这里表示聚集非常显著。
p-value:
0小于0.01,表示随机分布的可能性小于1%,非随机分布的可能性大于99%,在这里表示聚集非常显著。
ObservedMeanDistance:
25.313385Meters,表示观测平均距离值。
ExpectedMeanDistance:
41.983181Meters,表示期望平均距离值。
NearestNeighborRatio(最近邻指数):
0.602491,表示观测平均距离值与期望平均距离的比值。
存在问题与解决办法
1.利用k(d)函数计算province点距离的时候,权重字段选择人口增长率的时候,会出现操作失败,当不选择权重字段的时候可以实现。
当不选择权重字段的时候,是没有权重还是说有默认的权重,如果是用默认的权重,那么默认的权重是什么呢?
解决办法:
通过将province导出后生成新的一个文件重新进行操作,可以实现。
关于是否有默认的权重,不是很清楚,需要咨询老师。
2.
红线是观察值,蓝线是期望值,当观察值在期望值上面的时候,是有集聚关系当观察值处于期望值之下的时候是离散分布。
通过右侧这个表还可以发现什么信息,灰色的两条线是什么?
该如何准确表达右图的信息?
3.希望老师能给讲解一个样本:
例如如下的表的信息如何读取,能得到那些规律?
需要注意问题的总结与归纳
对得到的数据要有效的利用,通过查阅资料明白其中的有效数据,例如通过Morans’I指数判断可以判断人口增长率是否存在集聚。
Moran’sIndex是观测的Moran’s指数,如果大于0,表示要素呈现空间正相关。
ExpectedIndex是期望的Moran’s指数,如果小于0,表示按期望应该是空间负相关。
全域型自相关的功能在于描述某现象的整体分布状况,判断此现象在空间是否有聚集特性存在,但其并不能确切得指出聚集在哪些地区,若将全域型不同空间间隔的空间自相关统计量依序排列,可进一步得到空间自相关系数图,用于分析该现象在空间上是否有阶层性分布。
区域型自相关能够推算出聚集地的范围。
对阿达县的拉丁裔人口分布进行全局域自相关的操作,发现具有空间集聚以及存在局部的“热点”,通过区域型自相关找到了热点区域。
最近邻指数是平均观测距离和平均期望距离之比。
如果小于1,则要素呈现空间聚集式;如果大于1,则要素呈现空间离散模式或竞争模式。
对deer数据进行基于距离的最近邻分析可知存在空间聚集。
全域型Moran’sI计算方式是基于统计学相关系数的协方差关系推算出来的。
I值一定介于-1到1之间,大于0为正相关,且值越大表示空间分布的相关性越大,即空间上聚集分布的现象越明显,反之,值越小代表空间分布相关性小,而当值趋于0时,代表此时空间分布呈现随机分布的情形。
若I值大于0,说明相邻地区拥有相似的数据属性,属性值高或低的地区都有聚集现象;若I小于0,说明相邻地区属性差异大,数据空间分布呈现高地间隔分布的状态;若I趋近于0,则相邻空间单元间相关低,某空间现象的高值或低值呈无规律的随机分布状态。
若I值显著大于I的期望值(I值为正值且显著),说明两点存在相似关系,若I值显著小于I的期望值(I值为负值且显著),说明两点存在不相似关系。
对阿达县的拉丁裔人口分布进行全局域
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 空间 分布 模式 相关 分析