计算机在地质学中的应用复习资料.docx
- 文档编号:26522755
- 上传时间:2023-06-20
- 格式:DOCX
- 页数:13
- 大小:53.71KB
计算机在地质学中的应用复习资料.docx
《计算机在地质学中的应用复习资料.docx》由会员分享,可在线阅读,更多相关《计算机在地质学中的应用复习资料.docx(13页珍藏版)》请在冰豆网上搜索。
计算机在地质学中的应用复习资料
计算机在地质学中的应用
一、名词解释:
1、定性地学数据:
定性说明地学现象的某种属性或者形态而没有数量概念的数据。
2、名义型数据:
又称类别数据,特点是没有量的概念,也不具有相对重要性,只有标识作用。
其运算方式只能进行统计,不能进行常规的加减比较大小等运算。
3、有序型数据特点是只具有顺序或者等级的概念,不同序级之间没有比例关系,在绝对数量方面也不相等。
其运算方式只能对其排序。
4、逻辑型数据特点是只能说明某种地学现象存在与否,不涉及大小和数量。
5、定量地学数据又称数值型数据,这类数据不仅说明地学现象的属性和状态,而且有数量的概念。
不仅能比较大小,还能表示差异。
6、空间自相关空间上相邻样品在数值上具有相关关系。
7、区域化变量是介于随机变量和确定性变量之间的变量,它描述的是地理分布现象,这类现象具有空间连续性,又具有空间不确定性。
8、变差函数又叫变程方差函数,或变异函数,是地质统计学所特有的基本工具。
它既能描述区域化变量的空间结构性变化,又能描述其随机性变化。
9、变程指区域化变量在空间上具有相关性的X围。
在变程X围之内,数据具有相关性;而在变程之外,数据之间互不相关,即在变程以外的观测值不对估计结果产生影响。
10、块金值变差函数与Y轴的交点,在地质统计学中称为“块金方差”,表现为在很短的距离内的空间变异性,即无论h多小,两个随机变量的差异程度。
它可以由测量误差引起,也可以来自矿化现象的微观变异性。
在数学上,块金值C0相当于变量纯随机性的部分。
11、基台值代表变量在空间上的总变异性大小。
即为变差函数在h大于变程时的值,为块金值c0和拱高cc之和。
12、随机取样即按随机性原则,从总体单位中抽取部分单位作为样本进行调查,以其结果推断总体有关指标的一种抽样方法。
13、分层取样将总体中各个个体按某种特征分成若干个互相重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样。
14、系统取样从总体中选取每第k个样品的方法。
15、丛状取样随机抽取总体内的个体集合组成小样本,所有这些小样本合并成一个样本。
16、方便取样在方便的时间和地点取样,又称偶遇取样。
代价低,简单易行。
17、判别取样研究者根据自己的知识和经验,主观决定取样总体的某个部位(时间和空间)。
18、配额取样:
与分层取样类似,也是对总体首先进行分层,并决定各层所占比例,然后与分层取样不同的是在每层中配额取样采用的是非概率取样方法。
?
19、滚雪球取样先选取合适的调查对象初步取样分析,根据调查分析结果进一步选取更多的样本,像滚雪球一样不断扩大研究区域。
20、相关分析:
相关分析通过图形和数值两种方式,有效地揭示事物之间相关关系的强弱程度和形式。
21、因子分析是一种降维、简化数据的技术。
它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个“抽象”的变量来表示其基本的数据结构。
二、问答题
1、地学数据获取的不确定性有哪些?
数据固有的不确定性
数据获取过程中引起的不确定性
数据处理过程中引起的不确定性
数据转换过程中引起的不确定性
数据传输过程中引起的不确定性
数据提取和分类过程中引起的不确定性
数据应用不当引起的不确定性
2、对一元地学变量的描述方法有哪些?
(1)一元地学数据的图形展示
连续型数据的图形描述
频率分布表、频率分布直方图、理论频率分布
名义型数据的图形描述
柱状图和饼图等
(2)一元地学数据的中心位置度量
平均值、中位数、众数
(3)一元地学数据的离散度度量
极差、方差和标准差、四分位数间距
3、连续型数据中心位置的度量常用的统计量是什么?
(1)平均值(算数平均值、几何平均值、加权平均值)
(2)中位数:
一组数据按从小到大(或从大到小)的顺序依次排列,处在中间位置的一个数(或最中间两个数据的平均数)。
中位数也可表述为第50百分位数,二者等价。
(3)众数:
是一组数据中出现次数最多的数值,叫众数,有时众数在一组数中有好几个。
4、对一元地学数据的离散度度量常用的统计量是什么?
(1)极差:
一组数据中的最大数据与最小数据的差。
(2)方差和标准差:
方差是实际值与期望值之差平方的期望值。
标准差是方差平方根。
(3)四分位数间距:
第三四分位数与第一四分位数的差距又称四分位数间距(InterQuartileRange,IQR)。
IQR=Q3—Q1
5、什么是标准变换,标准变换后的数据集有什么优点?
变换后的数据集,平均值为0,标准差为1。
6、箱线图的功能是什么?
A.利用箱线图便于对多个样本数据的形状进行比较
B.直观明了地识别数据批中的异常值
C.利用箱线图判断数据集的偏态和尾重
7、高维点数据的可视化方法有哪些?
可变散点图(Scatterplotwithvaryingdots)
散点图矩阵(Scatterplotmatrix)
多变量轮廓(Multivariateprofiles)
星形图(Starpicture)
安德斯绘图(Andrews’Fouriertransformations)
安德森绘图(Metroglyphs)
脸谱法(Chernoff’sfaces)
8、高维点数据的可视化方法中的散点图矩阵的特征是什么?
Histogramsondiagonal(散点图矩阵的对角线为柱状图)
Scatterplotonlowerportion(散点图矩阵的下部分为散点图)
Correlationsonupperportion(散点图矩阵的上部分为相关系数)
9、三维域上的标量场可视化方法有哪些?
三维域上的标量场的可视化一般称为体可视化,方法:
(1)等值面
(2)编织图
(3)体绘制
10、变量之间的关系可归纳为哪两种大类,分别是什么?
函数关系:
指变量之间的一种一一对应的关系。
相关关系(统计关系):
指变量之间客观存在的不严格确定的依存关系(因果关系)。
相关关系又分为线性相关和非线性相关。
11、相关关系和函数关系的区别和联系是什么?
a)区别
1函数关系变量之间存在严格的依存关系,其关系是不对等的(因果关系)。
相关关系则不确定,可以在一定X围内变动,变量之间的关系完全对等。
2函数关系可以用方程表示出来,而相关关系则不能。
b)联系
1函数关系是相关关系的特例,函数关系是完全的相关关系。
2由于测量误差的存在,函数关系往往通过相关关系表现出来。
3相关关系常常借助于函数关系的形式进行描述。
12、相关关系的分类有哪些方法?
a)根据相关因素的多少分为:
单相关(两个变量之间的关系)、复相关(多个变量之间的关系)和偏相关(在一个变量与多个变量相关时,假定其他变量不变,其中两个变量之间的相关关系)。
b)根据相关的表现形式分为线性相关和非线性相关。
c)根据变量变化的方向分为:
正相关和负相关。
d)根据相关的程度分为:
完全相关、不完全相关和不相关。
13、变量间的非线性相关关系分为哪两类,曲线估计是用来解释哪一类问题的?
14、Q型聚类分析常用距离来测量样品之间的相似程度,常用的距离有哪些?
a)
明考夫斯基距离(绝对距离、欧氏距离、切比雪夫距离)
b)兰氏距离
c)
马氏距离
15、应用欧氏距离进行聚类分析的缺陷是什么?
1)它没有考虑到子体的变异对“距离”远近的影响,一个变异程度大的子体可能与更多样品近些,既使它们的欧氏距离不一定最近;
2)另外,欧氏距离受变量的量纲影响,这对多元数据的处理是不利的。
3)如果变量之间存在相关性,则会对处理结果带来影响。
16、R型聚类分析中变量相似性的度量有哪几种方法?
从变量的方向趋同性或“相关性”考察变量间的相似性,从而得到“夹角余弦法”和“相关系数”两种度量方法。
1、夹角余弦
两变量Xi与Xj看作p维空间的两个向量,这两个向量间的夹角余弦可用下式进行计算
显然,∣cosij∣<=1。
2.相关系数
相关系数:
度量变量间的相似性。
变量Xi与Xj的相关系数定义为
显然也有,∣rij∣<=1。
17、根据类间距离的不同,系统聚类法可分为哪几种?
常用的类间距离定义有8种之多,与之相应的系统聚类法也有8种:
最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法。
18、因子分析的步骤是什么?
1)对原始数据进行标准化处理,建立变量的相关矩阵。
2)利用雅克比行列式方法求解相关矩阵的特征值和特征向量
3)因子提取,即选取一定的特征值,计算因子载荷以及公共因子方差
4)因子旋转,为便于对主因子进行解释,一般需要对因子载荷矩阵进行旋转,达到结构简化的目的
5)计算因子得分
19、因子分析中为什么要对分析结果进行因子旋转?
因子分析的目标之一就是要对所提取的抽象因子的实际含义进行合理解释。
有时直接根据特征根、特征向量求得的因子载荷阵难以看出公共因子的含义。
例如,可能有些变量在多个公共因子上都有较大的载荷,有些公共因子对许多变量的载荷也不小,说明它对多个变量都有较明显的影响作用。
这种因子模型反而是不利于突出主要矛盾和矛盾的主要方面的,也很难对因子的实际背景进行合理的解释。
这时需要通过因子旋转的方法,使每个变量仅在一个公共因子上有较大的载荷,而在其余的公共因子上的载荷比较小,至多达到中等大小。
这时对于每个公共因子而言(即载荷矩阵的每一列),它在部分变量上的载荷较大,在其它变量上的载荷较小,使同一列上的载荷尽可能地向靠近1和靠近0两极分离。
这时就突出了每个公共因子和其载荷较大的那些变量的联系,矛盾的主要方面显现出来了,该公共因子的含义也就能通过这些载荷较大变量做出合理的说明,这样也显示了该公共因子的主要性质。
20、使用经典统计学研究地学变量的局限性是什么?
a)经典统计方法在研究地学变量时,不考虑样品的空间分布,由于样品的空间分布不同,尽管其均值、方差都一样,但地学意义则不同。
b)经典统计学的研究对象是纯随机变量,并遵循一定的概率分布,而地学变量既有随机性也有结构性。
c)经典统计学研究的变量要求可以进行多次重复测量和试验,而地学变量难以实现。
d)经典统计学要求每次抽样(试验)是独立进行,相互独立的,而地学变量则并不互相独立,具有空间相关性。
21、区域化变量满足内蕴平稳的条件是什么?
三、综述题
1、简述趋势面分析方法。
(1)趋势面分析,是利用数学曲面模拟地理系统要素在空间上的分布及变化趋势的一种数学方法。
(2)它实质上是通过回归分析原理,运用最小二乘法拟合一个二维非线性函数,模拟地理要素在空间上的分布规律,展示地理要素在地域空间上的变化趋势。
(3)趋势面分析方法常常被用来模拟资源、环境、人口及经济要素在空间上的分布规律,它是在空间分析方面具有重要的应用价值。
(4)趋势面是一种抽象的数学曲面,它抽象并过滤掉了一些局域随机因素的影响,使地理要素的空间分布规律明显化。
(5)通常把实际的地理曲面分解为趋势面和剩余面两部分,前者反映地理要素的宏观分布规律,属于确定性因素作用的结果;而后者则对应于微观局域,是随机因素影响的结果。
(6)趋势面分析的一个基本要求,就是所选择的趋势面模型应该是剩余值最小,而趋势值最大,这样拟合度精度才能达到足够的准确性。
(7)空间趋势面分析,正是从地理要素分布的实际数据中分解出趋势值和剩余值,从而揭示地理要素空间分布的趋势与规律。
2、简述聚类分析。
(1)聚类分析就是分析如何对样品(或变量)进行量化分类的问题。
通常聚类分析分为Q型聚类和R型聚类。
Q型聚类是对样品进行分类处理,R型聚类是对变量进行分类处理。
(2)聚类分析是一种无监督的学习方法。
在进行聚类前,事先不需要知道所研究的样本分为多少类以及每一类有什么特征,聚类后再总结,再发现共同点。
(3)聚类分析的原理是根据研究对象的特性进行定量分类的一种多元统计方法。
又称簇分析、群分析等。
聚类依据是类内距离最小,类间距离最大等。
(4)聚类分析的基本思想是根据样品或变量之间的存在的不同程度的相似性,来划分其亲疏关系,实现分类。
聚类统计量的选择和计算是聚类分析的关键。
常用的聚类统计量有:
距离系数和相似系数两类。
(5)聚类分析的目的是寻找数据中潜在的自然分组结构和感兴趣的关系。
对样品的聚类称为Q型聚类,其目的:
对样品分类、利用谱系图显示更加精细和全面的分类结果、找到异常样本和典型样本,进行进一步的分析;对变量的聚类称为R型聚类,其目的:
了解变量之间的亲疏关系、对变量分类、根据分类结果,选取重要的或者典型的变量进行进一步的分析。
3、简述系统类聚分析法。
4、简述K均值聚类分析。
K均值算法的基本思想:
将每一个样品分配给最近中心(均值)的类中,具体的算法至少包括以下三个步骤:
1.将所有的样品分成K个初始类;
2.通过欧氏距离将某个样品划入离中心最近的类中,并对获得样品与失去样品的类,重新计算中心坐标;
3.重复步骤2,直到所有的样品都不能再分配时为止。
K均值法和系统聚类法的异同点:
相同:
K均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的
不同:
系统聚类对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数的聚类结果。
具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。
5、简述Surfer的插值方法。
(1)用微机绘制等值线,最关键一点的是对原始数据进行格网化插值。
格网化是指采用一定的格网化方法(即数学模型)对不规则分布的原始数据点进行插值,生成在原始数据分布X围内规则间距的数据点分布。
(2)数学模型是绘制等值线的核心。
(3)插值是把以XYZ数据文件格式表示的、通常是不规则分布的原始数据点,经过数学处理,构筑一个规则的空间矩形网格的过程。
原始数据的不规则分布,造成缺失数据的“空洞”。
插值则用外推或内插的算法填充了这些“空洞”。
(4)大多数情况下,采用加权平均插值算法,即所有其它参数相等的条件下,愈靠近结点(计算出的规则点)的数据(原始数据点),对计算该结点的Z值贡献愈大。
(5)插值方法分为两种:
精确插值(Exactinterpolators)和平滑插值(Smoothinginterpolators)。
视插值所用的数学模型和设定参数的不同,一种插值方法可以属于两种插值方法中的一种或另一种。
(6)精确插值指当网格结点正好位于原始数据点时,该结点的Z值等于此原始数据点的Z值。
对于加权平均内插算法,这就意味着此原始数据点的权重为1,而其它数据点对于该结点的权重为0。
增加网格密度,就增大了网格结点正好位于原始数据点的可能性。
(7)平滑插值用于并不十分依赖原始数据,只试图了解Z值的总体变化趋势的情况。
平滑插值不会给任何数据点以权重1,即使某网格结点正好位于原始数据点。
(8)每一种插值的方法都有自己的一组设置。
对于每种方法来说,数据处理和方向性都是类似的。
6、简述距离倒数乘插值方法。
(1)距离倒数乘方格网化方法是一个加权平均插值法,可以进行精确的或者光滑的方式插值。
方次参数控制着权系数如何随着离开一个格网结点距离的增加而下降。
对于一个较大的方次,较近的数据点被给定一个较高的权重份额,对于一个较小的方次,权重比较均匀地分配给各数据点。
(2)计算一个格网结点时给予一个特定数据点的权值与指定方次的从结点到观测点的距离倒数成比例。
当计算一个格网结点时,配给的权重是一个分数,所有权重的总和等于1。
当一个观测点与一个格网结点重合时,该观测点被给予一个实际为1的权重,所有其它观测点被给予一个几乎为0的权重。
换言之,该结点被赋给与观测点一致的值。
这就是一个准确插值。
(3)距离倒数法的特征之一是要在格网区域内产生围绕观测点位置的“牛眼”“bull‘s-eye”effect。
(4)用距离倒数格网化时可以指定一个光滑参数。
大于零的光滑参数保证,对于一个特定的结点,没有哪个观测点被赋予全部的权值,即使观测点与该结点重合也是如此。
光滑参数通过修匀已被插值的格网来降低“牛眼”影响。
7、简述克里金法。
(1)克里金法是一种在许多领域都很有用的地质统计格网化方法。
克里金法试图表示隐含在你的数据中的趋势,例如,数据中的高点(山脊)会互相连接,而不是形成一个个的孤立“牛眼”。
(2)克里金法中包含了几个因子:
变化图模型,漂移类型和矿块效应。
(3)变异图模型(VariogramModel):
用来确定插值每一个结点时所用数据点的邻域,以及在计算结点时给予数据点的权重。
(4)矿块效应(NuggetEffect)用于在收集数据时存在潜在错误的情况下。
指定矿块效应会导致Kriging方法产生更为光滑的插值,即个别数据点吻合较差但反映了全体数据的整体趋势。
矿块效应愈高,产生的网格愈光滑。
矿块效应有两部分构成:
矿块效应=误差方差+微方差
(5)每一种模型都有Slope,Scale,Length等参数要求设定。
比例系数(变异图方程中的C)用来确定所选择的变异图模型的sill,除了线性变异图以外(没有sill),Sill等于矿块效应加变异图比例。
当你没有设定任何矿块效应值时,sill等于比例值。
(6)偏移类型(DriftType):
当对原始数据点分布的“空洞”和边界之外的点进行插值计算时,偏移类型功能将有明显影响。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机 地质学 中的 应用 复习资料