水文统计分析专升本.docx
- 文档编号:7207183
- 上传时间:2023-01-21
- 格式:DOCX
- 页数:14
- 大小:53.66KB
水文统计分析专升本.docx
《水文统计分析专升本.docx》由会员分享,可在线阅读,更多相关《水文统计分析专升本.docx(14页珍藏版)》请在冰豆网上搜索。
水文统计分析专升本
水文统计分析(专升本)
名词解释
1.趋势(5分)标准答案是:
时间序列呈持续向上或持续下降的状态或规律。
2.秩(5分)标准答案是:
设样本X1,X2,…,Xn是取自总体X的简单随机取样,X1,X2,…,Xn中不超过Xi的数据的个数,即
,称Ri为Xi的秩。
3.箱线图(5分)标准答案是:
由一组数据的最大值、最小值、中位数和两个四分位数5和特征值绘制而成的、反映原始数据分布的图形。
4.定序变量(5分)标准答案是:
定序变量是变量的一种,区别同一类别个案中等级次序的变量。
问答题
5.简述P-Ⅲ型理论曲线配线的基本步骤?
(10分)
标准答案是:
步骤为:
先对样本作降序排序;计算经验频率,作横坐标转换;计算样本均值,CV0,CS0;以均值,CV0,CS0为参数,计算P-Ⅲ分布理论频率曲线;作经验点,理论频率曲线图(在海森格纸),比较拟和是否满意;调整CV和CS值,直到拟合满意为止。
6.什么是多重共线性?
多重共线性带来什么问题?
(15分)
标准答案是:
多重共线性是指回归模型中两个或两个以上的自变量彼此相关;多重共线性带来的问题有:
可能会使回归的结果造成混乱,甚至会把分析引入歧途;可能对参数估计值的正负号产生影响,特别是各回归系数的正负号有可能同预期的正负号相反。
7.简述相关分析与回归分析的主要区别。
(10分)
标准答案是:
相关分析中,变量x变量y处于平等的地位;回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化;相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x是非随机的确定变量;相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。
8.何谓水文统计?
它在工程水文中一般解决什么问题?
(10分)
标准答案是:
对水文学中常用的数理统计方法有时就叫水文统计法。
水文统计的任务就是研究和分析水文随机现象的统计变化特性,并以此为基础对水文现象未来可能的长期变化做出在概率意义下的定量预估,以满足水利水电工程的规划、设计、施工以及运营期间的需要。
9.知资料y与x(表1),计算样本平均值,均方差
,相关系数r。
表2
编号
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
y
884
514
452
475
610
405
542
471
351
336
356
678
327
680
602
385
x
14.5
7.57
1.94
4.4
8.07
4.64
5.93
6.65
2.69
2.85
1.62
11.76
0.83
7.67
6.34
3.78
标准答案是:
10.Pearson和Spearman与Kendall秩相关系数有何区别?
(15分)
标准答案是:
Pearson积矩相关系数可用于描述2个随机变量的线性相关程度(相应的相关分析方法称为“参数相关分析”,该方法的检验功效高,检验结果明确);Spearman或Kendall秩相关系数用来判断两个随机变量在二维和多维空间中是否具有某种共变趋势,而不考虑其变化的幅度(相应的相关分析称为“非参数相关分析”,该方法的检验功效较参数方法稍差,检验结果也不如参数方法明确)。
如果所采集的数据不是确定的数值而仅仅是秩,则使用Spearman或Kendall秩相关系数进行非参数相关分析就成为唯一的选择。
名词解释
1.等值线(5分)标准答案是:
等值线是在所指定的表面上通过若干个点的连线,在这条线上的变量为定值。
2.结(5分)标准答案是:
设样本X1,X2,…,Xn是取自总体X的简单随机取样,将数据排序后,想同的数据点组成一个结。
3.虚拟变量(5分)标准答案是:
虚拟变量又称虚设变量、名义变量或哑变量,用以反映质的属性的一个人工变量,是量化了的自变量,通常取值为0或1。
4.相关分析(5分)标准答案是:
相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。
5.定类变量(5分)标准答案是:
定类变量是变量的一种,根据定性的原则区分总体各个案类别的变量。
问答题
6.简述水文序列的成分组成?
水文序列的随机性判断方法有哪些?
(10分)
标准答案是:
水文序列通常包含随机成份、季节成份、周期成份和趋势成份。
水文序列随机性判断的方法有:
转折点法、游程检验和肯德尔秩相关检验法。
7.某站年雨量系列符合P-Ⅲ型分布,经频率计算已求得该系列的统计参数:
均值P=900mm,Cv=0.20,Cs=0.60。
试结合表3推求百年一遇年雨量?
表3P-III型曲线Φ值表
P(%)
Cs
1
10
50
90
95
0.30
2.54
1.31
-0.05
-1.24
-1.55
0.60
2.75
1.33
-0.10
-1.20
-1.45
标准答案是:
已知T=100,由公式
,计算出P=1%;当Cs=0.6、P=1%时,查表得Φp=2.75
则
8.根据下图提供的信息,写出回归方程y=f(x1,x2)。
并进行检验(显著性、线性、多重共线性,写出残差分析的过程)。
根据给出的数值,对因变量进行预测,写出预测值。
(F0.05(2,4)=6.94,t0.025(4)=2.776;x1=20,x2=100)
(20分)
标准答案是:
回归方程为:
显著性检验:
(1)线性
F=46.56>F0.05(2,4)=6.94
线性关系显著
(2)回归系数
x1:
p=0.03<0.05,显著
x2:
p=0.84>0.05,不显著
存在多重共线性,可将变量2舍去,只建立一元线性回归方程。
预测:
y=23.5+38.6×20+0.4×100=835.5
残差分析:
将残差进行标准化,若大部分残差的绝对值小于2,则认为残差满足正态分布。
9.简述回归分析中误差平方和的组成及其意义。
(15分)
标准答案是:
回归分析中存在总平方和、回归平方和和残差平方和3种误差平方和。
总平方和反映因变量的n个观察值与其均值的总误差;回归平方和反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和;残差平方和反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和。
10.简述利用适线法估计PⅢ参数的过程,要写出判别标准。
(15分)
标准答案是:
适线法的过程:
首先利用经验概率公式和实测数据计算不同实测数据对应的概率;然后将其绘制在概率纸上;然后利用矩法初步估算三个经验参数,并计算理论PⅢ概率值,将在概率纸上绘制PⅢ理论曲线;目估理论值与实测点是否符合,若不符合,调整三个参数,直至拟合程度最好;拟合程度最好的标准是理论值与实测值之间的误差平方和最小。
名词解释
1.回归系数(5分)标准答案是:
回归系数是回归分析中度量依变量对自变量的相依程度的指标,它反映当自变量每变化一个单位时,依变量所期望的变化量。
2.函数关系(5分)标准答案是:
函数关系反映了现象之间存在着严格的依存关系,也就是具有确定性的对应关系,这种关系可用一个数学表达式反映出来。
3.重现期(5分)标准答案是:
指某水文变量的取值(x≥xm)在多少年内出现一次。
4.定距变量(5分)标准答案是:
定距变量是变量的一种,区别同一类别个案中等级次序及其距离的变量。
5.平稳序列(5分)标准答案是:
平稳序列是指联合概率分布函数不随时间改变的随机序列。
问答题
6.表3给出了某水文站监测的河流径流量,分别计算2阶和5阶移动平均法进行预测,并写出预测误差,并判断两种方法的好坏。
表3移动平均计算
年份 径流量/(m3/s) 2阶 预测误差 误差平方 5阶 预测误差 误差平方
1996 22
1997 20
1998 24
1999 18
2000 26
2001 19
2002 18
2003 23
2004 19
2005 (25分)
标准答案是:
年份径流量(m3/s) 2阶 预测误差 误差平方 5阶 预测误差 误差平方
1996 22
1997 20
1998 24 21 -3 9
1999 18 22 4 16
2000 26 21 -5 25
2001 19 22 3 9 22 3 9
2002 18 22.5 4.5 20.25 21.4 3.4 11.56
2003 23 18.5 -4.5 20.25 21 -2 4
2004 19 20.5 1.5 2.25 20.8 1.8 3.24
2005 21 21
2阶平均误差平方和为14.5,而5阶平均误差平方和为6.9,可以认为5阶移动平均比2阶移动平均预测结果好。
7.简述Pearson相关系数的局限性。
(15分)
标准答案是:
用于检验变量之间是否独立,并有检验的临界表供使用;临界表是在变量服从正态分布的假设下制作的,若正态分布存在疑问,其检验结果显然不可信。
反映的是线性相关,当X与Y的相关系数的绝对值比较小时,只是说明Y与X之间不存在明显的线性关系,并不能说明Y不随X的增大而增大或减小。
8.简述主成分分析的基本思想。
(10分)
标准答案是:
主成分的思想就是为了利用尽可能少的指标来反映含有众多指标的数据的信息,利用线性变化将原有指标组合成若干新指标,选取累积贡献率达85%以上的几个新指标来分析原始数据所体现的信息。
9.表1为5个样品的6个指标,利用主成分分析法提取主成分,其相关矩阵的特征根自大到小依次为:
{3.345 2.141 0.357 0.157 1.58E-17 -3.38E-16},表2列出了主成分分析后获得特征向量,选取主成分并写出其表达式;然后利用个样品的主成分的得分将其分为2类,绘制谱系图。
表1试验数据
IDx1 x2 x3 x4 x5 x6
G1 7 9 9 12 19 11
G2 8 12 11 13 18 14
G3 6 7 8 8 16 9
G4 5 9 12 9 15 8
G5 9 6 7 10 17 7
表2特征向量值
U1 U2 U3 U4 U5
0.22 -0.55 0.72 -0.24 0.23
0.46 0.37 0.10 -0.11 -0.41
0.16 0.63 0.37 0.30 0.58
0.53 -0.11 0.16 0.47 -0.45
0.43 -0.37 -0.49 0.38 0.46
0.51 0.13 -0.27 -0.69 0.17(25分)
标准答案是:
(1)计算累积贡献率:
由于后两个特征值非常小,可以忽略其贡献率,因此前4个主成分的贡献率分别为55.7%、35.7%、6.0%和2.6%,累积贡献率分别为55.7%,91.4%、97.4%和100%,因此选取前两个主成分;
(2)主成分表达式:
(3)主成分得分:
主成分G1G2G3G4G5z127.130.621.422.321.9z2-1.70.7-1.32.7-4.8
(4)利用主成分得分,用最短距离法进行聚类。
判断题
1.偶然现象是指事物在发展、变化中可能出现也可能不出现的现象?
(7分)标准答案是:
正确
2.随机事件的概率介于0与1之间?
(7分)标准答案是:
正确
3.百年一遇的洪水,每100年必然出现一次?
(7分)标准答案是:
错误
4.统计参数Cs是表示系列离散程度的一个物理量?
(7分)标准答案是:
错误
5.我国在水文频率分析中选用皮尔逊Ⅲ型曲线,是因为已经从理论上证明皮尔逊Ⅲ型曲线符合水文系列的概率分布规律?
(7分)标准答案是:
错误
6.正态分布的密度曲线与x轴所围成的面积应等于1?
(7分)标准答案是:
正确
7.改进水文测验仪器和测验方法,可以减小水文样本系列的抽样误差?
(7分)标准答案是:
错误
8.水文系列的总体是无限长的,它是客观存在的,但我们无法得到它?
(7分)标准答案是:
正确
9.水文频率计算中配线时,增大Cv可以使频率曲线变陡?
(7分)标准答案是:
正确
10.由于矩法计算偏态系数Cs的公式复杂,所以在统计参数计算中不直接用矩法公式推求Cs值?
(7分)
标准答案是:
错误
填空题
11.箱形图自下而上显示了数据的5个特征值___
(1)___、___
(2)___、___(3)___、___(4)___和___(5)___。
(6分)
(1).
标准答案是:
最小值
(2).
标准答案是:
下四分位数
(3).
标准答案是:
中位数
(4).
标准答案是:
上四分位数
(5).
标准答案是:
最大值
12.通常CS绝对值越大,分布就越___(6)___;CS绝对值越小,分布越___(7)___;CS=0,分布___(8)___。
(6分)
(1).
标准答案是:
不对称;
(2).
标准答案是:
接近对称
(3).
标准答案是:
完全对称
13.频率计算中,用样本估计总体的统计规律时必然产生___(9)___,统计学上称之为___(10)___。
(6分)
(1).
标准答案是:
误差
(2).
标准答案是:
抽样误差
14.对于我国大多数地区,频率分析中配线时选定的线型为___(11)___。
(6分)
(1).
标准答案是:
皮尔逊Ⅲ型
15.Cv我国水文界习惯称它为离势系数,常用它来描述各种水文气象变量的___(12)___。
(6分)
(1).
标准答案是:
离散程度
判断题
1.相关系数是表示两变量相关程度的一个量,若r=-0.95,说明两变量没有关系?
(6分)标准答案是:
错误
2.y倚x的直线相关其相关系数r<0.4,可以肯定y与x关系不密切?
(6分)标准答案是:
错误
3.相关系数也存在着抽样误差?
(6分)标准答案是:
正确
4.y倚x的回归方程与x倚y的回归方程,两者的回归系数总是相等的?
(6分)标准答案是:
错误
5.y倚x的回归方程与x倚y的回归方程,两者的相关系数总是相等的?
(6分)标准答案是:
正确
6.已知y倚x的回归方程为y=Ax+B,则可直接导出x倚y的回归方程为x=y/A-B/A(5分)
标准答案是:
错误
7.相关系数反映的是相关变量之间的一种平均关系?
(5分)标准答案是:
正确
8.相关系数为正表明因变量随自变量成正比例变化?
(5分)标准答案是:
错误
9.在回归分析中,如果某一个点与其他点所呈现的趋势不相吻合,这个点就是异常点?
(5分)标准答案是:
错误
10.在相关分析中,除了能进行数值化变量之间的相关分析外,还可以非数值变量之间的相关分析?
(5分)
标准答案是:
正确
填空题
11.相关分析中,依据变量之间的相关系数绝对值的大小,两变量之间存在___
(1)___、___
(2)___和___(3)___三种情况。
(5分)
(1).
标准答案是:
完全相关
(2).
标准答案是:
统计相关
(3).
标准答案是:
不相关
12.在水文分析计算中,回归分析的目的是___(4)___。
(5分)
(1).
标准答案是:
插补延长系列
13.确定y倚x的相关线的准则是___(5)___。
(5分)
(1).
标准答案是:
残余误差平方和最小
14.利用y倚x的回归方程展延资料是以___(6)___为自变量,展延___(7)___。
(5分)
(1).
标准答案是:
x
(2).
标准答案是:
y
15.Pearson相关系数反映的是2个变量之间的___(8)___,当X与Y的相关系数的绝对值比较小时,只是说明Y与X之间不存在明显的___(9)___,并不能说明Y不随X的增大而___(10)___。
(5分)
(1).
标准答案是:
线性相关
(2).
标准答案是:
线性关系
(3).
标准答案是:
增大或减小
16.相关系数虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有___(11)___。
(5分)
(1).
标准答案是:
因果关系
17.一元线性回归假定因变量y与自变量x之间具有___(12)___。
(5分)
(1).
标准答案是:
线性关系
18.判定系数R2反映了回归直线的___(13)___。
(5分)
(1).
标准答案是:
拟合程度
19.回归分析中用___(14)___可以检测异常值和有影响的观测值(5分)
(1).
标准答案是:
残差分析
判断题
1.只能对数值化变量进行回归分析?
(6分)标准答案是:
错误
2.总离差平方和可分解为回归平方和与残差平方和?
(6分)标准答案是:
错误
3.多重共线性只有在多元线性回归中才可能发生?
(6分)标准答案是:
正确
4.判定系数检验中,回归平方和占的比重越大,判定系数也越大?
(6分)标准答案是:
正确
5.整个多元回归模型在统计上是显著的意味着模型中任何一个单独的解释变量均是统计显著的?
(6分)
标准答案是:
错误
6.虚拟变量用来表示某些具有若干属性的变量?
(5分)标准答案是:
正确
7.马氏距离考虑了便了之间观测变量之间的相关性?
(5分)标准答案是:
正确
8.使用离差平方和法时,计算样品间的距离必须采用欧氏距离?
(5分)标准答案是:
正确
9.在几种系统聚类法中,最短(长)距离法、(可边)类平均法、重心法和离差平方和法都具有单调性,只有中间距离法不具有单调性?
(5分)标准答案是:
错误
10.快速聚类法又称为动态聚类法,是一种非谱系聚类法,它可以应用于比系统聚类法大得多的数据组?
(5分)
标准答案是:
正确
填空题
11.当各自变量之间存在___
(1)___时,就有可能造成某一个或者几个___
(2)___通不过检验,但这并不意味着没有通过检验的那些自变量对因变量的影响___(3)___,自变量之间的相关所造成的这种现象,在统计学上称为多重共线性。
(5分)
(1).
标准答案是:
高度相关
(2).
标准答案是:
回归系数
(3).
标准答案是:
不显著
12.多元回归分析中变量选择的方法主要有___(4)___、___(5)___、___(6)___和___(7)___等方法。
(5分)
(1).
标准答案是:
向前选择
(2).
标准答案是:
向后剔除
(3).
标准答案是:
逐步回归
(4).
标准答案是:
最优子集
13.由于自变量个数的增加,会使预测误差___(8)___,从而___(9)___残差平方和,导致决定系数___(10)___。
(1).
标准答案是:
变小
(2).
标准答案是:
减小;
(3).
标准答案是:
增大
14.偏相关分析在相关分析的基础上,还考虑了___(11)___的影响,其目的是消除其它变量关联性的___(12)___。
(1).
标准答案是:
其它因素
(2).
标准答案是:
传递效应
15.多重共线性的处理原则是将一个或多个相关的___(13)___从模型中剔除,使保留的自变量尽可能___(14)___
(1).
标准答案是:
自变量
(2).
标准答案是:
不相关
16.聚类分析是根据研究对象的___(15)___对其进行分类的多元分析技术的总称。
(5分)
(1).
标准答案是:
特征
17.对n个___(16)___进行聚类的方法称为Q型聚类,常用的统计量为“___(17)___”。
(5分)
(1).
标准答案是:
样品
(2).
标准答案是:
距离
18.对m个变量进行聚类的方法称为___(18)___聚类,常用的统计量为“___(19)___”。
(5分)
(1).
标准答案是:
R型
(2).
标准答案是:
相似系数
19.K均值聚类分析的基本思想是将每一个样品分配给___(20)___的类中。
(5分)
(1).
标准答案是:
最近中心
判断题
1.主成分分析可用于筛选回归变量?
(6分)标准答案是:
正确
2.因子载荷阵经过正交旋转后,各变量的共性方差和各个因子的贡献都发生了变化?
(6分)标准答案是:
错误
3.平稳序列基本上不存在趋势的序列,各观察值基本上在某个固定的水平上波动?
(6分)标准答案是:
正确
4.水文序列必定具有确定成分?
(6分)标准答案是:
错误
5.水文序列是否一定具有自相关性?
(6分)标准答案是:
错误
6.主成分分析能够反映原始数据的全部信息?
(5分)标准答案是:
错误
7.进行主成分分析,一般需要对数据进行处理,消除量纲的影响?
(5分)标准答案是:
正确
8.在进行主成分分析时,需要对相关矩阵的特征根依大小顺序排列?
(5分)标准答案是:
正
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 水文 统计分析