多元统计分析课后练习答案Word文档下载推荐.docx
- 文档编号:14131370
- 上传时间:2022-10-19
- 格式:DOCX
- 页数:11
- 大小:56.82KB
多元统计分析课后练习答案Word文档下载推荐.docx
《多元统计分析课后练习答案Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《多元统计分析课后练习答案Word文档下载推荐.docx(11页珍藏版)》请在冰豆网上搜索。
马氏距离表示数据的协方差距离。
为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:
如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。
优点:
它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。
由标准化数据和中心化数据计算出的二点之间的马氏距离相同。
马氏距离还可以排除变量之间的相关性的干扰。
夸大了变化微小的变量的作用。
受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。
3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?
统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。
如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。
4、如果正态随机向量X(X1,X2,LXp)的协方差阵为对角阵,证明X的分量是相互独立的随机变量。
解:
因为X
(X1,X2,LXp)的密度函数为
f(x1,...,xp)
p
11/211
2Σexp2(xμ)Σ(xμ)
又由于Σ
Σ
Σ1
O
2p
222
12Lp
1
2
2O
a)求y12的分布
则f(x1,...,xp)
布。
(c)如果yy1且y~N(,),写出yy关于y1与y2的表达式,并
y2
写出y1y的分布。
解:
(a)由于y1~N(0,1),所以y1~(21)。
(b)由于y1~N(0,1),y2~N(3,4);
所以y223~N(0,1);
故yyy12(y223)2,且yy~(22)
第2章均值向量和协方差阵的检验
1、略
2、试谈Wilks统计量在多元方差分析中的重要意义。
3、题目此略
多元均值检验,从题意知道,容量为9的样本,总体协方差未知
假设H0:
0,H1:
0(n=9p=5)
检验统计量/(n-1)
T2n(X0)S1(X0)服从P,n-1的T2分布
统计量T2实际上是样本均值与已知总体均值之间的马氏距离再乘以n*(n-1)
这个值越大,相等的可能性越小,备择假设成立时,T2有变大的趋势,所以拒
绝域选择T2值较大的右侧部分,也可以转变为F统计量
零假设的拒绝区域{(n-p)/[(n-1)*p]}*T2>
Fp,np()
1/10*T2>
F5,4(5)
μ0=(6212.0132.8729729.515.78)'
样本均值(4208.7835.121965.8912.2127.79)'
(样本均值-μ0)'
=(-2003.232.25-1006.112.7112.01)
协方差矩阵(降维——因子分析——抽取)
Inter-ItemCovarianceMatrix
人均GDP(元)
三产比重(%)
人均消费(元)
人口增长(%)
文盲半文盲(%)
1020190.840
582.460
331693.531
-599.784
-6356.325
19.480
-105.464
6.625
43.697
125364.321
-213.634
-3130.038
6.099
25.410
196.884
协方差的逆矩阵
1.88034E-05-0.000440368-6.09781E-050.00279921-0.000625893
-0.000440370.207023949-0.000210374-0.0237044-0.06044981
-6.0978E-05-0.0002103740.00022733-0.01050190.003047474
0.002799208-0.023704352-0.0105018810.85288927-0.18139981
-0.00062589-0.060449810.003047474-0.18139980.070148804
计算:
边远及少数民族聚居区社会经济发展水平的指标数据.xls
T2=9*(-2003.232.25-1006.112.7112.01)*s^-1*(-2003.232.25-1006.112.7112.01)'
=9*50.11793817=451,06144353
F统计量=45.2>
6.2拒绝零假设,边缘及少数民族聚居区的社会经济发展水平与全国平均水平有显著差异。
4、略
第3章聚类分析
1.、聚类分析的基本思想和功能是什么?
聚类分析的基本思想是研究的样品或指标之间存着程度不同的相似性,于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量作为划分类型的依据,把一些相似程度较大的样品聚合为一类,把另外一些彼此之间相似程度较大的样品又聚合为另外一类,直到把所有的样品聚合完毕,形成一个有小到大的分类系统,最后再把整个分类系统画成一张分群图,用它把所有样品间的亲疏关系表示出来。
功能是把相似的研究对象归类。
2、试述系统聚类法的原理和具体步骤。
系统聚类是将每个样品分成若干类的方法,其基本思想是先将各个样品各看成一类,然后规定类与类之间的距离,选择距离最小的一对合并成新的一类,计算新类与其他类之间的距离,再将距离最近的两类合并,这样每次减少一类,直至所有的样品合为一类为止。
具体步骤:
1、对数据进行变换处理;
(不是必须的,当数量级相差很大或指标变量具有不同单位时是必要的)
2、构造n个类,每个类只包含一个样本;
3、计算n个样本两两间的距离ijd;
4、合并距离最近的两类为一新类;
5、计算新类与当前各类的距离,若类的个数等于1,转到6;
否则回4;
6、画聚类图;
7、决定类的个数,从而得出分类结果。
3、试述K-均值聚类的方法原理。
K-均值法是一种非谱系聚类法,把每个样品聚集到其最近形心(均值)类中,它是把样品聚集成K个类的集合,类的个数k可以预先给定或者在聚类过程中确定,该方法应用于比系统聚类法大得多的数据组。
步骤是把样品分为K个初始类,进行修改,逐个分派样品到期最近均值的类中(通常采用标准化数据或非
标准化数据计算欧氏距离)重新计算接受新样品的类和失去样品的类的形心。
重复这一步直到各类无元素进出。
4、试述模糊聚类的思想方法。
模糊聚类分析是根据客观事物间的特征、亲疏程度、相似性,通过建立模糊相似关系对客观事物进行聚类的分析方法,实质是根据研究对象本身的属性构造模糊矩阵,在此基础上根据一定的隶属度来确定其分类关系。
基本思想是要把需要识别的事物与模板进行模糊比较,从而得到所属的类别。
简单地说,模糊聚类事先不知道具体的分类类别,而模糊识别是在已知分类的情况下进行的。
模糊聚类分析广泛应用在气象预报、地质、农业、林业等方面。
它有两种基本方法:
系
统聚类法和逐步聚类法。
该方法多用于定性变量的分类。
5、略
第4章判别分析
1、应用判别分析应该具备什么样的条件?
答:
判别分析最基本的要求是,分组类型在两组以上,每组案例的规模必须至少在一个以上,解释变量必须是可测量的,才能够计算其平均值和方差。
对于判别分析有三个假设:
(1)每一个判别变量不能是其他判别变量的线性组合。
有时一个判别变量与另外的判别变量高度相关,或与其的线性组合高度相关,也就是多重共线性。
(2)各组变量的协方差矩阵相等。
判别分析最简单和最常用的的形式是采用现行判别函数,他们是判别变量的简单线性组合,在各组协方差矩阵相等的假设条件下,可以使用很简单的公式来计算判别函数和进行显著性检验。
(3)各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布,在这种条件下可以精确计算显著性检验值和分组归属的概率。
2、试述贝叶斯判别法的思路。
贝叶斯判别法的思路是先假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识(先验概率分布),得到后验概率分布,各种统计推断都通过后验概率分布来进行。
将贝叶斯判别方法用于判别分析,就得到贝叶斯判别。
3、试述费歇判别法的基本思想。
费歇判别法的基本思想是将高维数据点投影到低维空间上来,然而利用方差分析的思想选出一个最优的投影方向。
因此,严格的说费歇判别分析本身不是一种判别方法,只是利用费歇统计量进行数据预处理的方法,以使更有利于用判别分析方法解决问题。
为了有利于判别,我们选择投影方向a应使投影后的k个一元总体能尽量分开(同一总体中的样品的投影值尽量靠近)。
k要做到这一点,只要投影后的k个一元总体均值有显著差异,即可利用方差分析的方法使组间平方和尽可能的大。
则选取投影方向a使Δ(a)达极大即可。
4、什么是逐步判别分析?
具有筛选变量能力的判别方法称为逐步判别分析法。
逐步判别分析法就是先从所有因子中挑选一个具有最显著判别能力的因子,然后再挑选第二个因子,这因子是在第一因子的基础上具有最显著判别能力的因子,即第一个和第二个因子联合起来有显著判别能力的因子;
接着挑选第三个因子,这因子是在第一、第二因子的基础上具有最显著判别能力的因子。
由于因子之间的相互关系,当引进了新的因子之后,会使原来已引入的因子失去显著判别能力。
因此,在引入第三个因子之后就要先检验已经引入的因子是否还具有显著判别能力,如果有就要剔除这个不显著的因子;
接着再继续引入,直到再没有显著能力的因子可
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 课后 练习 答案