应用多元统计分析真题精选.docx
- 文档编号:10838650
- 上传时间:2023-02-23
- 格式:DOCX
- 页数:28
- 大小:1.01MB
应用多元统计分析真题精选.docx
《应用多元统计分析真题精选.docx》由会员分享,可在线阅读,更多相关《应用多元统计分析真题精选.docx(28页珍藏版)》请在冰豆网上搜索。
应用多元统计分析真题精选
应用多元统计分析真题精选
[填空题]
1经验回归模型中,要想获得理想的参数估计值,需要注意一些什么问题?
参考答案:
(1)选择参数
分别是模型参数
的无偏估计,期望等于模型参数;
(2)选择参数是随机变量y的线性函数
要想获得理想的参数估计,必须注意由于方差的大小表示随机变量取值的波动性大小,因此自变量的波动性能够影响回归系数的波动性,要想使参数估计稳定性好,必须尽量分散地取自变量并使样本个数尽可能大。
[填空题]
2如何确定回归分析中变量之间的交互作用?
存在交互作用时,偏回归系数的意义与不存在交互作用的情形下是否相同?
为什么?
参考答案:
交互作用是指因素之间联合搭配对试验指标的影响作用,存在交互作用是,偏回归系数肯定与不存在是的系数不同,毕竟变量之间有相互影响的关系。
[填空题]
3逐步判别的基本思想是什么?
参考答案:
逐步判别的基本思想:
其与逐步回归法类似,都是采用“有进有出”的算法,即逐步引入一个“最重要”的变量进入判别式,同时对先引入的判别式进行检验,如果其判别能力随着新引入的变量显著性降低,则该因素应该被剔除,直到变量全部进入为止。
[填空题]
4快速聚类法(K—均值法)的基本思想是怎样的?
参考答案:
如果待分类样品比较多,应先给出一个大概的分类,然后不断对其进行修正,一直到分类结果比较合理为止。
[填空题]
5对于任何情形的多个变量,都可以采取主成分方法降维吗?
为什么?
参考答案:
肯定不是,必须要满足适合主成分分析的要求才可以降维。
举个简单的例子,其适用范围是各个变量之间应该具有比较强的相关性,如果多个变量均为各项同性,则主成分分析效果不明显。
[填空题]
6因子分析的基本目的和用途是什么?
参考答案:
目的:
利用降维的思想,从研究原始变量相关矩阵内部结构出发,把一些具有错综复杂关系的变量归结为少数几个综合因子;
用途:
对变量进行分类,根据因子得分值在其轴所构成的空间中吧变量点画出来,从而分类。
[填空题]
7有序样品的最优分别法的基本思想是怎样的?
参考答案:
将n个样品看成一类,然后根据分类的误差函数逐渐增加分类,寻求最优分割,用分段的方法找出使组内离差平方和最小的分割点。
[填空题]
8如何确定公共因子数目?
参考答案:
确定公共因子数目可以用方差累计贡献率,一般只要前几个达到80%即可,或者碎石图也可以确定。
[填空题]
9简述多元尺度分析在工作中的应用。
参考答案:
多元尺度分析(Multi-dimensionAnalysis)是市场研究的一种有力手段,是市场调查、分析数据的统计方法之一。
它可以通过低维空间(通常是二维空间)展示多个研究对象(比如品牌)之间的联系,利用平面距离来反映研究对象之间的相似程度。
由于多维尺度分析法通常是基于研究对象之间的相似性(距离)的,只要获得了两个研究对象之间的距离矩阵,我们就可以通过相应统计软件做出他们的相似性知觉图。
在实际应用中,距离矩阵的获得主要有两种方法:
一种是采用直接的相似性评价,先对所有评价对象进行两两组合,然后要求被访者对所有的这些组合间进行直接相似性评价,这种方法我们称之为直接评价法;另一种为间接评价法,由研究人员根据事先经验,找出影响人们评价研究对象相似性的主要属性,然后对每个研究对象,让被访者对这些属性进行逐一评价,最后将所有属性作为多维空间的坐标,通过距离变换计算对象之间的距离。
多维尺度分析的主要思路是利用对被访者对研究对象的分组,来反映被访者对研究对象相似性的感知,这种方法具有一定直观合理性。
在工作中,通过多维尺度分析,可以将消费者对商品相似性的判断产生一张能够看出这些商品间相关性的图形。
例如:
有十个百货商场,让消费者排列出对这些百货商场两两间相似的感知程度,根据这些数据,用多维尺度分析,可以判断消费者认为哪些商场是相似的,从而可以判断竞争对手。
用于反映多个研究事物间相似(不相似)程度,通过适当的降维方法,将这种相似(不相似)程度在低维度空间中用点与点之间的距离表示出来,并有可能帮助识别那些影响事物间相似性的潜在因素。
这种方法在市场研究中应用得非常广泛。
[填空题]
10如何确定聚类分析的分类数目?
参考答案:
按理来说聚类分析的分类数目是事先不知道的,但是在实际应用中,应该根据相关专业知识确定分类数目,结合聚类统计量参考确定,并使用误判定理具体分析。
[填空题]
11聚类分析对变量与样本规模有何要求?
参考答案:
聚类分析要求其样本规模较大,需要变量之间相关性较弱,变量个数小于样本数。
[填空题]
12利用因子分析方法分析下列30个学生成绩的因子构成,并分析各个学生较适合学文科还是理科。
参考答案:
令数学成绩为X1,物理为X2 ,化学为X3 ,语文为X4 ,历史为X5,英语为X1,用spss分析学生成绩的因子构成的步骤如下:
1.在SPSS窗口中选择Analyze→Data Reduction→Factor,调出因子分析主界面,并将六个变量移入Variables框中。
2.点击Descriptives按钮,展开相应对话框,见图2。
选择Initial solution复选项。
这个选项给出各因子的特征值、各因子特征值占总方差的百分比以及累计百分比。
单击Continue按钮,返回主界面。
3.点击Extraction按钮,设置因子提取的选项,见图3。
在Method下拉列表中选择因子提取的方法,SPSS提供了七种提取方法可供选择,一般选择默认选项,即“主成分法”。
在Analyze栏中指定用于提取因子的分析矩阵,分别为相关矩阵和协方差矩阵。
在Display栏中指定与因子提取有关的输出项,如未旋转的因子载荷阵和因子的碎石图。
在Extract栏中指定因子提取的数目,有两种设置方法:
一种是在Eigenvalues over后的框中设置提取的因子对应的特征值的范围,系统默认值为1,即要求提取那些特征值大于1的因子;第二种设置方法是直接在Number of factors后的矩形框中输入要求提取的公因子的数目。
这里我们均选择系统默认选项,单击Continue按钮,返回主界面。
4.点击Rotation按钮,设置因子旋转的方法。
这里选择Varimax(方差最大旋转),并选择Display栏中的Rotated solution复选框,在输出窗口中显示旋转后的因子载荷阵。
单击Continue按钮,返回主界面。
5.点击Scores按钮,设置因子得分的选项。
选中Save as variables复选框,将因子得分作为新变量保存在数据文件中。
选中Display factor score coefficient matrix复选框,这样在结果输出窗口中会给出因子得分系数矩阵。
单击Continue按钮返回主界面。
6. 单击OK按钮,运行因子分析过程。
结果分析:
从表1中可以看出,每个因子在不同原始变量上的载荷没有明显的差别,为了便于对因子进行命名,需要对因子载荷阵进行旋转,得表2。
经过旋转后的载荷系数已经明显地两极分化了。
第一个公共因子在后三个指标上有较大载荷,说明这三个指标有较强的相关性,可以归为一类,属于文科学习能力的指标;第二个公共因子在前三个指标上有较大载荷,同样可以归为一类,这三个指标同属于理科学习能力的指标。
根据表3易得:
[填空题]
13系统(谱系)聚类法包含哪些具体方法?
参考答案:
先将待聚类的n个样品(或变量)各自看成一类,共有n类,然后按照事先选定的聚类方法计算每两类之间的聚类统计量,即某种距离(或者相似系数),将关系最密切的两类并为一类,其余不变,即的n-1类,再按照前面的计算方法计算新类与其他类之间的距离(或者相似系数),再将关系最密切的两类归为一类,其余不变,即得n-2类,继续下去,每次重复都减少一类,直到所有样品(或者变量)都归于一类。
[填空题]
14试述威尔克斯统计量在多元方差分析中的重要意义。
参考答案:
威尔克斯统计量在多元方差分析中是用于检验均值的统计量。
[填空题]
15有哪些常用的聚类统计量?
参考答案:
Q.型统计量:
对样本进行聚类,用“距离”来描述样本之间的接近程度;
R.型统计量:
对变量进行聚类,用“相似系数”来度量变量之间的近视程度。
[填空题]
16银行的贷款部门需要判别每个客户的信用好坏(是否未履行还贷责任),以决定是否给予贷款。
可以根据贷款申请人的年龄(X1)、受教育程度(X2)、现在所从事工作的年数(X3)、未变更住址的年数(X4)、收入(X5)、负债收入比例(X6)、信用卡债务(X7)、其它债务(X8)等来判断其信用情况。
下表是从某银行的客户资料中抽取的部分数据,⑴根据样本资料分别用距离判别法、Bayes判别法和Fisher判别法建立判别函数和判别规则。
⑵某客户的如上情况资料为(53,1,9,18,50,11.20,2.02,3.58),对其进行信用好坏的判别。
参考答案:
令已履行还贷责任为group0,未履行还贷责任为group1。
令(53,1,9,18,50,11.20,2.02,3.58)客户序号为11,group未知。
用spss解题步骤如下:
1. 在SPSS窗口中选择Analyze→Classify→Discriminate,调出判别分析主界面,将左边的变量列表中的“group”变量选入分组变量中,将X1—X6变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判别分析。
2. 点击Define Range按钮,定义分组变量的取值范围。
本例中分类变量的范围为0到1,所以在最小值和最大值中分别输入0和1。
单击Continue按钮,返回主界面。
3. 单击Statistics…按钮,指定输出的描述统计量和判别函数系数。
选中Function Coefficients栏中的Fisher’s和Unstandardized。
单击Continue按钮,返回主界面。
4. 单击Classify…按钮,定义判别分组参数和选择输出结果。
选择Display栏中的
C.asewise results,以输出一个判别结果表。
其余的均保留系统默认选项。
单击Continue按钮。
5. 返回判别分析主界面,单击OK按钮,运行判别分析过程。
1) 用费希尔判别法建立判别函数和判别规则:
未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比标准化的系数要方便一些。
具体见表4.3。
[填空题]
17聚类分析与判别分析有何异同?
参考答案:
聚类分析与与判别分析相同的地方是都是研究分组的问题;不同的是各自对于预先分组对象不一样,聚类分析是未知类别,判别分析是已知类别。
[填空题]
18为什么要进行回归方程的显著性检验?
参考答案:
对于任意给定的一组观测数据(xi1,xi2,...,xip;yi),(i=1,2,...,n) ,我们都可以建立回归方程。
但实际问题很可能y与自变量x1,x2,...,xp之间根本不存在线性关系,这时建立起来的回归方程的效果一定很差,即回归值yi实际上不能拟合真实的值yi。
即使整个回归方程的效果是显著的,在多元的情况下,是否每个变量都起着显著的作用呢?
因此还需要对各个回归系数进行显著性检验,对于回归效果不显著的自变量,我们可以从回归方程中剔除,而只保留起重要作用的自变量,这样可以使回归方程更简练。
[填空题]
19聚类分析的目的是什么?
参考答案:
聚类分析就是把某些方面相似的东西进行归类,以便从中发现规律性,达到认识客观事物规律的目的。
[填空题]
20简述Fisher判别法的基本思想
参考答案:
基本思想是投影。
将k组m元数据投影到某一个方向,使得投影后组与组之间尽可能地分开,其中利用了一元差分的思想导出判别函数。
这个函数可以是线性的,也可以是其他类型的函数。
贝叶斯判别法的基本思想
基本思想是假定对所研究是对象(总体)在抽样前就有一定的认识,常用先验概率分布来描述这种认识。
然后基于抽取的样本再对先验概率做修正,得到后验概率分布,再基于后验概率分布做判别分析。
[填空题]
21判别分析有哪些现实应用?
举例说明。
参考答案:
判别分析在实际中的应用无处不在。
例如我们根据各种经济指标把各个国家分为发达国家和发展中国家,通过这些指标成功的判定了一个国家的经济发展水平。
更多内容请访问《睦霖题库》微信公众号
[填空题]
22在进行系统聚类分析时,不同的类间距离计算方法有何区别?
请举例说明。
参考答案:
[填空题]
23逐步判别是如何选择判别变量的?
参考答案:
在判别分析中,并不是观测变量越多越好,而是选择主要变量进行判别分析,将各个变量在分析中起的不同作用,将影响力比较低的变量保留在判别式中,会增加干扰,影响效果。
因此选择显著判别力的变量来建立判别式就是逐步判别法。
[填空题]
24简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。
参考答案:
在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。
选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。
被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。
[填空题]
25有哪些影响判别效果的因素?
参考答案:
影响因素是个总体之间的差异程度,各个总体之间差异越大,就越有可能建立有效的判别准则,如果差异太小,则判别分析的意义不大;当各个总体服从多元正态分布,我们可以根据各总体的均值向量是否相等进行统计检验。
当然也可以检验各总体的协方差矩阵是否相等来采用判别函数。
[填空题]
26简述动态聚类法的基本思想和步骤,在实际应用中如何确定合理的聚类数目?
参考答案:
基本思想:
首先选择若干个样本作为聚类中心,再按照事先确定的聚类准则进行聚类。
在聚类过程中,根据聚类准则对聚类中心反复修改,直到分类合理为止。
步骤:
(1)选择凝聚点,凝聚点就是一批有代表性的样品。
可以凭经验选择,或将所有样品随机分成k份,计算每一类的均值,将这些均值作为凝聚点;也可以采用最大最小原则或密度法。
(2)初始分类
(3)判断分类是否合理,若不合理,则修改分类,重复步骤
(2)
(4)至分类结果合理,结束分类。
聚类数目的真正确定在于研究的问题是什么,以及事先有无一个大致的判断标准。
分类的数目应该符合使用的目的。
确定聚类数的问题属于聚类有效性问题。
比如在模糊聚类分析中,可以根据方差分析理论,应用混合F统计量来确定最佳分类数。
[填空题]
27如何度量判别效果?
参考答案:
通过评价判别准则来度量判别效果,常用方法:
(1)误判率回代法;
(2)误判率交叉确认估计。
[填空题]
28如何诊断数据中的异常数据?
是否只要存在异常数据,都会对回归方程的参数估计以及预测效果造成较大的影响?
为什么?
参考答案:
在常规回归模型中,异常值是指对既定模型偏离较大的数据点。
通过建立数据删除模型来分析某一数据点对回归分析的影响,如果该点对回归方程估计量的影响超过临界值,那么就判定该点为异常值。
可以从残差分布的角度分析预测值与实际值之差的误差百分率的分布是否服从某种分布,并在该分布下检验误差百分率这列数据中的异常值。
可以根据杠杆值、库克距离、标准化回归系数的变化和标准化预测值的变化来探测解释变量中的异常值。
[填空题]
29判别分析对变量与样本规模有何要求?
参考答案:
判别分析对总体分布没有要求,但是判别分析的假设之一是要求每一个变量不能是其他判别变量的线性组合,即不能存在多重共线性。
[填空题]
30回归分析与相关分析的联系与区别是什么?
参考答案:
联系有回归分析和相关分析都是研究变量间关系的统计学课题。
区别有a.在回归分析中,变量y称为因变量,处在被解释的特殊地位。
在相关分析中,变量x和变量y处于平等的地位,即研究变量y与变量x的密切程度与研究变量x与变量y的密切程度是一回事。
b.相关分析中所涉及的变量y与变量x全是随机变量。
而在回归分析中,因变量y是随机变量,自变量x可以是随机变量也可以是非随机的确定变量。
C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。
而回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。
[填空题]
31判别分析与回归分析有何异同之处?
参考答案:
相同点:
这两种方法都有关于数据预测的功能;
不同点:
一般来讲判别分析功能是将样品归类,回归分析是探究样品对因变量的变动影响。
[填空题]
32试述K均值法与系统聚类有何区别?
试述有序聚类法的基本思想。
参考答案:
K均值法的基本思想是将每一个样品分配给最近中心(均值)的类中。
系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。
具体类数的确定,有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K均值法确定类数的参考。
[填空题]
33已知X=(X1,X2,X3)′的协差阵为
试进行主成分分析。
参考答案:
[填空题]
34有哪些常用的判别分析方法?
这些方法的基本原理或步骤是怎样的?
它们各有什么特点或优劣之处?
参考答案:
(1)距离判别法:
根据已知分类数据,分别计算各类的重心,即是分类的均值;判别方法是—对于任意一个样品,若它与第i类的重心距离最近,就认为它来自第i类;特点是对各类数据分布并无特定的要求
(2)Fisher判别法:
其基本思想是投影,将k组m元数据投影到某一个方向,使得投影后组与组之间尽可能分开,其中利用了一元方差分析的思想导出判别函数;其特点是对总体的分布没有特殊要求,是处理概率分布未知的一种方法。
(3)逐步判别法:
逐步引入一个“最重要”的变量进入判别式,同时对先引入判别式的一些变量进行检验,如果判别能力随着引入新变量而变得不显著,则将它从判别式中剔除,直到没有新的变量能够进入,依然没有旧变量需要剔除为止。
[填空题]
35判别分析的目的是什么?
参考答案:
在自然科学和社会科学研究中,研究对象用某种方法已经划分为若干类别,当得到一个新的样本数据时,要确定该样本属于已知的哪一类就要使用判别分析。
[填空题]
36什么是典型相关分析?
简述其基本思想。
参考答案:
典型相关分析是研究两组变量之间相关关系的一种多元统计方法。
用于揭示两组变量之间的内在联系。
典型相关分析的目的是识别并量化两组变量之间的联系。
将两组变量相关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系。
基本思想:
(1)在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。
即:
[填空题]
37利用回归方法解决实际问题的大致步骤是怎样的?
参考答案:
(1)根据预测目标,确定自变量和因变量;
(2)建立回归预测模型;
(3)进行相关分析;
(4)检验回归预测模型,计算预测误差;
(5)计算并确定预测值。
[填空题]
38在进行相应分析时,应注意哪些问题?
参考答案:
要注意通过独立性检验判定是否有必要进行相应分析。
因此在进行相应分析前应做独立性检验。
独立性检验中,H0:
因素A和因素B是独立的;H1:
因素A和因素B不独立
由上面的假设所构造的统计量为
[填空题]
39回归分析中的R2有何意义?
它能用来衡量模型优劣吗?
参考答案:
RR2是回归平方和与总离差平方和之比,作为评判一个模型拟合度的标准,称为样本决定系数,其值越接近1,意味着模型的拟合优度越高。
但是其不是衡量模型优劣唯一标准,增加自变量会使得自由度减少,因此需要引入自由度修正的复相关系数。
这些都需要视具体的情况而定。
[填空题]
40什么是典型变量?
它具有哪些性质?
参考答案:
在典型相关分析中,在一定条件下选取系列线性组合以反映两组变量之间的线性关系,这被选出的线性组合配对被称为典型变量。
具体来说,
[填空题]
41回归分析有哪些基本假定?
参考答案:
原基本假定H:
(1)假设回归方程不显著;
(2)假设回归系数不显著。
[填空题]
42设某客观现象可用X=(x1,x2,x3)′来描述,在因子分析时,从约相关阵出发计算出特征值为λ1=1.754,λ2=1,λ3=0.255,由于(λ1+λ2)/(λ1+λ2+λ3)≥85%,所以找前两个特征值所对应的公共因子即可,又知λ1,λ2对应的正则化特征向量分别为(0.707,-0.316,0.632)’及(0,0.899,0.4470)’,要求:
计算第一公因子对X 的“贡献”。
参考答案:
因为是从约相关阵计算的特征值,所以公共因子对X的“贡献”为g12=λ1=1.754.
[填空题]
43回归诊断可以大致确定哪些问题?
参考答案:
回归诊断大致确定并解决:
(1)回归方程的线性假定;
(2)是否存在多重共线性;
(3)误差项的正态性假定;
(4)误差项的独立性假设;
(5)误差项同方差假定;
(6)是否存在数据异常;
[填空题]
44设某客观现象可用X=(x1,x2,x3)′来描述,在因子分析时,从约相关阵出发计算出特征值为λ1=1.754,λ2=1,λ3=0.255,由于(λ1+λ2)/(λ1+λ2+λ3)≥85%,所以找前两个特征值所对应的公共因子即可,又知λ1,λ2对应的正则化特征向量分别为(0.707,-0.316,0.632)’及(0,0.899,0.4470)’,要求:
计算共同度hi2(i=1,2,3)
参考答案:
[填空题]
45回归分析中,假设检验的过程是怎样的?
参考答案:
检验过程:
(1)提出统计假设H0和H1;
(2)构造一个与H0相关的统计量,称其为检验统计量;
(3)根据其显著性水平的值,确定一个拒绝域;
(4)作出统计决断;
[填空题]
46设某客观现象可用X=(x1,x2,x3)′来描述,在因子分析时,从约相关阵出发计算出特征值为λ1=1.754,λ2=1,λ3=0.255,由于(λ1+λ2)/(λ1+λ2+λ3)≥85%,所以找前两个特征值所对应的公共因子即可,又知λ1,λ2对应的正则化特征向量分别为(0.707,-0.316,0.632)’及(0,0.899,0.4470)’,要求:
计算因子载荷矩阵A,并建立因子模型。
参考答案:
[填空题]
47回归分析中,假设检验依据的统计原理是什么?
参考答案:
假设性检验原理可以用小概率原理解释,通常认为小概率事件在一次试验中几乎不可能发生的,即对总体的某个假设是真实的,那么不支持这一个假设事件在一次试验中是几乎不可能发生的,要是这个事件发生了,我们就有理由怀疑这一假设的真实性,拒绝原假设。
[填空题]
48试分析因子分析模型与线性回归模型的区别与联系。
参考答案:
因子分析模型是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法的模型。
而线性回归模型回归分析的目的是设法找出变量间的依存(数量)关系, 用函数关系式表达出来。
因子分析模型中每一个变量都可以表示成公共因子的线性函数与特殊因子之和。
即
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 多元 统计分析 精选