应用统计复习重点.docx
- 文档编号:11275496
- 上传时间:2023-02-26
- 格式:DOCX
- 页数:26
- 大小:366.79KB
应用统计复习重点.docx
《应用统计复习重点.docx》由会员分享,可在线阅读,更多相关《应用统计复习重点.docx(26页珍藏版)》请在冰豆网上搜索。
应用统计复习重点
聚类分析
●做聚类分析时,层次聚类法、K-均值聚类法、以及两步聚类法三种方法。
应该如何选择层次聚类法、K-均值聚类法?
首先看数据类型:
如果参与分类的变量是连续变量,则三种方法都适用;如果变量中包含离散变量,则
需要先对离散变量进行标准化处理,否则应该适用两步聚类法。
再看数据量:
当数据量较少时(如<100),三种方法都适用;当数据量较多时(如>1000),则应该
考虑K-均值法或者两步聚类法。
最后看分类对象:
对样本分类,三种方法都适用;对变量分类,应选择层次聚类法。
●Q聚类主要针对什么进行分类?
R聚类主要针对什么分类?
Q聚类:
样本
R聚类:
变量
●对样本进行聚类分析中,点间距离的计算有多种不同的计算公式,试写出三个不同的距离公式。
欧式距离Euclidean
平方欧式距离SquaredEuclidean
块距离Block
切比雪夫距离Chebychev
Minkovski距离
马氏距离
●对变量进行聚类分析中,有哪两种测度相似度的方法?
夹角余弦
Pearson相关系数
●层次聚类法(系统聚类法)计算类间距离有多种方法,试写出两种方法。
●在聚类分析中,两个样品之间的距离主要有哪些种定义方法?
各有什么特点?
最短距离法(最近邻法):
首先合并最近的或最相似的两类,用两类间最近点的距离代表类间的距离。
最长距离法:
用两类间最远点的距离代表两类之间的距离。
重心法:
用两个类别的重心之间的距离来表示两个类别之间的距离。
组间平均距离法:
SPSS默认,是用两个类别中间各个数据点之间的距离的平均来表示两个类别之间的距离,既不是最大距离也不是最小距离。
离差平方和距离法:
常用,使各类别中的离差平方和较小,而不同类别之间的离差平方和较大。
●K-均值聚类是针对样品(CASE)的聚类还是针对变量的聚类?
K-均值聚类是否需要在聚类之前先做标准化处理?
K-均值聚类是针对样品(case)的聚类,需要单独做标准化处理,而后再进行聚类。
层次聚类事先不需要确定要分多少类,聚类过程一层层进行,最后得出所有可能的类别结果,研究这根据具体情况确定最后需要的类别。
该方法可以绘制出树状聚类图,方便使用者直观选择类别,但其缺点是计算量较大,对大批量数据的聚类效率不高
K-均值聚类事先需要确定要分的类别数据,计算量要小得多,效率比层次聚类要高,也被称为快速聚类(quickcluster)
要求在用于聚类的全部样本中,选择K个样本作为K个类别的初始聚类中心
K-均值聚类法是根据事先确定的K个类别反复迭代直到把每个样本分到指定的里类别中。
类别数目的确定具有一定的主主观性,究竟分多少类合适,需要研究者对研究问题的了解程度、相关知识和经验
●系统聚类和快速聚类的特点分别是什么?
系统聚类事先不确定要分多少类,而是先把每一个对象作为一类,然后一层一层进行分类。
根据运算的方向不同,层次聚类法又分为合并法和分解法,两种方法的运算原理一样,只是方向相反。
(事先无须知道分类对象的分类结构,而只需要一批数据;然后选好分类统计量,并按一定的方法步骤进行计算;最后便能自然地、客观地得到一张完整的分类系统图。
)
快速聚类法是根据事先确定的K个类别反复迭代直到把每个样本分到指定的里类别中。
类别数目的确定具有一定的主主观性,究竟分多少类合适,需要研究者对研究问题的了解程度、相关知识和经验。
(处理速度快,占用内存少,适用于大样本的聚类分析。
)
●七个样品之间的相似系数矩阵如下,试对这七个样品进行聚类,并画出谱系图。
答案:
判别分析
●简述Fisher’s判别的原理。
建立Fisher判别函数的准则是什么?
Fisher判别,亦称典则判别,是将自变量投影到较低维度的空间,再进行分类。
相当于将自变量先提取几个主成分,只需根据主成分分类。
Fisher准则:
使得综合指标Z在A类的均数
与在B类的均数
的差异
尽可能大,而两类内综合指标Z的变异
尽可能小)
●对Bayes判别法与Fisher判别法作比较
(1)当k个总体的均值向量
共线性程度较高时,Fisher判别法可用较少的判别函数进行判别,因而比Bayes判别法简单。
另外,Fisher判别法未对总体的分布提出什么特定的要求。
(2)Fisher判别法的不足是它不考虑各总体出现概率的大小,也给不出预报的后验概率及错判率的估计以及错判之后造成的损失。
而这不足恰是Bayes判别法的优点,但值得指出的是,如果给定的先验概率不符合客观实际时,Bayes判别法也可能会导致错误的结论。
●判别分析的求解步骤
●常用判别方法
1)距离判别法:
基本思想是,先根据已知分类的数据,分别计算各类的重心,然后计算待判样本与各类的距离,与哪一类距离最近,就判待判样本x属于哪一类。
判别函数为:
W(x)=D(x,G2)-D(x,G1)
判别准则为:
注意:
距离一般采用马氏距离;适合对自变量均为连续变量的情况进行分类;对各类的分布无特定的要求。
2)Fisher判别法:
基本思想是通过将多维数据投影至某个方向上,投影的原则是将总体与总体之间尽可能分开,然后再选择合适的判别规则,将待判的样本进行分类判别。
所谓的投影实际上是利用方差分析的思想构造成一个或几个超平面,使得两组间的差别最大,每组内的差别最小。
费歇尔判别函数为:
判别准则:
Fisher判别对各类分布、方差都没有限制。
但当总体个数较多时,计算比较麻烦。
建立Fisher判别函数的准则是:
使得综合指标Z在A类的均数
与在B类的均数
的差异
尽可能大,而两类内综合指标Z的变异
尽可能小
3)Bayes判别法:
基本思想是:
设有两个总体,它们的先验概率分别为q1、q2,各总体的密度函数为f1(x)、f2(x),在观测到一个样本x的情况下,可用贝叶斯公式计算它来自第k个总体的后验概率为:
一种常用判别准则是:
对于待判样本x,如果在所有的P(Gk/x)中P(Gh/x)是最大的,则判定x属于第h总体。
通常会以样本的频率作为各总体的先验概率。
Bayes判别主要用于多类判别,它要求总体呈多元正态分布
4)逐步判别法:
逐步判别法与逐步回归法的基本思想类似,都是逐步引入变量,每引入一个“最重要”的变量进入判别式,同时也考虑较早引入判别式的某些变量,若其判别能力不显著了,应及时从判别式中剔除去,直到判别式中没有不重要的变量需要剔除,且也没有重要的变量要引入为止。
●
解读
上表为样品判别结果表,对每个样品给出了了大部分的判别结果,第一列为样品编号,第二列为所有样品的实际分组情况,第三列是通过判别函数预测的分组,包括训练样品的回判结果及待判样品的判别分组。
本例中样品全部判对,说明判别函数比较合理,一个待判样品的最终归类是判为第一组,表格最后3列则给出了所有样品的判别得分情况。
第一个表为未标准化的典则判别函数系数表,由此可得未标准化的判别函数为
U1(x)=0.610X1+0.051X2+0.158X3-4.852X4
第二个表为各类判别函数值的中心。
●已知判别类
和
的Fisher线性判别函数为:
,并且已知
,
,
,
。
用下列公式计算临界值:
,并判别新样品
属于哪一类?
主成分分析
●主成分分析的目的是什么?
(数据的压缩;数据的解释;常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释)
主成分分析是考虑各指标间的相互关系,利用降维的思想把多个指标转换成较少的几个相互独立的、能够解释原始变量绝大部分信息的综合指标,从而使进一步研究变得简单的一种统计方法。
它的目的是希望用较少的变量去解释原始资料的大部分变异,即数据压缩,数据的解释。
常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释。
●
设p个原始变量为,新的变量(即主成分)为,主成分和原始变量之间的关系表示为?
●在进行主成分分析时是否要对原来的p个指标进行标准化?
SPSS软件是否能对数据自动进行标准化?
标准化的目的是什么?
(标准化的目的是消除变量在水平和量纲上的差异造成的影响)
需要进行标准化,因为因素之间的数值或者数量级存在较大差距,导致较小的数被淹没,导致主成分偏差较大,所以要进行数据标准化;
进行主成分分析时SPSS可以自动进行标准化;
求解步骤
对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响
根据标准化后的数据矩阵求出相关系数矩阵
求出协方差矩阵的特征根和特征向量
确定主成分,并对各主成分所包含的信息给予适当的解释
●根据我国31个省市自治区2006年的6项主要经济指标数据,进行主成分分析,找出主成分并进行适当的解释:
(下面是SPSS的输出结果,请根据结果写出结论)
表一:
数据输入界面
表二数据输出界面a)
此表为相关系数矩阵,表示的是各个变量之间的相关关系,说明变量之间存在较强的相关系数,适合做主成分分析。
观察各相关系数。
若相关矩阵中的大部分相关系数小于0.3,则不适合作因子分析
表三数据输出界面b)
表三:
为各成分的公因子方差表,该表是选择主成分的主要依据。
ponent为各成分的序号;initialEigenvalues是初始特征值,total是各成分的特征值,%ofvariance是各成分的方差占总方差的百分比(贡献率)。
Cumulative%是累计贡献率,表明前几个成分可以解释总方差的百分数。
Extractionsums是因子提取结果。
一般来说,当特征根需大于1,主成分的累计方差贡献率达到80%以上的前几个主成分,都可以选作最后的主成分。
由表可知,第一个主成分的特征根为3.963,方差贡献率为66.052%,这表示第一个主成分解释了原始6个变量66.052%的信息,可以看出前两个成分所解释的方差占总方差的95.57%,仅丢失了4.43%的信息。
因此最后结果是提取两个主成分。
在extractionsumsofsquaredloadings一栏,自动提取了前两个公因子,因为前两个公因子就可以解释总方差的绝大部分95.6%。
表四数据输出界面c)
表四是表现各成分特征值的碎石图。
可以看出因子1与因子2,以及因子2与因子3之间的特征值之差值比较大。
而因子3、4、5之间的特征值差值都比较小,可以初步得出保留两个因子将能概括绝大部分信息。
明显的拐点为3,因此提取2个因子比较合适。
证实了表三中的结果。
碎石图(ScreePlot),从碎石图可以看到6个主轴长度变化的趋势。
实践中,通常选择碎石图中变化趋势出现拐点的前几个主成分作为原先变量的代表,该例中选择前两个主成分即可。
表五数据输出界面d)
表五是初始提取的因子载荷矩阵,它显示了原始变量与各主成分之间的相关系数,表中的每一列表示一个主成分作为原来变量线性组合的系数,也就是主成分分析模型中的系数aij。
比如,第一主成分所在列的系数0.670表示第1个主成分和原来的第一个变量(人均GDP)之间的线性相关系数。
这个系数越大,说明主成分对该变量的代表性就越大
第一主成分(ponent1)对财政收入,固定资产投资,社会消费品零售总额有绝对值较大的相关系数;第二主成分(ponent2)对人均gdp,年末总人口,居民消费水平有绝对值较大的相关系数。
可以分别对其进行命名。
因子分析
●
设p个原始变量为,要寻找的m个因子(m ●什么是变量共同度? 写出变量共同度的表达式。 什么是公共因子方差贡献率? 写出公共因子方差贡献率表达式。 变量共同度指该变量的方差(为1)可以由公共因子解释的百分比, 公共因子方差贡献率指该因子能解释的方差占全部变量方差的比例, ●因子分析中KMO检验主要检验什么? KMO越接近1,变量间的______越强。 KMO在____以上,说明该问题适合做因子分析。 用于检验变量间的偏相关性,KMO统计量的取值在0~1之间 如果统计量取值越接近1,变量间的偏相关性越强,因子分析的效果就越好 KMO统计量在0.7以上时,因子分析效果较好;KMO统计量在0.5以下时,因子分析效果很差 ●因子分析中公因子个数确定的依据是什么? 因子分析中因子旋转(factorrotation)的目的是什么? 什么是因子得分(factorscore)? (特征根大于1或碎石图上下降速度较快的特征根的数目;使因子载荷系数向1或0靠近,实际意义方便解释;) 因子数量的确定 用公因子方差贡献率提取: 与主成分分析类似,一般累计方差贡献率达到80%以上的前几个因子可以作为最后的公因子。 用特征根提取: 一般要求因子对应的特征根要大于1,因为特征根小于1说明该共因子的解释力度太弱,还不如使用原始变量的解释力度大。 实际应用中,因子的提取要结合具体问题而定,在某种程度上,取决于研究者自身的知识和经验 因子旋转(factorrotation)的目的是使因子的含义更加清楚,以便于对因子的命名和解释旋转的方法有正交旋转和斜交旋转两种。 因子得分(factorscore)是每个因子在每个样本上的具体取值,它由下列因子得分函数给出。 ●根据我国31个省市自治区2006年的6项主要经济指标数据,进行因子分析,对因子进行命名和解释,并计算因子得分和排序 表一数据输入界面: 表二因子分析SPSS输出界面a) KMO统计量为0.695,接近0.7,表明6个变量之间有较强的相关关系。 适合作因子分析。 Bartlett球度检验统计量为277.025。 检验的P值接近0,拒绝原假设,认为相关系数与单位阵有显著差异。 可以因子分析。 表三因子分析SPSS输出界面b) 表三为公因子提取前和提取后的公因子方差表,initial列提取因子前的各变量的公因子方差;extraction列是按特定条件(如特征值>1)提取公因子时的公因子方差,表中的公因子方差都很高,说明提取的成分能很好的描述这些变量。 所有变量的共同度量都在80%以上,因此,提取出的公因子对原始变量的解释能力应该是很强的。 变量xi的信息能够被k个公因子解释的程度 表四因子分析SPSS输出界面c) 表四为各成分的公因子方差。 各因子所解释的原始变量的方差。 ponent表示特征值按大小排序的因子编号。 Initial下分别给出了相关系数矩阵的特征值、方差贡献率和累计方差贡献率。 Extraction是所提取的公因子未经旋转情况下的特征值,方差贡献率和累计方差贡献率。 Rotation项下是旋转后的。 “RotationSumsofSquaredLoadings”部分是因子旋转后对原始变量方差的解释情况。 旋转后的累计方差没有改变,只是两个因子所解释的原始变量的方差发生了一些变化。 95.57%表明提取的两个公共因子的方差可以解释总方差的95.57%。 第j个公因子对变量xi的提供的方差总和,反映第j个公因子的相对重要程度. 表四因子分析SPSS输出界面d) 旋转后因子载荷矩阵。 第一个因子与年末总人口、固定资产投资、社会消费品零售总额、财政收入这几个载荷系数较大,主要解释了这几个变量。 从实际意义上看,可以把因子1姑且命名为“经济水平”因子。 而第二个因子与人均GDP、居民消水平这两个变量的载荷系数较大,主要解释了这两个变量,从实际意义看,可以将因子2姑且命名为“消费水平”因子 表五因子分析SPSS输出界面e) 表五是因子得分系数矩阵。 根据因子得分和原始变量的标准化值可计算每个观测量的各因子的分数。 区别 ●简述判别分析与聚类分析的区别。 A.基本思想不同 聚类分析基本思想: 我们所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系),于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的计量,以这些统计量作为划分类型的依据。 判别分析基本思想: 对已知分类的数据建立由数值指标构成的分类规则即判别函数,然后把这样的规则应用到未知分类的样本去分类。 B.聚类分析与判别分析对数据要求不同 聚类分析并不是一种纯粹的统计技术,其方法基本上与分布理论和显著性检验无关,一般不从样本推断总体。 判别分析中,对于分布理论非常关注,它有一个基本假设: 每一个类别都应取自一个多元正态总体的样本,而且所有正态总体的协方差矩阵或相关矩阵都假定是相同的,如果不相同,需要进行转换。 C.在市场研究中,应用范围有所不同: 聚类: 市场细分、研究消费者行为、设计抽样方案、寻找新的潜在市场、选择试验市场、作为多元分析的预处理 判别: 在市场研究中主要用于对一个企业进行市场细分,以选择目标市场,有针对性 的进行广告、促销等活动。 D.分类依据不同: 聚类依据距离或相似系数分类;判别依据判别函数或后验概率分类。 ●简述因子分子与主成分分析的区别。 (1)目的不同: 因子分析把诸多变量看成由对每一个变量都有作用的一些公共因子和仅对某一个变量有作用的特殊因子线性组合而成,因此就是要从数据中控查出对变量起解释作用的公共因子和特殊因子以及其组合系数;主成分分析只是从空间生成的角度寻找能解释诸多变量变异的绝大部分的几组彼此不相关的新变量(主成分)。 (2)线性表示方向不同: 因子分析是把变量表示成各公因子的线性组合;而主成分分析中则是把主成分表示成各变量的线性组合。 (3)假设条件不同: 主成分分析中不需要有假设;因子分析的假设包括: 各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。 (4)提取主因子的方法不同: 因子分析抽取主因子不仅有主成分法,还有极大似然法,主轴因子法,基于这些方法得到的结果也不同;主成分只能用主成分法抽取。 (5)主成分与因子的变化: 当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的;而因子分析中因子不是固定的,可以旋转得到不同的因子。 (6)因子数量与主成分的数量: 在因子分析中,因子个数需要分析者指定(SPSS根据一定的条件自动设定,只要是特征值大于1的因子主可进入分析),指定的因子数量不同而结果也不同;在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分(只是主成分所解释的信息量不等)。 (7)功能: 和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势;而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。 当然,这种情况也可以使用因子得分做到,所以这种区分不是绝对的。 (8)模型的生成不同: 主成分需要的不是因子载荷量而是特征向量;而因子分析采用因子载荷量得到因子模型。 简洁答法: 主成分分析与因子分析的区别: (1)在因子模型中,除了公共因子,还有特殊因子。 公共因子只解释了原来变量的部分方差;而主成分解释了变量全部方差。 (2)公共因子往往可以找到实际意义,如找不到可通过旋转后再解释。 主成分往往不能解释实际意义。 其他 ●写出多元回归模型的基本假定(高斯假定)。 1.正态性假设: 随机误差项服从正态分布。 随机误差项εi服从均值为0,方差为σ2的正态分布。 2.等方差假设: 误差项的方差为常数,即对所有的t总有Var(ut)=E(ut2)=。 对所有xi,εi的条件方差同为σ2,且σ为常数,即Var(εi/xi)=σ2 3.独立性假设即零均值假设: 误差项的期望值等于0,即对所有的t总有E(ut)=0在给定xi的条件下,εi的条件期望值为0,即E(εi)=0 4.无自相关性假设: 误差项之间不存在序列相关关系,其协方差为零。 随机误差项ε的逐次观察值互不相关,即Cov(εi,εj)=0(i≠j) 5.ε与x的不相关性。 自变量是给定的变量,与随机误差项线性无关。 假设随机误差项εi与相应的自变量xi对因变量y的影响相互独立。 换言之,两者对因变量y的影响是可以区分的。 即Cov(εi,xi)=0 6.无多重共线性。 各自变量之间不存在较强的线性关系 ●在建立回归模型时要避免出现多重共线性(multicollinearity)。 多重共线性是指什么? 判断多元回归模型中是否存在多重共线性的判断指标有哪些,它们的判断标准是什么? 多重共线性是指回归模型中两个或两个以上的自变量彼此相关。 容许度: Toli=1-㎡,其值介于0-1之间,值越小自变量间共线性越强。 Toli<0.1或0.2,说明存在共线性; 方差膨胀因子: VIF=1/(1-㎡),是容许度倒数,其值介于1-∞,值越大,共线性越强。 VIF ≥5可能,VIF≥10,存在严重的共线性问题; 条件指数: 其值越大,共线性可能性越大,一般认为,条件指数≥15时,可能存在共线性,当条件指数≥30时,存在严重的共线性问题; 特征值: 当若干特征值较小并且接近于零,说明某些变量之间存在很高的相关性。 方差比例: 比例越大,共线性的可能性越大; 判断标准: Toli<0.1或0.2;VIF≥5或10;特征值接近0;条件指数≥30 解决方案: ·从有共线性问题的自变量中剔除不重要的自变量; ·增加样本量; ·重新抽取样本数据; ·逐步回归、剔除变量。 ●建立回归模型时的计量经济学检验主要检验哪些指标? 随机误差项序列存在异方差性; 随机误差项序列存在序列相关性; 解释变量(自变量)之间存在多重共线性; 解释变量与随机误差项有相关性。 ●简述多元线性回归中,写出两种多重共线性的诊断方法和解决方案。 诊断方法: 容许度小于0.1或0.2,方差膨胀因子大于5或10,特征值接近于零,或条件指数大于30: . 多重共线性的解决方法 1)排除引起共线性的变量,找出引起多重共线性的解释变量,将它排除出去,以逐步回归法得到最广泛的应用。 2)减小参数估计量的方差: 岭回归法(RidgeRegression)。 3)主成分回归;偏最小二乘回归 对多重共线性的两点认识: 消除多重共线性的方法: 1.增加样本容量 2.利用先验信息改变 3.删除不必要的解释变量: 参数的约束形式 4.其它方法: 逐步回归法,岭回归(ridgeregression),主成分分析(principalponents). ●一家大型商业银行在多个地区设有分行,为弄清楚不良贷款形成的原因,抽取了该银行所属的25家分行2002年的有关业务数据。 试建立不良贷款y与贷款余额x1、累计应收贷款x2、贷款项目个数x3和固定资产投资额x4的线性回归方程,并解释各回归系数的含义。 上表是计算机输出的结果。 试写出多元线性回归模型,并进行统计学检验。 概述表中,看到RSquare=0.7976,AdjustedRSquare=0.7571表示模型的拟合优度很好。 方差分析表中,对方程的显著性检验,F对应的sig=1.035E-06,小于0.05,说明回归方程有统计意义。 Coefficients是各个变量的系数,由P-value值可以判定,只有变量1的p-value小于0.05,说明变量1与应变量y有显著相关关系。 回归模型: Y=0.04*XVariable1-1.0216. ●简述logistic回归的原理和适用条件。 Logistic回归,是指应变量为二级计分或二类评定的回归分析。 应变量Y是一个二值变量 自变量X1,X2,……,Xm P表示在m个自变量作用下事件发生的概率。 适用条件: 因变量只有两个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 统计 复习 重点
![提示](https://static.bdocx.com/images/bang_tan.gif)