多元统计分析重点Word格式.docx
- 文档编号:20340502
- 上传时间:2023-01-22
- 格式:DOCX
- 页数:10
- 大小:98.04KB
多元统计分析重点Word格式.docx
《多元统计分析重点Word格式.docx》由会员分享,可在线阅读,更多相关《多元统计分析重点Word格式.docx(10页珍藏版)》请在冰豆网上搜索。
4)按模型中因变量的数量分为:
单因变量模型,多因变量模型,多层因果模型
第二讲:
计算均值、协差阵、相关阵;
相互独立性
第三讲:
主成分定义、应用及基本思想,主成分性质,主成分分析步骤
主成分定义:
何谓主成分分析就是将原来的多个指标(变量)线性组合成几个新的相互无关的综合指标(主成分),并使新的综合指标尽可能多地反映原来的指标信息。
主成分分析的应用:
(1)数据的压缩、结构的简化;
(2)样品的综合评价,排序
主成分分析概述——思想:
①
(1)把给定的一组变量X1,X2,…XP,通过线性变换,转换为一组不相关的变量Y1,Y2,…YP。
(2)在这种变换中,保持变量的总方差(X1,X2,…Xp的方差之和)不变,同时,使Y1具有最大方差,称为第一主成分;
Y2具有次大方差,称为第二主成分。
依次类推,原来有P个变量,就可以转换出P个主成分(3)在实际应用中,为了简化问题,通常找能够反映原来P个变量的绝大部分方差的q(q<
p)个主成分。
主成分性质:
1)性质1:
主成分的协方差矩阵是对角阵:
(2)性质2:
主成分的总方差等于原始变量的总方差(3)性质3:
主成分Yk与原始变量Xi的相关系数为:
(YK,Xi)=
tki,并称之为因子负荷量(或因子载荷量)。
主成分分析的具体步骤:
①将原始数据标准化;
②建立变量的相关系数阵;
③求的特征根为
,相应的特征向量为
;
④由累积方差贡献率确定主成分的个数
后的
,
是
与
的相关系数,它一方面表示
对
的依赖程度,绝对值越大,密切程度越高;
另一方面也反映了变量
对公共因子
的相对重要性。
了解这一点对我们理解抽象的因子含义有非常重要的作用。
2.变量共同度
的统计意义
设因子载荷矩阵为
,称第
行元素的平方和,即
(7.7)
为变量
的共同度。
由因子模型,知
(7.8)
这里应该注意,(7.8)式说明变量
的方差由两部分组成:
第一部分为共同度
,它描述了全部公共因子对变量
的总方差所作的贡献,反映了公共因子对变量
的影响程度。
第二部分为特殊因子
对变量
的方差的贡献,通常称为个性方差。
如果对
作了标准化处理,有
(7.9)
3、公因子
的方差贡献
列元素的平方和,即
为公共因子
的贡献,即
表示同一公共因子
对各变量所提供的方差贡献之总和,它是衡量每一个公共因子相对重要性的一个尺度。
因子分析模型及假设
数学模型:
每一个变量都可以表示成公共因子的线性函数与特殊因子之和,即:
Xi=ai1*F1+a12*F2+…+aim*Fm+
i(i=1,2,…,p)式中的F1,F2,…Fm称为公共因子,
i称为Xi的特殊因子。
该模型可用矩阵表示为:
X=AF+
且满足:
(1)m
p
(2)Cov(F,
)=0,即公共因子与特殊因子是不相关的;
(3)DF=D(F)=
=Im,即各个公共因子不相关且方差为1;
(4)D
=D(
)=
,即各个特殊因子不相关,方差不要求相等。
因子旋转
因子旋转的目的:
初始因子的综合性太强,难以找出因子的实际意义,因此需要通过坐标旋转,使因子负荷两极分化,要么接近于0,要么接近于
1,从而降低因子的综合性,使其实际意义凸现出来,以便于解释因子。
因子旋转的基本方法:
一类是正交旋转(保持因子间的正交性,3种,常用最大方差旋转),一类是斜交旋转(因子间不一定正交)
公共因子提取个数:
(1)选特征值大于等于1的因子(主成分)作为初始因子,通过求响应的标准化正交特征向量来计算因子载荷
(2)碎石图:
删去特征值变平缓的那些因子(3)累计方差贡献率大于85%
第五讲:
聚类类型,系统聚类、K-均值聚类思想及步骤,系统聚类方法,相似性测度方法
聚类类型:
根据分类的对象可将聚类分析分为:
系统Q型与R型(即样品聚类与变量聚类)
系统聚类、K-均值聚类思想及步骤:
①系统聚类的基本思想:
距离相近的样本(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。
②聚类过程及步骤:
假设总共有n个样品(或变量),第一步将每个样品(或变量)独自聚成一类,共有n类;
第二步根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成n-1类;
第三步将“距离”最近的两个类进一步聚成一类,共聚成n-2类;
…,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成一类。
最后可以画谱系图分析。
③快速聚类的基本思想,步骤:
(也称为K-均值法,逐步聚类,迭代聚类),基本思想是将每一个样品分配给最近中心(均值)的类中,具体的算法步骤如下:
(1)将所有的样品分成K个初始类;
(2)通过欧氏距离将某个样品划入离中心最近的类中,并对获得样品与失去样品的类,重新计算重心坐标。
(3)重复步骤2,直到所有的样品都不能再分配时为止。
系统聚类方法:
最短距离法(单连接),最长距离法(完全连接),中间距离法,类平均法(组间平均连接法),可变类平均法,重心法,可变法,离差平方和法
相似性测度方法:
不同样本相似性度量:
距离测度里包括:
明氏,马氏,和兰式
不同变量相似度的度量:
包括:
夹角余弦,相关系数。
第六讲:
判别分析及各判别方法思想,判别分析假设条件,距离判别与贝叶斯判别关系
判别分析定义:
一种进行统计判别和分组的技术手段。
它可以就一定数量案例的一个分组变量和相应的其他多元变量的已知信息,确定分组与其他多元变量之间的数量关系,建立判别函数(discriminantFunction)。
然后便可以利用这一数量关系对其他已知多元变量信息、但未知分组类型所属的案例进行判别分组。
各判别方法思想:
①距离判别:
求新样品X到G1的距离与到G2的距离之差,如果其值为正,X属于G2;
否则X属于G1
②Bayes判别:
由于
个总体
出现的先验概率分别为
,则用规则
来进行判别所造成的总平均损失为
(4.12)
所谓Bayes判别法则,就是要选择
,使得(4.12)式表示的总平均损失
达到极小。
③Fisher判别的基本思想和步骤:
从K个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数:
U(X)=
,其中系数
=(
1,
2,…,
p)’确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。
有了线性判别函数后,对于一个新的样品,将它的p个指标值代入线性判别函数式中求出U(X)值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。
判别分析假设条件:
判别分析的假设之一,是每一个判别变量(解释变量)不能是其他判别变量的线性组合。
即不存在多重共线性问题。
判别分析的假设之二,是各组变量的协方差矩阵相等。
判别分析最简单和最常用的形式是采用线性判别函数,它们是判别变量的简单线性组合。
在各组协方差矩阵相等的假设条件下,可以使用很简单的公式来计算判别函数和进行显著性检验。
判别分析的假设之三,是各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。
在这种条件下可以精确计算显著性检验值和分组归属的概率。
当违背该假设时,计算的概率将非常不准确。
距离判别与贝叶斯判别关系:
距离判别中两个总体的距离判别规则为:
,而贝叶斯判别规则为:
,二者唯一差别仅在于阀值点,从某种意义上讲,距离判别是贝叶斯判别的特殊情形。
题型及分数:
一、判断对错并改正(4题,8分)
二、不定项选择(10题,20分)
三、简答题(4题,32分)(六选四)
主成分基本思想,系统聚类,K-均值聚类基本思想及过程,判别分析及费希尔基本思想,比较聚类与回归、判别,因子分析及因子旋转
聚类与回归、判别:
①判别与回归:
联系:
都是根据已有数据判别未来趋势。
区别:
多元回归的因变量是数值型变量,且自变量可是0-1变量;
判别分析的因变量是类别型变量,而自变量不是0-1变量②判别与聚类:
聚类分析:
类别未知,利用样本确定分组数及所属类别;
判别分析:
类别数及意义已知,还能“预测”新样本所属类别;
聚类中加进一个变量需要对类进行更新,重新计算与其他类的距离,而判别对新样本进行判别后,不更新所属的类。
四、计算题(1题,10分)计算样本均值、协差阵、相关阵
五、分析题(2题,30分)(四选二)
1)主成分分析的SPSS实例分析(主成分个数确定,主成分表达式,主成分分析步骤)
2)因子分析的SPSS实例分析(因子分析模型,公因子的解释命名分析)(二选一)
3)聚类分析的SPSS实例分析(分类数确定,聚类结果命名分析,优缺点及改进策略)
分类数确定
1树状图,确定原则是组内距离小,组间距离大。
2聚合系数图:
在曲线开始变得平缓的点选择合适的分类树
1任何类都必须在邻近各类中是突出的,即各类重心间的距离必须大
2各类所包含的元素都不要过分地多
3分类数目应符合使用的目的
4若采用几种不同的聚类法,则在各自的聚类图上应发现相同的类
5对聚类过程中聚合系数分类数的变化(曲线)进行分析,可以辅助确定合理的分类数
聚类分析的缺点
层次聚类法的结果容易受奇异值的影响,而快速聚类法受奇异值、相似测度和不适合的聚类变量的影响较小。
层次聚类法可以得到一系列的聚类数,而快速聚类只能得到指定类数的聚类数。
层次聚类法在数据比较多时计算量比较大,需要占据非常大的计算机内存空间,而快速聚类法计算量较小。
层次聚类法是单向的,样本点一旦进入某类就不能出类。
快速聚类则可以对初始分类反复调整,其缺点是对初始分类非常敏感
聚类法的使用策略建议
在使用层次聚类法时,较好的做法是试用几种方法,对给定的方法使用几种相似性测度。
如果结果大体一致,则有可能找到一个合理的分类
把层次法与迭代法结合起来使用。
首先用层次聚类法确定分类数,检查是否有奇异值,剔除奇异值后,重新分类,把用层次聚类法得到的各类重心,作为快速聚类法的初始凝聚点,对分类进行调整
4)判别分析的SPSS实例分析(费希尔判别函数及贝叶斯判别函数)(二选一)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 重点