判别分析案例分析Word文档下载推荐.docx
- 文档编号:21289833
- 上传时间:2023-01-29
- 格式:DOCX
- 页数:10
- 大小:26.14KB
判别分析案例分析Word文档下载推荐.docx
《判别分析案例分析Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《判别分析案例分析Word文档下载推荐.docx(10页珍藏版)》请在冰豆网上搜索。
3:
31-2x00-1-4?
1n=332n=3n3=将以上数据按照spss对数据格式的要求录入到spss的数据编辑窗口。
如下图所示:
第1页,共26页1.在spss数据编辑窗口中点选(analyze)中的分类(classify)进行判别分析(discriminant)。
2.分析时要选择的分析变量如下:
第2页,共26页3.点选统计量按钮,选择描述统计量,矩阵及判别函数系数中的所有选项。
4.点选分类按钮,将显示和图形中的选项全部选取,先验概率先选择所有组别大小相等,但本问题是三个组别的先验概率不相等,后面用编写程序的方式更改过来。
协方差矩阵的选项中选择组内协方差矩阵,因为我们假设三个总体的协方差矩阵相同。
第3页,共26页5.点选保存按钮,勾选保存预测的组别,判别得分和各组成员的事后概率三个选项。
6.点选粘贴按钮,注意红色部分,表示先验概率按照默认方式处理的程序代码。
7.修改后的程序代码第4页,共26页8.点选run下的all选项,运行该过程。
二、报表解读?
1案例处理汇总分析analysiscaseprocessingsummary9100.00.00.00.00.09100.0unweightedcasesvalidmissingorout-of-rangegroupcodesatleastonemissingdiscriminatingvariablebothmissingorout-of-rangegroupcodesandatleastonemissingdiscriminatingvariabletotalexcludedtotalnpercent案例处理汇总分析,反映的是有效样本量和变量缺失的情况。
本案例有效观测量为9个,没有缺失值。
2各组统计量描述groupstatistics-1.00003.00001.000002.00000333.0003.0001.00001.0000033.0004.0000.00002.000001.00000333.0003.000-2.0000.00002.000001.22474393.0009.0001.66673.2787299.000x1x2x1x2x1x2x1x2group1.002.003.00totalmeanstd.deviationunweightedweightedvalidn(listwise)groupstatistics是各组和总体的每个变量的描述统计分析。
其中值得关注的是均值一栏,它是后面计算的基础第5页,共26页本问题假设各组协方差相等。
所以各组标准差不应该有很大的变化。
用图型方式来观察,可以看出,各组的均值差异较大,但各组的方差相同。
平均值-13140-2-3-2-1012345x1x2x1x2x1x2组一组二组三可以看出x1在各组的差异不如x2在各组的差异。
标准差12121200.511.522.5x1x2x1x2x1x2组一组二组三x1在各组的标准差相同,x2在各组的标准差也相同。
计算方法:
公式1ni()1n=xxi=对组g=1:
()()()()
(1)
(2)(3)111201531++203113513313xxxx?
+?
==++=++?
=对组g=2和g=3的均值向量的解法相同,分别为23140xx2?
==?
和第6页,共26页总体均值向量为()()()()()1230531111140110342+x3201.66?
3337xx++x?
++==++===?
标准差为?
5中各组协方差矩阵的主对角线方差的平方根。
3各组均值相等检验testsofequalityofgroupmeans.5003.00026.125.2797.75026.022x1x2wilkslambdafdf1df2sig.这张表是预测变量在各组间均值是否相等的假设检验。
包含wilkslambda,f统计量和它的自由度和显著性水平。
原假设:
x1在三组中的平均值相同。
x2在三组中均值相同。
wilkslambda是组内平方和与总平方和的比,值的范围在0到1之间。
值越小表示组间有很大的差异。
值接近1表示没有组间差异。
f统计量是组间均方与组内均方的比。
有两个自由度,分子为df1分母为df2。
分子和分母自由度用来得到观测显著性水平。
如果显著性水平值很小(比如说小于0.10)表示组间差异显著。
如果显著性水平较大(比如说大于0.10)表示组间差异不显著。
本例中1x的值为0.125,表明p1x在各组间的差异不显著,而2x的值为0.022,说明p2x在各组间差异显著。
具体数字可由one-avona过程得来。
对x1来讲,其wilkslambda值为6/12=0.5,对x2来讲其wilkslambda值为24/86=0.279。
f统计量的第一个自由度df1=g-1=3-1=2,第二个自由度df2=n-g=9-3=6。
概率值可用spss的sig.f函数计算,利用computep1=sig.f(3,2,6).语句,即可得到其值为0.125;
computep2=sig.f(7.75,2,6).得到其值为0.022。
4联合组内协方差矩阵pooledwithin-groupsmatricesa1.000-.333-.3334.0001.000-.167-.1671.000x1x2x1x2covariancecorrelationx1x2thecovariancematrixhas6degreesoffreedom.a.第7页,共26页联合组内协方差阵显示一个协方差阵和一个相关矩阵。
上半部分是联合组内协方差矩阵,由3组的组内协方差阵相加构成。
[][]11223312311
(1)
(1)
(1)22293111111312114141410.333?
40.33311263psnsnsnssssng=++=++=?
++==?
其中分别为123,,sss?
5各组的协方差阵。
注意,spss没有列出组内sscp阵w,要经过换算才能能到组内w,即将上述矩阵乘以自由度6便可得到w。
下半部的联合组内相关矩阵是由联合组内协方差矩阵变换而来的。
公式为1212prdsd=,为上面的联合组内协方差阵,ps12d为的对角线元素的平方根的倒数组成的对角矩阵。
如ps130.16714=此处的联合组内相关矩阵同总体相关矩阵有差异,因为它们依据的转换矩阵不同,一个是依据联合组内协方差阵,一个是依据总协方差阵。
5各组协方差矩阵covariancematricesa1.000-1.000-1.0004.0001.000-1.000-1.0004.0001.0001.0001.0001.5004.000.125.12510.750x1x2x1x2x1x2x1x2group1.002.003.00totalx1x2thetotalcovariancematrixhas8degreesoffreedom.a.各组内及总体协方差矩阵。
总体协方差阵如果乘以自由度8便是总体sscp阵。
判别分析的假设之一就是各组协方差阵相同。
方差显示在主对角线上,协方差为各组交叉处。
使用协方差阵和组内散布图可以帮助确定检验协方差相等的假设。
第8页,共26页计算方法:
11()()1=1,1iniiiijijjiisxxxnigjn===?
x)()()(31111111()()3121+21+010111++11++15353333311?
11211011,21,00,2202212100012400042jjjsxxxx==?
=++?
=++?
1=++221281124?
==其余各组内方差矩阵计算同上。
在计算总体协方差矩阵时要使用总体均值向量。
如果想省事也可以用bivariate过程直接验证。
boxs协方差矩阵检验?
6对数行列式logdeterminants21.09921.09921.09921.358group1.002.003.00pooledwithin-groupsranklogdeterminanttheranksandnaturallogarithmsofdeterminantsprintedarethoseofthegroupcovariancematrices.各组内协方差矩阵及其行列式的自然对数。
在多组模型中,行列式自然对数值提供各组间协方差矩阵差别的度量。
秩是行或列中线性独立的最大数。
第9页,共26页本例中,三组行列式的自然对数值相同,意味着三组协方差阵相同。
n3l19.09计算:
1233sss===而=。
10.33340.113.890.3334ps?
===lnln3.881.3598152ps==?
7协方差矩阵相等的检验testresults1.557.1336897.231.992boxsmapprox.df1df2sig.ftestsnullhypothesisofequalpopulationcovariancematrices.boxsm统计量检验各组内协方差阵相等的假设。
原假设为:
01:
gh2===?
此处可先目测各组内协方差阵的行列式的自然对数值,因为它们相同,可以判断它们的协方差阵相同,再看看它们的概率值大于0.05,就可以确定各组组内协方差阵相同的假设。
()()1()ln1ln931.358321.01.959gpiiimngsns====57?
8特征根eigenvalues2.867a.904a76.076.0.86124.0100.0.689function12eigenvalue%ofvariancecumulative%canonicalcorrelationfirst2canonicaldiscriminantfunctionswereusedintheanalysis.a.本表包含特征根,方差百分比,累计百分比和典型判别函数。
第10页,共26页因为判别函数的数目,所以本例可以得到2个判别函数。
第二栏为解所得的特征值。
第三栏为每个函数所解释的百分比,min(,1)qpg=01()wbie=如:
2.867100762.8670.904=+。
由此可知第一判别函数可以解释的方差为76%,第二判别函数可以解释24%。
第四栏为累计百分比,由第三栏自上往下累加而成。
第五栏为典型相关系数。
这里着重介绍一下特征根的计算问题,因为spss对这一块好像有设计上的缺陷,主要是指给出计算结果,没有给出中间过程,尤其是对解释有重要贡献的特征向量根本没有给与关注。
(这恐怕是spss的软肋,如果竞争对手抓住这一点进行攻击,估计会有一些打击力)。
由于spss没有直接给出组内sscp矩阵w,所以还用其他软件或手工计算w。
第一步:
计算w312311()()(3)11623(93)122443iniiijijpijwxxxxnnn====++?
==s第二步:
计算组间sscp矩阵b31()()1104731,31,30,47113333363362iiiibnxxxx==?
113?
=++?
第三步:
用excel的minverse函数求出1242126140w?
=第11页,共26页第四步:
计算11.071431.40.214292.7wb?
第五步:
解特征方程,因为min(g-1,p)=min(2,2)=2,所以方程有两个特征根。
11.07143?
1.400.214292.7wb?
==得2(1.07143)(2.7)1.40.214293.771432.59290=+=用求根公式得两个特征根为=2,.8671.9044201=第五栏的典型相关系数的求法实在是有点烦,如果有好事者非得知道究竟,在这里我给出它的计算公式,自己去验证。
也就是求111222211122221111典型相关系数。
2,的特征根和在将两个特征根开平方即可得到所要的我们也可以用spss的manova过程来求典型相关系数,具体做法为首先把group拆分为三个虚拟变量,使用下列语句:
recodegroup(1=1)(2=0)(3=0)intog1.recodegroup(1=0)(2=1)(3=0)intog2.recodegroup(1=0)(2=0)(3=1)intog3.execute.再调用manova过程:
manovax1x2withg1g2g3/print=signif(eigendimenr)/discrim=rawstancoralpha(1.0)/design.第12页,共26页运行结果为:
-------------------------------------eigenvaluesandcanonicalcorrelationsrootno.eigenvaluepct.cum.pct.canoncor.sq.cor12.86776.02176.021.861.7412.90423.979100.000.689.475-------------------------------------红色部分就是上述典型相关系数。
9wilkslambda.13610.9824.027.5253.5431.060testoffunction(s)1through22wilkslambdachi-squaredfsig.检验判别函数的显著性水平第一栏testoffunctions表示每步中判别函数被移去后的函数值。
1through2表示没有函数被移去。
原假设为各组中所有判别函数的总体均值相等。
如果显著,表示前两个判别函数的联合效果显著,通常会视为最大的判别函数显著。
2表示前一个判别函数被移去后的显著性检验。
如果显著,表示第二个判别函数也显著。
本例中第二个判别函数对不同的三组没有贡献。
因为它的概率值大于0.05。
第二栏为wilks值。
第一个值的求法为:
1211111112.8670.110.503794?
==++++;
第二个值求法为:
211110.9040.525?
==++(i为?
8中的特征根)。
第三栏卡方值由如下公式计算:
第13页,共26页()()2k2112221ln(?
),1223+91ln(0.136)222=23+91l?
10.973.543n(0.525)214311kpgndfpkgkdfdf+?
==+===?
====概率值可用computep1=sig.chisq(10.982,4).computep2=sig.chisq(3.543,1).语句得出。
10标准典型判别函数系数standardizedcanonicaldiscriminantfunctioncoefficients.386.938.989-.224x1x212function标准化判别函数系数可以看出预测变量在组成判别函数时的相对贡献,如本例,第一判别函数的x2项比较重要,第二判别函数在x1项上比较重要。
标准判别函数系数的计算是由非标准化判别函数系数乘以联合组内协方差矩阵主对角的平方根得来。
如?
12中第二判别函数x2的加权系数为-0.112,?
4中联合组内协方差阵对角线的x2为4,因此0.11240.224=。
其余可以类推。
11结构矩阵structurematrix.925*-.380.221.975*x2x112functionpooledwithin-groupscorrelationsbetweendiscriminatingvariablesandstandardizedcanonicaldiscriminantfunctionsvariablesorderedbyabsolutesizeofcorrelationwithinfunction.*.largestabsolutecorrelationbetweeneachvariableandanydiscriminantfunction结构系数即预测变量与典型判别函数的联合组内相关系数。
由公式*ru获得。
r为?
4中第14页,共26页联合组内相关系数矩阵,为*u?
10中标准化判别函数系数矩阵。
*10.1670.3860.9380.2210.9750.16710.9890.2240.9240.381ru?
==?
12典型判别函数系数canonicaldiscriminantfunctioncoefficients.386.938.495-.112-.824.187x1x2(constant)12functionunstandardizedcoefficients非标准化判别函数系数,即费歇尔判别函数系数。
是由?
8中的特征根所对应的特征向量而得来的。
具体计算过程为:
第一步:
由?
8中求得特征根为2.8671,0.904412==解方程(),可以得到两个标准化特征向量。
例如方程10,1,21ipwbiaisa===i并取解的长度满足ai?
0?
112,aa11111121.07143?
2.8671.40()0.214292.72.867awbiaa?
==
(1)在满足标准化下,即满足111pasa=2112124aa+=条件下,解得0.386,0.495)a=。
同理可以解得(2a=0.938,0.112经过标准化处理过的特征向量既是费歇尔判别函数的系数。
常数项的计算公式为cu=x000.386,0.4951.667?
00.938,0.1121.1667.cc?
==?
==。
)()(120.82487用预测变量的原始数据乘以上面的判别系数就可以得到?
18中的判别得分。
()yuxx=()()()11111212y00.386,0.4950.386,00.3860.4950.8.4955243uxxuxuxx
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 判别分析 案例 分析
![提示](https://static.bdocx.com/images/bang_tan.gif)