spss上机报告3解析.docx
- 文档编号:5097413
- 上传时间:2022-12-13
- 格式:DOCX
- 页数:27
- 大小:200.47KB
spss上机报告3解析.docx
《spss上机报告3解析.docx》由会员分享,可在线阅读,更多相关《spss上机报告3解析.docx(27页珍藏版)》请在冰豆网上搜索。
spss上机报告3解析
统计分析软件(spss)实验报告3
序号
班级
姓名
学号
日期
时间
地点
3
信计1302
张温柔
41363096
2015.07.09
8:
00-11:
45
实验楼102
指导教师:
刘秀芹
实验名称:
1、用spss进行判别分析
2、因子分析
3、主成分分析
实验任务:
1、收集到意大利、韩国、罗马尼亚、法国、中国、美国、俄罗斯以及热心观众分别给300名运动员平均打分的数据,希望分析各国裁判员的打分标准是否有相似性。
具体数据“裁判打分.sav”.
2、根据“高校科研研究.sav”数据(具体数据在可供下载的压缩包中),利用层次聚类分析对各省市的高校科研情况进行层次聚类分析。
(1)根据聚类状态表,利用碎石图对聚类类数进行研究。
(2)绘制聚类树形图,说明哪些省市聚在一起。
(3)绘制各类科研指标的均值对比图。
(4)利用方差分析方法分析各类在哪些科研指标上存在显著差异。
3、已知我国南方8个少数民族11种生活方式指标的均值数据,进行层次聚类分析
(1)结合上述分析结果,说明这8个少数民族按照生活方式的聚类过程。
(2)结合上述分析结果,绘制聚类属性图。
(3)如果将这8个少数民族按生活方式分成三类,那些少数民族可以归为一类?
4、31个省市关于2001年全国31个省市自治区各类小康和现代化指数的数据,对地区进行K-Means聚类分析,分成3类,初始分类中心点由SPSS自行确定。
5、试说明当变量存在数量级上的差异,进行层次聚类分析时为什么要对数据进行标准化处理?
6、试说明变量之间的高度相关性是否会对层次聚类分析结果造成影响,为什么?
7、试说明K-Mean聚类分析的基本步骤。
8、在企业的考核中,可以根据企业的生产经营情况把企业分为优秀企业和一般企业。
考核企业经营状况的指标有:
资金利润率=利润总额/资金占用总额
劳动生产率=总产值/职工平均人数
产品净值率=净产值/总产值
三个指标的均值向量和协方差矩阵如下。
现有二个企业,观测值分别为
(7.8,39.1,9.6)和(8.1,34.2,6.9),问这两个企业应该属于哪一类?
实验目的:
1、学习利用spss进行聚类分析、判别分析对数据进行基本的处理。
主要内容有层次聚类分析、快速聚类分析和判别分析。
将一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类。
学会画图表示数据的结构表示,可以画树状图,冰挂图还有碎石图。
运行结果:
1、
(1)
案例处理摘要a
案例
有效
缺失
合计
N
百分比
N
百分比
N
百分比
300
100.0%
0
0.0%
300
100.0%
a.值向量间的相关性已使用
近似矩阵
案例
矩阵文件输入
意大利
韩国
罗马尼亚
法国
美国
俄罗斯
热心观众
中国
意大利
1.000
.910
.906
.917
.904
.909
.667
.903
韩国
.910
1.000
.878
.935
.919
.887
.682
.885
罗马尼亚
.906
.878
1.000
.875
.872
.929
.655
.922
法国
.917
.935
.875
1.000
.910
.875
.660
.881
美国
.904
.919
.872
.910
1.000
.885
.665
.884
俄罗斯
.909
.887
.929
.875
.885
1.000
.660
.926
热心观众
.667
.682
.655
.660
.665
.660
1.000
.666
中国
.903
.885
.922
.881
.884
.926
.666
1.000
聚类表
阶
群集组合
系数
首次出现阶群集
下一阶
群集1
群集2
群集1
群集2
1
2
4
.935
0
0
4
2
3
6
.929
0
0
3
3
3
8
.924
2
0
6
4
2
5
.915
1
0
5
5
1
2
.910
0
4
6
6
1
3
.887
5
3
7
7
1
7
.665
6
0
0
群集成员
案例
3群集
意大利
1
韩国
1
罗马尼亚
2
法国
1
美国
1
俄罗斯
2
热心观众
3
中国
2
2、
通过碎石图可以得出:
随着类的不断凝聚,类目数的不断减少,类间的距离在逐渐增大。
在聚成7类之前,类距增大的幅度较小,形成极为“陡峭的山峰”,但到3类后,类间的距离迅速增大形成极为“平坦的碎石路”。
根据类间距离小形成类的相似性大,类间距离大形成类的相似性小的原则,可以找到“山脚”下的“拐点”碎石,以它作为确定分类数目的参考。
(2)
案例处理汇总a,b
案例
有效
缺失
总计
N
百分比
N
百分比
N
百分比
31
100.0
0
.0
31
100.0
a.平方Euclidean距离已使用
b.平均联结(组之间)
聚类表
阶
群集组合
系数
首次出现阶群集
下一阶
群集1
群集2
群集1
群集2
1
26
30
115469.852
0
0
2
2
26
29
659072.138
1
0
8
3
20
25
1513273.200
0
0
5
4
4
12
1524225.317
0
0
15
5
16
20
3736189.381
0
3
6
6
8
16
4179524.954
0
5
11
7
7
11
4214224.747
0
0
12
8
24
26
6236581.471
0
2
9
9
24
31
6858080.839
8
0
22
10
6
23
8674504.513
0
0
16
11
5
8
8909339.143
0
6
22
12
2
7
8924771.443
0
7
17
13
10
19
11295059.756
0
0
25
14
22
28
16150669.103
0
0
21
15
4
21
16307806.114
4
0
20
16
6
15
26791380.109
10
0
18
17
2
3
30236391.656
12
0
20
18
6
13
44818134.028
16
0
23
19
9
18
54973236.917
0
0
25
20
2
4
55207713.466
17
15
26
21
14
22
61526555.347
0
14
24
22
5
24
124477353.091
11
9
24
23
6
27
176631641.509
18
0
26
24
5
14
488781146.909
22
21
28
25
9
10
775967399.508
19
13
27
26
2
6
1032818251.122
20
23
28
27
9
17
2293476117.021
25
0
29
28
2
5
3395790865.556
26
24
29
29
2
9
12287019144.168
28
27
30
30
1
2
89868157406.332
0
29
0
所以,分类为:
第一类:
北京
第二类:
天津、河北、山西、辽宁、吉林、浙江、安徽、福建、山东、海南、四川、陕西
第三类:
内蒙古、黑龙江、江西、河南、广西、重庆、贵州、云南、西藏、甘肃、宁夏、新疆
第四类:
湖南
(3)
单因素方差分析
平方和
df
均方
F
显著性
投入人年数
组间
59778341.196
3
19926113.732
26.428
.000
组内
20357294.159
27
753973.858
总数
80135635.355
30
投入高级职称的人年数
组间
16485966.820
3
5495322.273
34.553
.000
组内
4294074.147
27
159039.783
总数
20780040.968
30
投入科研事业费(百元)
组间
132451401880.884
3
44150467293.628
324.318
.000
组内
3675602946.794
27
136133442.474
总数
136127004827.677
30
课题总数
组间
16470536.564
3
5490178.855
32.181
.000
组内
4606273.436
27
170602.720
总数
21076810.000
30
专著数
组间
7203690.385
3
2401230.128
61.327
.000
组内
1057167.809
27
39154.363
总数
8260858.194
30
论文数
组间
219675698.219
3
73225232.740
17.693
.000
组内
111743385.717
27
4138643.915
总数
331419083.935
30
获奖数
组间
169882.049
3
56627.350
3.619
.026
组内
422436.790
27
15645.807
总数
592318.839
30
案例与其类别中心之间的距离
组间
16021705187.527
3
5340568395.842
45.175
.000
组内
3191932471.180
27
118219721.155
总数
19213637658.707
30
3、
(1)、按照距离从小到大排列,先是距离最小的1、3一类,然后是1、8,然后是5、7,然后是1、
6,然后是4、5,1、4和1、2。
经过七步类聚过程,8个样本最后聚成一大类。
(2)、
(3)、广西瑶族与广西侗族、贵州苗族、基诺族为一类,土家族与崩龙族、白族为一类,湖南侗族自成一类
4、
初始聚类中心
聚类
1
2
3
综合指数
79.20
92.30
51.10
社会结构
90.40
95.10
61.90
经济与技术发展
86.90
92.70
31.50
人口素质
65.90
112.00
56.00
生活质量
86.50
95.40
41.00
法制与治安
59.40
57.50
75.60
迭代历史记录a
迭代
聚类中心内的更改
1
2
3
1
24.387
6.307
23.579
2
.000
.000
.000
a.由于聚类中心内没有改动或改动较小而达到收敛。
任何中心的最大绝对坐标更改为.000。
当前迭代为2。
初始中心间的最小距离为49.349。
最终聚类中心
聚类
1
2
3
综合指数
75.49
91.13
60.02
社会结构
82.86
96.17
66.86
经济与技术发展
72.41
92.03
44.03
人口素质
77.74
106.13
69.32
生活质量
75.84
94.27
51.81
法制与治安
67.17
58.57
76.15
ANOVA
聚类
误差
F
Sig.
均方
df
均方
df
综合指数
1633.823
2
22.518
28
72.556
.000
社会结构
1539.872
2
47.312
28
32.547
.000
经济与技术发展
4381.296
2
56.760
28
77.190
.000
人口素质
1817.856
2
74.363
28
24.446
.000
生活质量
3315.174
2
59.276
28
55.928
.000
法制与治安
530.188
2
76.284
28
6.950
.004
F检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。
观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。
每个聚类中的案例数
聚类
1
7.000
2
3.000
3
21.000
有效
31.000
缺失
.000
5、聚类分析是以各种距离来度量个体间的“亲疏”程度的。
从各种距离的定义来看,数量级将对距离产生较大的影响,并影响最终的聚类结果。
进行层次聚类分析时,为了避免上述问题,聚类分析之前应首先消除数量级对聚类的影响,对数据进行标准化就是最常用的方法。
6、变量之间的高度相关性会对层次聚类分析结果造成影响,因为从各种距离的定义来看,所选择的每个变量都会在距离中做出“贡献”。
如果所选变量之间存在较高的线性关系,能够相互替代,那么计算距离同类变量将重复“贡献”,将在距离中有较高的权重,因而使最终结果偏向该类变量。
7、
一、指定聚类数目K
二、确定K个初始类中心
三、根据距离最近原则进行分类
四、重新确定K个类中心
五、判断是否已满足终止聚类分析的条件
8、利用Matlab编码
V=[68.3940.2421.41;40.2454.5811.67;21.4111.677.90];
mu1=[13.5,40.7,10.7];
mu2=[5.4,29.8,6.2];
mu3=mu1-mu2;
mu4=(mu1+mu2)/2;
x1=[7.839.19.6];
x2=[8.134.26.9];
w1=mu3*V^(-1)*(x1-mu4)'
w2=mu3*V^(-1)*(x2-mu4)'
w1=
4.0883
w2=
-2.2955
判别题:
案例处理汇总a,b
案例
有效
缺失
总计
N
百分比
N
百分比
N
百分比
25
100.0
0
.0
25
100.0
a.平方Euclidean距离已使用
b.平均联结(组之间)
聚类表
阶
群集组合
系数
首次出现阶群集
下一阶
群集1
群集2
群集1
群集2
1
15
21
37.002
0
0
12
2
18
22
42.389
0
0
8
3
17
20
49.135
0
0
17
4
10
14
54.070
0
0
5
5
10
13
66.737
4
0
7
6
9
11
90.441
0
0
7
7
9
10
99.593
6
5
19
8
18
25
110.873
2
0
14
9
8
12
127.643
0
0
15
10
23
24
157.743
0
0
14
11
7
19
184.933
0
0
12
12
7
15
202.329
11
1
16
13
1
4
238.570
0
0
18
14
18
23
264.565
8
10
17
15
3
8
310.893
0
9
19
16
7
16
337.204
12
0
20
17
17
18
356.273
3
14
20
18
1
2
450.203
13
0
21
19
3
9
482.237
15
7
22
20
7
17
634.053
16
17
24
21
1
6
833.644
18
0
22
22
1
3
1142.969
21
19
23
23
1
5
1691.967
22
0
24
24
1
7
2069.374
23
20
0
群集成员
案例
3群集
1:
天
1
2:
辽
1
3:
吉
1
4:
江
1
5:
浙
2
6:
山
1
7:
黑
3
8:
安
1
9:
福
1
10:
江
1
11:
湖
1
12:
湖
1
13:
广
1
14:
四
1
15:
贵
3
16:
新
3
17:
河
3
18:
山
3
19:
内
3
20:
河
3
21:
云
3
22:
陕
3
23:
甘
3
24:
青
3
25:
宁
3
分析讨论:
样本数据之间的亲疏程度主要通过样本之间的距离、样本间的相关系数来度量。
SPSS根据变量数据类型的不同,采用不同的测定亲疏程度的方法。
层次聚类分析中将研究对象的观察变量进行分类,它使具有共同特征的变量聚在一起。
以便可以从不同类中分别选出具有代表性的变量作分析,从而减少分析变量的个数。
在完成spss操作并画出树状图后,可以根据树状图的分支找到每一个分类,也可以根据分支的竖直切线所交的交点判断分几类的不同方法。
事前组别的分类标准(作为判别分析的因变量)要尽可能准确和可靠,否则会影响判别函数的准确性,从而影响判别分析的效果。
所分析的自变量应是因变量的重要影响因素,应该挑选既有重要特性又有区别能力的变量,达到以最少变量而有高辨别能力的目标。
初始分析的数目不能太少。
心得体会:
在这一节课的学习中,我学会了利用利用spss进行判别分析,因子分析等并可以利用spss所图完成碎石图、树状图等。
可以通过样本间的特定关系将其进行分类、并应用到实践中来。
这让我更加明白了spss的应用的广泛性。
同事也拓宽了思维,学会从不同的角度分析和解决问题,有了良好的思维方式来面对以后的问题。
2015年07月09日
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- spss 上机 报告 解析