多元统计分析论文Word格式.docx
- 文档编号:17715613
- 上传时间:2022-12-08
- 格式:DOCX
- 页数:19
- 大小:438.13KB
多元统计分析论文Word格式.docx
《多元统计分析论文Word格式.docx》由会员分享,可在线阅读,更多相关《多元统计分析论文Word格式.docx(19页珍藏版)》请在冰豆网上搜索。
37.8579
方差
137086.116
3.576E9
8715.988
1892.295
1433.219
偏度
1.296
2.272
1.892
1.895
1.886
偏度的标准误
.421
峰度
1.624
7.040
3.405
3.219
3.578
峰度的标准误
.821
百分位数
25
234.00
26098.00
30.930
15.178
12.916
50
75
654.00
87962.00
98.731
47.758
44.373
表-1为统计量表,从上表中可以看出各个变量的均值、中值、标准差、方差、偏度、峰度、以及它们的标准误差,法人企业的营业额基本上是由客房收入和餐费收入平摊,但相对来说还是客房收入占得比例较大些。
图-3
图-3为带有正态曲线的直方图,描述的是法人企业个数的方面的问题,从图中可以看到各个城市的平均法人个数为506.87,标准误差为370.251,总共有31个城市,而且在这些城市中,法人企业个数在250个的城市居多,大约占到九个。
根据标准正态曲线,可以看出该变量的变化情况可大致认为服从正态分布,但在后面的部分也还是存在一定的偏差。
图-4
图-5
图-6
图-7
图-4、图-5、图-6、图-7分别表示的是年末从业人数、营业额、客房收入和餐费收入的频数直方图,分析方法和图-3相似,就不一一分析了,从上面几个图中可以看出,这几个变量都大致服从正态分布,但我国住宿业方面的发展还是很不平衡,无论是从这五个方面的哪一方面来看,都是数值小的占的比例较大。
说明只有少数地区的住宿业可以达到发达水平,还有大部分地区需要加大力度来提高自己的收入水平。
第三步、对数据进行因子分析:
表-2
相关矩阵
相关
1.000
.964
.932
.891
.945
.956
.919
.968
.988
.923
表-2为五个变量的相关矩阵,从表中的数据可以看出,各个变量同其他变量之间的相关性都很强。
表-3
解释的总方差
成份
初始特征值
提取平方和载入
合计
方差的%
累积%
1
4.782
95.648
2
.140
2.795
98.443
3
.049
.982
99.426
4
.027
.550
99.975
5
.001
.025
100.000
提取方法:
主成份分析。
表-3为解释的总方差,可以看到只要第一个成分就可以解释95.648%的信息,而且在合计列中只有第一个因子的特征值大于1,所以我提取了第一个变量因子并对它做因子分析。
图-8
图-8为因子分析的碎石图,从图中可以明显的看到第一段的斜率很大,而后面就变得平缓了,也说明只要一个因子就能很好地解释所有的变量,说明我们只提取一个因子的做法是合理的。
但由于只有一个因子,所以无法得到因子载荷矩阵和旋转的因子载荷矩阵,但可以有成分得分系数矩阵,由此可以算出因子得分。
表-4
成份得分系数矩阵
.202
.206
.207
.205
提取方法:
主成分分析法。
旋转法:
具有Kaiser标准化的正交旋转法。
构成得分。
表-4即为成分得分系数矩阵,从中可以得到因子在各变量上的系数,可以得到计算因子得分的函数:
。
图-9
图-9为最后的因子得分,由于在保存子对话框中点了保存为新变量,所以在原数据中多了一列,即为根据表-4得到的因子得分。
第四步、对数据进行聚类分析(K-均值聚类,只选取了前三个变量):
表-5
初始聚类中心
聚类
1618
40
922
302021
4202
94364
398.0
3.9
98.7
表-6
迭代历史记录a
迭代
聚类中心内的更改
.000
19558.723
9865.787
5424.893
6723.862
6141.928
11952.214
3137.200
7758.329
a.由于聚类中心内没有改动或改动较小而达到收敛。
任何中心的最大绝对坐标更改为.000。
当前迭代为5。
初始中心间的最小距离为90166.364。
表-7
最终聚类中心
307
850
38464
110936
41.6
169.5
表-5、表-6、表-7分别为初始聚类中心、历史迭代记录和最终聚类中心。
根据表-6可以看出第一类的聚类中心基本上没有什么改变。
当初始聚类中心经过迭代,迭代到第五步的时候都已经变成了0.000,此时已经可以结束迭代,得到最终聚类中心,可以看出第一类的法人企业为1618个,年末从业人数为302021人,营业额为398.0亿元,第二类和第三类可以依次看出。
图-10
由于在保存子对话框中点了保存为新变量,所以在原数据中多了两列,分别为案例的类别号和案例与其类别中心之间的距离,见图-10.可以看出广东为第一类,它的住宿业很发达,企业法人个数和营业额等都非常高;
北京、上海、江苏、浙江、福建、山东、河南、湖南和四川为第三类,它们的住宿业相对比较发达;
其他地区分为第二类,它们的住宿业比较落后,企业法人个数和营业额等都很低。
表-8
每个聚类中的案例数
21.000
9.000
31.000
表-8为每个聚类的案例数,从中可以看出第一类中只有1个案例,第二类中有21个,第三类中有9个。
第五步、对数据做一下判别分析(先把广东、河北、上海挑出来不进行聚类,对其他的聚类之后再把这三个地区放进去判别):
图-11
表-9
标准化的典型判别式函数系数
函数
-.462
.536
1.321
-2.325
.081
2.070
标准化的典型判别函数是由标准化的自变量通过Fisher判别法得到的,通过表-9可以得到标准化的典型判别函数,要得到标准化的典型判别得分,代入该函数的自变量必须是经过标准化的。
表-10
典型判别式函数系数
-.003
.004
.003
.074
(常量)
-3.705
1.496
非标准化系数
表-10是未标准化的典型判别函数系数,由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比标准化的系数要方便一些。
由此表可知,两个Fisher判别函数分别为:
,
表-11
分类函数系数
案例的类别号
-.025
-.015
-.010
-.058
-.165
-44.712
-2.601
-12.662
Fisher的线性判别式函数
如表-11所示,案例的类别号栏中的每一列表示样品判入相应列的Bayes判别函数系数。
在本例中,各类的Bayes判别函数如下:
将各地区的自变量值代入上述三个Bayes判别函数,得到三个函数值。
比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。
表-12
分类结果a
预测组成员
初始
计数
12
未分组的案例
%
100.0
.0
66.7
33.3
a.已对初始分组案例中的100.0%个进行了正确分类。
表-12为分类结果表,从中可以看出未分类的地区有两个应该分入第一类,有一个应该分入第三类。
图-12
由于保存了变量,在原数据中多出了几列。
其中,变量dis-1存放判别样品所属组别的值,变量dis1-1,dis2-1分别代表将地区各变量值代入第一个,第二个判别函数所得的判别分数,变量dis1-2、dis2-2,dis3-2分别代表地区分别属于第1类、第2类,第3类的Bayes后验概率值。
结果表明,广东、河北、上海应分别放入第一类、第三类和第一类。
结论:
参考文献:
方开泰,潘恩沛《聚类分析》地质出版社
M.肯德尔【英】《多元分析》科学出版社
于秀林,任雪松《多元统计分析》中国统计出版社
《中国统计年鉴》2010
附录
18-4各地区限额以上住宿业企业基本情况和经营情况(2010年)
地区
法人企业(个)
年末从业人数
营业额
(人)
(亿元)
#客房收入
#餐费收入
全国
15713
2108179
2797.8
1309.8
1143.9
北京
1240
162596
304.2
149.7
91.2
天津
222
24133
15.8
12.1
河北
475
68679
64.9
25.7
32.7
山西
388
58686
52.8
22.4
24.3
内蒙古
333
38118
40.9
19.1
18.6
辽宁
523
58637
85.4
40.2
36.7
吉林
229
23350
27.1
11.7
12.9
黑龙江
242
26098
28.4
15.2
10.9
上海
577
87962
220.4
126.5
65.6
江苏
906
123186
186.2
76.4
90.3
浙江
1158
165091
258.6
107.6
126.6
安徽
428
50842
54.7
23.7
25.0
福建
521
76651
94.2
38.9
44.4
江西
380
41874
42.3
15.9
山东
997
121488
164.9
65.7
80.9
河南
44.7
42.4
湖北
527
60022
63.7
33.0
24.2
湖南
671
87989
104.9
49.6
45.7
广东
179.9
163.1
广西
389
49576
47.2
23.0
18.8
海南
311
56088
76.7
47.7
22.9
重庆
279
39871
51.3
21.4
23.2
四川
654
79094
93.6
47.8
34.6
贵州
234
23289
20.5
7.4
云南
423
52233
50.6
27.2
15.4
西藏
2.3
1.0
陕西
504
67854
69.5
31.6
31.4
甘肃
193
23533
19.2
9.8
7.6
青海
56
6717
5.4
3.1
1.8
宁夏
52
6351
5.7
2.7
新疆
221
27584
30.9
13.5
14.0
主要统计指标解释:
住宿业:
指有偿为顾客提供临时住宿的服务活动。
不包括提供长期住宿场所的活动,如出租房屋、公寓等(列入房地产开发经营)。
营业额:
指住宿和餐饮业法人企业(单位)在经营活动中因提供服务或销售商品等取得的收入。
包括:
客房收入、餐费收入、商品销售额和其他收入。
其中,客房收入指住宿和餐饮业法人企业(单位)在经营活动中因提供住宿服务取得的收入。
餐费收入指住宿和餐饮业法人企业(单位)因为顾客提供就餐服务取得的收入,包括经烹饪、调制加工后出售的各种食品,如主食、炒菜、凉拌菜等的收入。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 论文