我国各省市全运金牌情况的聚类和判别分析 学位论文.docx
- 文档编号:11343129
- 上传时间:2023-02-28
- 格式:DOCX
- 页数:16
- 大小:142.56KB
我国各省市全运金牌情况的聚类和判别分析 学位论文.docx
《我国各省市全运金牌情况的聚类和判别分析 学位论文.docx》由会员分享,可在线阅读,更多相关《我国各省市全运金牌情况的聚类和判别分析 学位论文.docx(16页珍藏版)》请在冰豆网上搜索。
我国各省市全运金牌情况的聚类和判别分析学位论文
应用数理统计(论文)
我国各省市全运金牌情况的
聚类和判别分析
摘要
本文以SPSS为分析工具,通过对我国各省份历届全运会金牌榜情况进行了聚类和判别分析,对我国各省份的体育发展状况有了初步的了解。
结果显示,我国的体育强省包括江苏,辽宁,山东,北京、广东和上海,分析所得的模型符合我国当前实际情况,其结果具有统计学和现实意义。
关键词:
SPSS;聚类分析;判别分析;全运金牌
1引言
体育指的是以身体活动为手段的教育,直译为身体的教育,简称为体育。
随着国际交往的扩大,体育事业发展的规模和水平已是衡量一个国家、社会发展进步的一项重要标志,也成为国家间外交及文化交流的重要手段。
体育可分为大众体育、专业体育、学校体育等种类。
包括体育文化、体育教育、体育活动、体育竞赛、体育设施、体育组织、体育科学技术等诸多要素。
体育家精神是指一种追求公平竞争,对于队友和对手谦和有礼,遵守道德,待人真诚,无论输赢始终保持体面的态度。
对于此,现代奥林匹克之父皮埃尔·德·顾拜旦曾说过:
“最重要的……不是输赢,而是参与”,这是对体育家精神的一个经典表述。
中华人民共和国全国运动会简称“全运会”,是中国国内水平最高,规模最大的综合性运动会,首届运动会于1959年9月13日至10月3日在北京举行。
全运会每四年举办一次,一般在奥运会结束后一年举行。
全运会比赛项目的设置除武术外基本与奥运会相同,其原意是为国家的奥运战略锻炼新人,选拔人才。
为了更加调动各省市区的积极性,国家体育总局在1996年奥运会前出台了“将奥运会奖牌带入全运会”的举措。
为了衡量我国个省份的体育发展状况,本文统计了自第一届全运会至第十二届全运会我国各省份获得金牌情况,利用数理统计软件SPSS对各省份获得金牌情况进行聚类和判别分析,分析和评定各省份体育发展情况,同时对各省份进行分类,确定体育发达省份和体育不发达省份。
2聚类分析和判别分析简介
2.1聚类分析法
俗话说:
“物以类聚,人以群分”,对研究对象进行适当的分类,进而发现其规律性,是人们认识世界的一种基本方法。
研究怎样对事物进行合理分类(归类)的统计方法称为聚类分析。
依据分类对象的不同可以把聚类分析再分成Q型聚类和R型聚类,Q聚类是对样品进行聚类,R聚类是指对变量进行聚类。
聚类分析的基本原理是把某种性质相似的对象归于同一类,而不同的类之间则存在较大的差异。
为此,首先需要能刻画各个变量之间或者各个样本点之间的相似性,Q聚类一般使用“距离”度量样本点之间的相似性,R聚类则使用“相似系数”作为变量相似性的度量。
定义样本之间的距离可以采用欧氏距离、明考夫斯基距离、马氏距离、兰氏距离等测度;定义各变量之间的相似系数则多采用样本相关系数、夹角余弦等测度。
系统聚类法(HierarchicalClusteringMethod)是最常用的一种聚类方法。
初始时先把要归类的n个对象各自视为一类,然后逐渐把关系最密切的两个类合并成一个新类,直到最后把n个对象都归为一类时停止。
这种聚类过程可以用一张聚类谱系图形象地展示出来。
2.2判别分析法
判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。
进行判别分析必须已知观测对象的分类和若干表明观测对象特征的变量值。
判别就是要从中筛选出能提供较多信息的变量并建立判别函数,使得利用推导出的判别函数对观测量判别其所属类别时的错判率最小。
判别函数一般形式是:
其中:
为判别分数(判别值);
为反映研究对象特征的变量,为各变量的系数,
也称判别系数。
SPSS对于分为m类的研究对象,建立m个线性判别函数。
对于每个个体进行判别时,把测试的各变量值代入判别函数,得出判别分数,从而确定该个体属于哪一类。
或者计算属于各类的概率,从而判断该个体属于哪一类。
SPSS提供的判别分析过程是Discriminant过程。
3聚类分析过程
3.1统计数据
本文根据历届全运会奖牌榜,选取了参加了第一届至第十二届的全部26个省份,统计其金牌情况,如表3-1所示。
并且把每届的金牌情况相应的看做X1、X2、X3……X12。
表3-1我国各省份全运金牌情况
单位
第一届
第二届
第三届
第四届
第五届
第六届
安徽
7
6
5
2
7
7
北京
42
30
36
44
17
17
福建
10
8
11
5
11
11
甘肃
2
0
4
2
1
4
广东
31
23
38
44
36
54
广西
0
10
13
16
11
3
贵州
8
2
0
0
0
1
河北
20
16
10
12
5
11
河南
2
2
0
5
3
11
黑龙江
15
8
14
38
9
13
湖北
3
6
7
17
8
15
湖南
3
2
5
6
3
8
吉林
6
3
15
30
6
5
江苏
4
6
10
19
13
9
江西
1
2
4
3
9
3
辽宁
4
9
13
28
22
32.5
内蒙古
18
6
9
14
8
14
青海
0
1
2
0
4
1
山东
21
17
7
21
4
12
山西
10
10
9
21
11
6
陕西
1
4
4
9
3
8
上海
46
38
19
36
33
32
四川
10
9
4
7
10
17
新疆
1
4
1
15
5
0
云南
2
3
7
10
4
8
浙江
3
2
0
11
11
17.5
单位
第七届
第八届
第九届
第十届
第十一届
第十二届
安徽
11
5.5
3.5
7
13
8.5
北京
21
20
23
32
30
33
福建
11
5
9
17
19
18
甘肃
4
4
3.5
2
1
2
广东
29
24.5
69.5
46
45
50.5
广西
6
12.5
7
6
7.5
4
贵州
3
2.5
1.5
1
3
1
河北
7
6.5
12
15
13
6
河南
20.5
14.5
7.5
15.5
7.5
14.5
黑龙江
4
9.5
8.5
16
23.5
22
湖北
20.5
12.5
12.5
7
12
8
湖南
14
17.5
19.5
13
18
15
吉林
9
19
12
10
7.5
13
江苏
18
23
24.5
56
48.5
45
江西
3
8
3
12
10.5
6
辽宁
44
39
41
31
48
56
内蒙古
10
9.5
6.5
1
7
5
青海
1
0.5
0
0
0
3
山东
12
25
22
42
63
65
山西
10
8
8.5
10
9
10
陕西
1
1.5
8.5
3
9
9
上海
26
42
29.5
26
41
45
四川
15
12.5
9
12
13.5
13
新疆
5
3
2
1.5
1.5
6
云南
2
1
7
5.5
3
4
浙江
8
17
12.5
29
16
35
3.2聚类分析
将表3-1所示的各项数据导入SPSS,然后进行聚类分析,其过程为:
依次选择“Analyze→Classify→HierarchicalCluster”,引入的变量是X1至X12。
从而对样品进行聚类,即Q型聚类分析(对研究对象本身分类)。
聚类方法使用Between-groupslinkage(类间平均链锁法),距离测量技术选择SquaredEuclideandistance(Euclidean距离平方,即两观察单位间的距离为其值差的平方和,该技术用于Q型聚类)。
最终得出聚类分析结果。
值得注意的是本文选择的聚类类型共分3类。
表格3-2中分别为有效个案、缺失个案和个案总数的个数和百分数,脚注显示聚类时采用的方法。
从表中可以看出,所输入的26组数据全部有效,即全都可以用于聚类分析。
表3-3显示了聚类分析步骤,共25步。
表3-4给出了各省份所属的类别,其中:
第一类:
安徽、福建、甘肃、广西、贵州、河北、河南、黑龙江、湖北、湖南、吉林、江西、内蒙古、青海、山西、陕西、四川、新疆、云南和浙江,共20个。
第二类:
北京、广东和上海,共3个。
第三类:
江苏,辽宁和山东,共3个。
由此我们可以得出,第三类属于体育强省,包括江苏,辽宁和山东。
第二类属于体育较强的省份,包括北京、广东和上海。
第一类属于体育欠发达的省份,包括安徽、福建、甘肃、广西、贵州、河北、河南、黑龙江、湖北、湖南、吉林、江西、内蒙古、青海、山西、陕西、四川、新疆、云南和浙江。
图3-1聚类分析垂直冰状图
图3-2聚类分析树状图
从图3-1和图3-2可以直观地看出各个省份之间的相似程度,聚类的先后顺序,将表3-3所表达的聚类过程更直观地展现出来。
4判别分析过程
本文采用逐步选择判别分析(Usestepwisemethod),且使靠得最近的两类间的Mahalanobis距离最大的变量进入判别函数,即选择Mahalanobisdistance,选择逐步判别停止的判据为“UseFValue”,设置“Entry”值为3.84,“Removal”值为2.71,所使用的判别函数系数为Fisher系数,最后要求输出分类的小结,给出正确分类观测量数和错分观测量数和错分率。
提交各项设置后,SPSS的输出结果如下:
表4-1表明所有变量都进入了判别分析。
用逐步分析方法选择用于构造判别函数的变量。
表4-3逐步分析法变量表
Eigenvalues代表用于分析的前两个典则判别函数的特征值,是组间平方和与组内平方和之比值。
最大特征值与组均值最大的向量对应,第二大特征值对应着次大的组均值向量。
标准化的典则判别式函数系数(使用时必须用标准化的自变量)。
由图可知Fisher判别法构造的两个典则判别函数为:
Y1=0.501X1+0.483X90.501X11
Y2=1.119X1+0.824X2-1.215X11
预测分类结果小结,可以看出初始分组的正确率。
从表中可以看出,预测组与实际组结果完全一样,判别结果非常正确
图4-1散点图
上图为观测量分类点图,从图中我们可以清楚地看到观测量的分类情况,可见三个类型的中心点距离较远,区分效果较好。
5问题的总结及研究意义
本文以SPSS为分析工具,通过对我国各省份历届全运会金牌榜情况进行了聚类和判别分析,对我国各省份的体育发展状况有了初步的了解。
总体来说,我国传统的体育强省有江苏,辽宁,山东,北京、广东和上海,这与本文统计结果相符。
而对于其他省份来说,可能由于涉及到的数据有点早,使得近几年体育迅速发展的省份分在了第一类,例如浙江,黑龙江等。
其他省份虽然体育不是很强,但是我们也应该看到各省份近些年的进步。
最后希望各省份体育都迅速发展,早日实现我们国家的体育强国,全民体育梦。
总之,采用聚类和判别分析分析我国各省份体育发展情况所得的模型符合我国当前实际情况,其结果具有统计学和现实意义,因此有比较实际的应用和研究价值。
6参考文献
[1]孙海燕,周梦,李卫国,冯伟.应用数理统计.北京航空航天大学,2004.9.
[2]周复恭,黄运成.应用线性回归分析.中国人民大学出版社,1989.8.
[3]中华人民共和国国家统计局.中国统计年鉴-2012.
[4]倪青山,刘小丹.SPSS应用•实验教程.湖南大学出版社,2007.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 我国各省市全运金牌情况的 聚类和判别分析 学位论文 我国 各省 市全运 金牌 情况 判别分析 学位 论文