北航数理统计大作业2聚类与判别分析.docx
- 文档编号:6833512
- 上传时间:2023-01-11
- 格式:DOCX
- 页数:24
- 大小:126.26KB
北航数理统计大作业2聚类与判别分析.docx
《北航数理统计大作业2聚类与判别分析.docx》由会员分享,可在线阅读,更多相关《北航数理统计大作业2聚类与判别分析.docx(24页珍藏版)》请在冰豆网上搜索。
北航数理统计大作业2聚类与判别分析
应用数理统计作业二
学号:
姓名:
电话:
二〇一四年十二月
对NBA球队的聚类分析和判别分析
摘要:
NBA联盟作为篮球的最高殿堂深受广大球迷的喜爱,联盟的30支球队大家也耳熟能详,本文选取NBA联盟30支球队2013-2014常规赛赛季场均数据。
利用spss软件通过聚类分析对27个地区进行实力类型分类,并利用判断分析对其余3支球队对分类结果进行验证。
可以看出各球队实力类型与赛季实际结果相吻合。
关键词:
聚类分析,判别分析,NBA
目录
1.引言3
2、相关统计基础理论5
2.1、聚类分析5
2.2,判别分析6
3.聚类分析7
3.1数据文件7
3.2聚类分析过程8
3.3聚类结果分析11
4、判别分析12
4.1判别分析过程12
4.2判别检验17
5、结论20
参考文献21
致谢22
1.引言
1896年,美国第一个篮球组织"全国篮球联盟(简称NBL)"成立,但当时篮球规则还不完善,组织机构也不健全,经过几个赛季后,该组织就名存实亡了。
1946年4月6日,由美国波士顿花园老板沃尔特.阿.布朗发起成立了“美国篮球协会”(简称BAA)。
1949年在布朗的努力下,美国两大篮球组织BAA和NBL合并为“全国篮球协会”(简称NBA)。
NBA季前赛是NBA各支队伍的热身赛,因为在每个赛季结束后,每支球队在阵容上都有相当大的变化,为了让各队磨合阵容,熟悉各自球队的打法,确定各队新赛季的比赛阵容、同时也能增进队员、教练员之间的沟通,所以在每个赛季开始之前,NBA就举办若干场季前赛,使他们能以比较好的状态投入到漫长的常规赛的比赛当中。
为了扩大NBA在全球的影响,季前赛有约三分之一的球队在美国以外的国家举办。
从总体上看,NBA的赛程安排分为常规赛、季后赛和总决赛。
常规赛采用主客场制,季后赛和总决赛采用七场四胜制的淘汰制。
[31]
NBA常规赛从每年的11月的第一个星期二开罗,到次年的4月20日左右结束。
在这期间,30支球队总共要进行1189场常规赛,每支球队要打满82场比赛,主客场各占一半。
季后赛从4月下旬开始进行,直到6月中旬决出总冠军为止。
NBA分为东西两个联盟,每个联盟各有三个赛区。
在常规赛中每支球队与同一赛区的球队要打四场,与同一联盟不同赛区的球队打三到四场,与另一联盟的球队打两场。
一个赛季每支球队在自己的主场至少与其它29支球队进行一次交锋。
常规赛的赛程比较紧凑,球队在每个星期有三到四场比赛,而且每个赛季都有不同程度的“背靠背作赛”、连续客场作赛等难度赛程。
在常规赛中,有两个日子的比赛是NBA联盟经过精心安排的,那就是第一天的揭幕战和圣诞节的圣诞大战。
在这两个特殊的日子里,联盟往往会刻意安排最具人气的球星之间进行对垒,以最大限度地吸引观众的眼球。
NBA全明星赛是一项表演性的赛事,最初提出这个创意是的当时的NBA总部公关部负责人哈斯克·科恩的,而创意则源自于全美职业棒球联赛全明星赛,目的自然是为了进一步宣传NBA。
1951年波士顿成为了首届赛事的举办城市,当时的全明星赛只有全明星对抗赛一项活动。
第一届扣篮大赛始于1984年丹佛全明星赛。
1986年达拉斯全明星赛,三分远投大赛产生。
1994年明尼亚波利斯全明星赛,新秀挑战赛首次加入。
技巧挑战赛开始于2003年。
2004年全明星赛有了混合投篮赛。
NBA季后赛(NBAPlayoffs)在每年4月下旬开始,东西部各有八支球队获得季后赛资格。
东西两个联盟中各个赛区的冠军加上成绩最好的赛区的第二名组成前四号种子,这四支球队再按照常规赛的成绩依次排为一到四号种子。
剩余四支球队则按成绩依次排为五到八号种子。
季后赛采用七场四胜制,采用2-2-1-1-1的主场分配方法,拥有四个主场的一方将会在第一、二、五(如果需要)、七(如果需要)场比赛坐镇主场,第三、四、六(如果需要)场则是征战客场。
对阵双方的主场优势并非均衡。
季后赛包括总决赛一共有四轮,第二轮叫分区半决赛,第三轮叫分区决赛,获胜球队称为分区冠军,东西部分区冠军晋级总决赛,七局四胜者为当赛季总冠军,总冠军球队中表现最优秀的球员获得总决赛MVP荣誉。
2、相关统计基础理论
2.1、聚类分析
聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。
聚类分析的目标就是在相似的基础上收集数据来分类。
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。
传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。
采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。
本文使用统计软件SPSS对所收集的数据进行快速聚类,其特点是:
在确定类别数量基础上,先给定一个粗糙的初始分类,然后按照某种原则进行反复修改,直至分类较为合理。
在选定类中心作为凝聚点的基础上进行分类和修正的方法有很多,本文使用的是K-Means算法。
K-Means算法接受输入量k;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:
同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。
聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。
K-Means算法的工作过程说明如下:
首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。
一般都采用均方差作为标准测度函数。
一般而言,k个聚类具有以下特点:
各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
2.2,判别分析
判别分析是市场研究的重要分析技术,也是多变量分析技术。
它可以就一定数量的个体的一个分类变量和相应的其它多元变量的已知信息,确定分类变量与其它多元变量之间的数量关系,建立判别函数,并利用判别函数构建Biplot二元判别图(概念图)。
同时,利用这一数量关系对其他已知多元变量的信息、但未知分组的子类型的个体进行判别分组。
判别分析属于监督类分析方法,例如:
市场细分研究中,常涉及判别个体所属类型的问题,也常涉及不同品牌在一组产品属性之间的消费者偏好和认知概念,判别分析可以很好地对这种差异进行鉴别。
并在低维度空间表现这种差异。
判别分析主要有距离判别、贝叶斯(Bayes)判别、费舍尔(Fisher)判别等几种常用方法。
距离判别的基本原理是:
首先对样本到总体G之间的距离进行合理规定,然后依照“就近”原则判定样本的归属,常用马氏距离(Mahalanobis)规定为:
式中
为p元总体G的协方差阵,x是取自G的样品,则该式即为样品x到总体G的马氏距离。
贝叶斯判别既考虑了先验分布产生的影响,也考虑到误判损失产生的影响,是衡量一个判别优劣的比较合理的准则。
费舍尔判别的基本思想与主成分分析十分相似,当总体是高维向量时,先把其综合成一个一维变量,然后在对一维变量进行距离判别,费舍尔判别实际上是一种降维处理,降维压缩后,样品y到各个总体
的距离可以用欧式距离度量,即:
由此导出Fisher判别规则为:
,则
本文及使用Fisher判别建立线性判别函数进行距离判别。
即对某球队的分组Fisher函数值,哪组函数值最大,则球队归为哪一组。
3.聚类分析
本文选取了NBA联盟30支球队2013-2014常规赛赛季场均数据来研究联盟实力分布规律,由于是对个案进行聚类,所以采用K-均值聚类,根据实际情况,先将27支球队实力类型划分为3类。
3.1数据文件
表0
变量
水平
x1
投篮
x2
三分
x3
篮板
x4
助攻
x5
抢断
x6
得分
将从www.stat-(NBA中文数据库)中收集到的数据输入到数据文件中,如下表所示。
表1
球队
投篮
三分
篮板
助攻
抢断
得分
亚特兰大老鹰
45.80%
36.30%
40
24.9
8.3
101
布鲁克林篮网
45.90%
36.90%
38.1
20.9
8.6
98.5
波士顿凯尔特人
43.50%
33.20%
42.5
21
7.1
96.2
夏洛特山猫
44.20%
35.10%
42.7
21.7
6.1
96.9
芝加哥公牛
43.20%
34.80%
44.2
22.7
7.2
93.7
克里夫兰骑士
43.70%
35.70%
44.1
21.2
7.1
98.2
达拉斯小牛
47.40%
38.40%
40.9
23.6
8.6
104.8
丹佛掘金
44.70%
35.80%
45.4
22.4
7.5
104.4
底特律活塞
44.70%
32.10%
45.4
20.9
8.4
101
金州勇士
46.20%
38.00%
45.3
23.3
7.8
104.3
休斯顿火箭
47.20%
35.70%
45.3
21.4
7.6
107.7
印第安纳步行者
44.90%
35.70%
44.7
20.1
6.7
96.7
洛杉矶快船
47.40%
35.20%
43
24.6
8.6
107.9
洛杉矶湖人
45.00%
38.10%
41
24.5
7.5
103
孟菲斯灰熊
46.40%
35.30%
42.4
21.9
7.7
96.1
迈阿密热火
50.10%
36.40%
36.9
22.5
8.9
102.2
密尔沃基雄鹿
43.80%
35.30%
41.1
21.5
6.6
95.5
明尼苏达森林狼
44.40%
34.10%
44.7
24
8.8
106.9
新奥尔良鹈鹕
45.90%
37.30%
41.7
21.3
7.9
99.7
纽约尼克斯
44.90%
37.20%
40.3
20
7.7
98.6
俄克拉荷马雷霆
47.10%
36.10%
44.7
21.9
8.3
106.2
奥兰多魔术
44.50%
35.30%
42
21
7.7
96.5
费城76人
43.50%
31.20%
42.7
21.8
9.3
99.5
菲尼克斯太阳
46.30%
37.20%
43
19.1
8.4
105.2
波特兰开拓者
45.00%
37.20%
46.5
23.2
5.6
106.7
萨克拉门托国王
44.70%
33.30%
44.5
18.9
7.2
100.5
圣安东尼奥马刺
48.60%
39.70%
43.3
25.2
7.4
105.4
多伦多猛龙
44.50%
37.20%
42.5
21.2
7
101.3
犹他爵士
44.40%
34.40%
41.2
20.3
7
95
华盛顿奇才
45.90%
37.90%
42.2
23.3
8.1
100.7
3.2聚类分析过程
采用统计软件SPSS可以快速方便的将样本分类,“K-均值聚类”将样本分为设定好的三类,分类结果如下:
表2
初始聚类中心
聚类
1
2
3
投篮
45.000%
50.100%
43.200%
三分
37.200%
36.400%
34.800%
篮板
47
37
44
助攻
23.2
22.5
22.7
抢断
5.6
8.9
7.2
得分
107
102
94
表3
迭代历史记录a
迭代
聚类中心内的更改
1
2
3
1
3.521
4.233
4.414
2
.333
.667
.000
3
.000
.682
.382
4
.000
.000
.000
a.由于聚类中心内没有改动或改动较小而达到收敛。
任何中心的最大绝对坐标更改为.000。
当前迭代为4。
初始中心间的最小距离为12.265。
表4
聚类成员
案例号
球队
聚类
距离
1
亚特兰大老鹰
2
2.764
2
布鲁克林篮网
2
2.985
3
波士顿凯尔特人
3
1.953
4
夏洛特山猫
3
1.78
5
芝加哥公牛
3
4.239
6
克里夫兰骑士
3
1.955
7
达拉斯小牛
1
4.13
8
丹佛掘金
1
2.836
9
底特律活塞
3
4.877
10
金州勇士
1
2.396
11
休斯顿火箭
1
2.855
12
印第安纳步行者
3
2.522
13
洛杉矶快船
1
3.481
14
洛杉矶湖人
2
3.977
15
孟菲斯灰熊
3
2.927
16
迈阿密热火
2
5.121
17
密尔沃基雄鹿
3
3.201
18
明尼苏达森林狼
1
3.794
19
新奥尔良鹈鹕
2
2.479
20
纽约尼克斯
2
3.411
21
俄克拉荷马雷霆
1
1.515
22
奥兰多魔术
3
1.908
23
费城76人
3
4.38
24
菲尼克斯太阳
1
4.094
25
波特兰开拓者
1
3.644
26
萨克拉门托国王
3
4.198
27
圣安东尼奥马刺
1
4.499
表5
每个聚类中的案例数
聚类
1
10.000
2
6.000
3
11.000
有效
27.000
缺失
.000
表6
最终聚类中心
聚类
1
2
3
投篮
46.430%
46.267%
44.282%
三分
36.740%
37.033%
34.273%
篮板
44
40
43
助攻
22.9
22.3
21.2
抢断
7.9
8.2
7.4
得分
106
101
97
表7
最终聚类中心间的距离
聚类
1
2
3
1
7.128
9.421
2
7.128
6.062
3
9.421
6.062
表8
ANOVA
聚类
误差
F
Sig.
均方
df
均方
df
投篮
14.245
2
1.823
24
7.814
.002
三分
21.810
2
2.162
24
10.086
.001
篮板
40.757
2
2.447
24
16.658
.000
助攻
8.042
2
2.418
24
3.326
.053
抢断
1.316
2
.722
24
1.823
.183
得分
195.984
2
3.455
24
56.730
.000
F检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。
观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。
3.3聚类结果分析
表9
聚类成员
案例号
球队
聚类
距离
7
达拉斯小牛
1
4.13
8
丹佛掘金
1
2.836
10
金州勇士
1
2.396
11
休斯顿火箭
1
2.855
13
洛杉矶快船
1
3.481
18
明尼苏达森林狼
1
3.794
21
俄克拉荷马雷霆
1
1.515
24
菲尼克斯太阳
1
4.094
25
波特兰开拓者
1
3.644
27
圣安东尼奥马刺
1
4.499
1
亚特兰大老鹰
2
2.764
2
布鲁克林篮网
2
2.985
14
洛杉矶湖人
2
3.977
16
迈阿密热火
2
5.121
19
新奥尔良鹈鹕
2
2.479
20
纽约尼克斯
2
3.411
3
波士顿凯尔特人
3
1.953
4
夏洛特山猫
3
1.78
5
芝加哥公牛
3
4.239
6
克里夫兰骑士
3
1.955
9
底特律活塞
3
4.877
12
印第安纳步行者
3
2.522
15
孟菲斯灰熊
3
2.927
17
密尔沃基雄鹿
3
3.201
22
奥兰多魔术
3
1.908
23
费城76人
3
4.38
26
萨克拉门托国王
3
4.198
案例号27圣安东尼奥马刺队分在了第一类,实际上13-14赛季马刺队获得了NBA总冠军,案例号21俄克拉荷马雷霆也分在了第一类,该队球员凯文·杜兰特荣获14年MVP。
4、判别分析
4.1判别分析过程
一般来讲,利用判别分析首先要明确变量测量尺度及变量的类型和关系;因变量(dependentvariable):
分组变量——定性数据(个体、产品/品牌、特征,定类变量)。
自变量(independentvariable):
判别变量——定量数据(属性的评价得分,数量型变量)。
a、打开“Analyze”主菜单中的“Classify”,选择“DiscriminantAnalysis”选项,进入主对话框。
b、在“GroupingVariable”中输入变量名“类别”。
变量名后的小括号内输入1和3作为分组标量取值的上下界。
c、在“Independents”中输入工业、建筑业、运输业、批发零售业、住宿餐饮业、金融业、房地产业、其他服务业。
d、选择“Enterindependenstogether”方法进行分析。
e、“Statistics”按钮中选择选择所有的复选框。
f、“Classify”按钮中选择所有的复选框。
各项确认后,点击运行。
(1)统计量
表10
组统计量
案例的类别号
均值
标准差
有效的N(列表状态)
未加权的
已加权的
1
投篮
46.43000
1.368738
10
10.000
三分
36.74000
1.674780
10
10.000
篮板
44.21000
1.640765
10
10.000
助攻
22.87000
1.765754
10
10.000
抢断
7.86000
.941866
10
10.000
得分
105.95000
1.320984
10
10.000
2
投篮
46.26667
1.931493
6
6.000
三分
37.03333
.662319
6
6.000
篮板
39.66667
1.818424
6
6.000
助攻
22.35000
1.993740
6
6.000
抢断
8.15000
.543139
6
6.000
得分
100.50000
1.878297
6
6.000
3
投篮
44.28182
.907544
11
11.000
三分
34.27273
1.564027
11
11.000
篮板
43.30000
1.340149
11
11.000
助攻
21.15455
1.004354
11
11.000
抢断
7.37273
.886669
11
11.000
得分
97.34545
2.226371
11
11.000
合计
投篮
45.51852
1.666880
27
27.000
三分
35.80000
1.916728
27
27.000
篮板
42.82963
2.322435
27
27.000
助攻
22.05556
1.688270
27
27.000
抢断
7.72593
.876002
27
27.000
得分
101.23333
4.273712
27
27.000
表11
组均值的均等性的检验
Wilks的Lambda
F
df1
df2
Sig.
投篮
.606
7.814
2
24
.002
三分
.543
10.086
2
24
.001
篮板
.419
16.658
2
24
.000
助攻
.783
3.326
2
24
.053
抢断
.868
1.823
2
24
.183
得分
.175
56.730
2
24
.000
(2)协方差矩阵的均等性的箱式检验
表12
对数行列式
案例的类别号
秩
对数行列式
1
6
.407
2
.a
.b
3
6
-.213
汇聚的组内
6
2.288
打印的行列式的秩和自然对数是组协方差矩阵的秩和自然对数。
a.秩<6
b.案例太少无法形成非奇异矩阵
(3)典型判别式函数摘要
表13
特征值
函数
特征值
方差的%
累积%
正则相关性
1
11.514a
87.7
87.7
.959
2
1.612a
12.3
100.0
.786
a.分析中使用了前2个典型判别式函数。
该表中各项为前两个判别函数的特征值、占总方差的百分数、累加百分数和正规相关系数。
从表中我们看到,因为分组变量是三类,所以我们得到两个判别函数,其中第一判别函数解释了数据的87.7%,第二判别函数解释了12.3%;两个判别函数解释了100%;当然,两个判别函数直接具有显著的差异和判别力。
表14
Wilks的Lambda
函数检验
Wilks的Lambda
卡方
df
Sig.
1到2
.031
74.968
12
.000
2
.383
20.642
5
.001
该表中各项为Wilk值、卡方值、自由度和显著性概率。
当显著性概率小于0.05时,拒绝原假设,认为组间均值不相等。
表中卡方值对应的p<0.001,表示整个判别模型有意义。
表15
标准化的典型判别式函数系数
函数
1
2
投篮
-.440
.461
三分
1.232
-.316
篮板
-.072
1.124
助攻
-.038
.100
抢断
.522
-.029
得分
1.216
-.136
典型判别式函数系数
函数
1
2
投篮
-.326
.342
三分
.838
-.215
篮板
-.046
.718
助攻
-.024
.064
抢断
.614
-.035
得分
.654
-.073
(常量)
-83.630
-32.382
非标准化系数
非标准化典型判别方程为:
表16
组质心处的函数
案例的类别号
函数
1
2
1
3.57
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 北航 数理统计 作业 判别分析