统计方案设计大赛论文范本.docx
- 文档编号:23319584
- 上传时间:2023-05-16
- 格式:DOCX
- 页数:22
- 大小:91.53KB
统计方案设计大赛论文范本.docx
《统计方案设计大赛论文范本.docx》由会员分享,可在线阅读,更多相关《统计方案设计大赛论文范本.docx(22页珍藏版)》请在冰豆网上搜索。
统计方案设计大赛论文范本
NBA球队战绩影响因素的统计分析
许世杰林炳灿肖林
厦门大学经济学院计划统计系
内容提要:
本文运用一系列统计分析方法对2008-2009赛季NBA参赛球队战绩进行影响因素研究。
实证结果表明:
(a)常规赛中球队核心球员的作用明显;(b)常规赛中主场优势确实存在;(c)通过在模型中加入主客场虚拟变量后,发现球队的常规赛战绩受到许多因素的影响;(d)替补球员能力和常规赛战绩也是季后赛战绩的重要影响因素。
以NBA为参考,我们对我国CBA的发展和球队建设提出了一些有针对性的建议。
关键词:
NBA;战绩;影响因素;统计分析
1引言
NBA的全称是全美职业篮球大联盟,创办于1946年,已有60多年的历史,现已成为全球范围最职业化、最市场化的大联盟之一。
NBA于1987年首次由中央电视台录播进入中国,并且随着姚明、易建联等的相继加入,使得这个世界上最高水平的篮球职业联赛越来越为中国人所了解和喜爱。
近年来,NBA在中国的发展受到人们越来越多的关注,其体育文化价值、商业价值等得到了充分的显现。
NBA比赛的看点不仅在于其速度、力量、对抗、激情和联赛中球员高超娴熟的技术、良好的意识和过人的身体素质,还在于NBA科学细致的选秀制度、转会制度和限薪制度等制衡体系保障各球队的实力较平均,没有哪一支球队有绝对的把握能战胜另一支球队,比赛的胜负往往充满悬念,正如NBA的口号一样“WhereAmazingHappen”。
NBA的发展为篮球运动在全球的普及和推广做出了突出的贡献。
球赛越是激烈,结果悬念越大,球迷就越想预测球赛的结果。
然而,球迷对球赛结果的预测基本上都是基于主观推断,有时还受个人对球队或球员偏好的影响,预测的科学性、准确性往往较差。
球队中核心球员的作用如何?
人们常说的主场优势是否显著存在?
季后赛与常规赛的主要影响因素分别是什么?
这些都是体育界专业人士和广大球迷关心的热门话题。
为此本文在参考了前人研究的基础上,试图充分利用各种统计分析方法对他们进行了较深入的研究。
其目的在于通过对NBA的球队战绩影响因素的统计建模分析,发现我国CBA存在的不足,借鉴NBA在这些方面的发展优势,从而针对当前CBA所存在的不足提出意见和建议,推动CBA更加健康长久地发展。
2研究现状简评
NBA在全球的极大影响力,致使国内外有不少文献对其进行过较深入和全面的研究。
在国外,Chatterjee、Campbell和Wiseman(1994)对NBA所有球队一个赛季的数据建立统计模型,对球队胜率进行回归分析,发现比赛得分、罚球、篮板和失误在统计上是显著的并且回归系数在各年数据之间都相对稳定;Hausman和Leonard(1997)使用计量经济学方法对NBA赛事明星出场率与其电视收视率、门票收入等进行了相关性研究,得出了正相关的结论;Gandar、Zuber 和Lamb(2001)等人对NBA博彩市场的主客场优势进行了分析;Leeds和Allmen(2003)在其著作《体育经济学》中对美国职业体育联盟的制衡机制进行了较深入的探讨;Mizak、Stair和Rossi(2004)使用胜率标准差、HHI等指标衡量了各大联盟的竞争性平衡,并指出所使用指标的优缺点;此外,国外学者还对NBA球员、裁判是否存在种族歧视、工资差异等各方面进行了研究。
国内的相关研究文献并不多,其研究特色归纳起来可分为三类:
(a)从市场营销的角度,对NBA的市场价值、品牌文化传播和在中国的市场营销情况等方面进行剖析;(b)从制度经济学角度,对NBA的人力制衡、收益制衡及权力制衡三项机制的功能及相关制度的运行原理展开深入研究;(c)从NBA比赛本身的技术角度,如球赛中冲抢技术、不同位置的球员、球员的攻防能力、球赛赛程安排等方面进行分析研究。
有关参考文献见刘素蓉等(2009)、吴福珍和王晓军(2009)等。
尽管这些研究文献较多,但绝大多数是使用文献资料、比较分析和录像观察等方法进行的研究,部分也使用了一些较简单的描述性统计分析方法,仅有少数使用统计建模方法进行实证分析。
由于分析的手段不同、角度不同,尚有许多问题没有涉足,尤其是基于统计建模方法对于NBA比赛胜负的影响因素进行较全面的分析,有待进一步深入。
为此本文综合多种统计定量方法,试图较全面地考察NBA比赛的影响因素,从而为我国体育专业人士,特别是CBA的健康发展提供有价值的参考建议。
3数据来源和指标选择
3.1数据来源
本文涉及2008-2009赛季NBA的以下指标数据:
30支球队各自核心球员的统计评价指标;30支球队每队82场比赛的各项统计指标。
有关数据分别来自虎扑网站(2009年7月20日)、搜狐网站(2009年7月24日和26日)和NBA官方网站(2009年7月23日)。
3.2指标选择
3.2.130支球队各自的核心球员和统计评价指标选择
核心球员的选择标准主要是综合考虑得分、首发率、上场时间等指标。
尽管有些球员综合实力很强,但由于伤病等原因,出场次数并不是很多,对整个球队的战绩影响不大,此时选择该队出场次数较多的次佳球员进行分析,本文所选择的30支球队各自的核心球员见表1。
表130支球队各自的核心球员
大西洋赛区
中部赛区
东南赛区
凯尔特人
保罗-皮尔斯
公牛
本-戈登
热火
德维恩-韦德
篮网
德文-哈里斯
骑士
勒布朗-詹姆斯
魔术
德怀特-霍华德
尼克斯
内特-罗宾逊
活塞
理查德-汉密尔顿
奇才
安托万-贾米森
76人
安德烈-伊戈达拉
步行者
丹尼-格兰杰
老鹰
乔-约翰逊
猛龙
克里斯-波什
雄鹿
理查德-杰弗森
山猫
杰拉德-华莱士
西南赛区
西北赛区
太平洋赛区
黄蜂
克里斯-保罗
掘金
卡梅罗-安东尼
国王
凯文-马丁
小牛
德克-诺维斯基
森林狼
埃尔-杰弗森
湖人
科比-布莱恩特
火箭
姚明
爵士
德隆-威廉姆斯
太阳
史蒂夫-纳什
灰熊
鲁迪-盖伊
开拓者
布兰顿-罗伊
勇士
斯蒂芬-杰克逊
马刺
蒂姆-邓肯
雷霆
凯文-杜兰特
快船
艾尔-索顿
由于不同球队的核心球员在场上的角色不同,各类指标之间差异较大,为综合考虑不同角色球员的不同能力,我们选取了能衡量球员各方面能力的12个指标(见表2),所有指标(出场数除外)均取场均值,其中除了失误和犯规是负指标外,其他均是正指标。
表2衡量球员核心球员能力的12个指标
出场数
出场时间
命中率
三分球
罚球
篮板
助攻
抢断
封盖
失误
犯规
得分
3.2.230支球队2008-2009常规赛季每队82场比赛的各项统计指标
30支球队2008-2009赛季每队82场常规赛的指标包括12个正指标和2个负指标。
其中正指标分别为:
每场比赛得分(ppg)、篮板(rpg)、抢断(spg)、盖帽(bpg)、助攻(apg)、投篮命中率(fg)、3分球命中率(threeft)、罚球命中率(ft)、球队价值(values)、工资总额(pay)、教练执教能力(coach)和核心球员能力(player);负指标分别为:
失误(to)和犯规(foul)。
3.2.3进入2008-2009季后赛的16支球队替补球员的各项统计指标
替补球员主要指在季后赛中的大部分比赛以替补球员身份出场的球员,每个球队大概有3-5名替补球员。
描述替补球员能力的指标与核心球员的指标一样。
鉴于季后赛的指标波动性较大的特点,此时使用常规赛指标,数据更稳定。
每支球队替补球员各项指标由各球队所有替补球员各项指标分别累加算得。
3.2.4进入2008-2009季后赛的16支球队季后赛所有比赛各项统计指标
进入2008-2009季后赛的16支球队的季后赛指标在常规赛指标的基础上增加本队常规赛胜率(bsl)、对手常规赛胜率(rival)和替补球员能力(tb),共15个指标。
4核心球员能力分析
4.1主成分分析
核心球员对各自球队的作用不可忽视,因此在进行球队胜率因素分析之前,先对各队核心球员进行分析,然而衡量球员的指标有很多,各指标之间有可能存在交互影响,故主要采用主成分分析方法对球员进行打分,之后,将对球员的分析结果作为影响球队胜率的变量进行考察,从而得到影响球队胜率的较全面客观的因素。
对表1中选定的核心球员的12项统计指标进行主成分分析,用SPSS软件计算每个球员的各类主成分得分,其结果见表3。
表3核心球员的各项统计指标进行主成分分析的结果
变量
第一主成分Y1
第二主成分Y2
第三主成分Y3
出场数
0.030577
0.028349
-0.51905
场均时间
0.254478
0.210734
-0.09975
投篮
0.150954
0.453246
-0.30942
三分球
0.361769
-0.16825
-0.12291
罚球
0.255533
0.365241
0.233043
篮板
-0.30818
0.405924
0.058989
助攻
0.384213
-0.17016
0.199813
抢断
0.377309
0.111003
0.123995
封盖
-0.27496
0.409272
0.248488
失误
0.287051
0.032439
0.578296
犯规
-0.31518
0.083328
0.268735
得分
0.270281
0.453977
-0.16825
分析表4,我们发现:
在第一个特征向量中,出场数、场均时间、投篮、三分球、罚球、助攻、抢断、失误和得分为正指标,篮板、封盖和犯规为负指标,其中以助攻(0.384)、抢断(0.377)、三分球(0.362)最为显著,可见第一主成分是对后卫、小前锋能力的描述;在第二个特征向量中,出场数、场均时间、投篮、罚球、篮板、封盖、抢断、失误、犯规、和得分为正指标,三分球和助攻为负指标,其中以投篮(0.453)、封盖(0.409)、罚球(0.365)、篮板(0.406)最为显著,可见第二主成分是对中锋和大前锋能力的描述;在第三个特征向量中,出场数、场均时间、投篮、三分球和得分为负指标,其他指标为正指标,其中以失误和出场最为显著,可见第三主成分为各类球员的反向指标,与球员位置关系不大。
由于第三主成分分析价值较低,此时主要分析第一和第二主成分。
根据原始指标和特征向量计算各个核心球员的第一、二主成分的得分,结果见下页表4。
表4核心球员的第一和第二主成分的得分
按第一主成分排序(从大到小)
按第二主成分排序(从大到小)
球员
Y1
Y2
球员
Y1
Y2
克里斯-保罗
3.733653
0.101985
德维恩-韦德
3.228255
3.177506
德维恩-韦德
3.228255
3.177506
德怀特-霍华德
-3.27856
2.920097
勒布朗-詹姆斯
2.631929
2.369743
勒布朗-詹姆斯
2.631929
2.369743
凯文-马丁
1.972969
0.16716
埃尔-杰弗森
-2.76202
2.118805
斯蒂芬-杰克逊
1.69209
-0.56694
德克-诺维斯基
-0.35122
1.939904
德隆-威廉姆斯
1.644285
-1.85248
克里斯-波什
-1.13543
1.695207
德文-哈里斯
1.56315
-0.71823
凯文-杜兰特
1.380865
1.369953
科比-布莱恩特
1.476076
1.2089
科比-布莱恩特
1.476076
1.2089
凯文-杜兰特
1.380865
1.369953
丹尼-格兰杰
0.283646
1.003009
乔-约翰逊
1.160829
-0.95566
姚明
-3.30216
0.974938
安德烈-伊戈达拉
0.928861
-0.83742
蒂姆-邓肯
-2.87164
0.523175
布兰顿-罗伊
0.829121
-0.3482
安托万-贾米森
-0.86072
0.431575
史蒂夫-纳什
0.709206
-3.82858
卡梅罗-安东尼
-0.4046
0.235598
本-戈登
0.379407
-1.45623
凯文-马丁
1.972969
0.16716
丹尼-格兰杰
0.283646
1.003009
克里斯-保罗
3.733653
0.101985
保罗-皮尔斯
0.203263
-0.64786
布兰顿-罗伊
0.829121
-0.3482
德克-诺维斯基
-0.35122
1.939904
斯蒂芬-杰克逊
1.69209
-0.56694
卡梅罗-安东尼
-0.4046
0.235598
杰拉德-华莱士
-1.54053
-0.57441
安托万-贾米森
-0.86072
0.431575
保罗-皮尔斯
0.203263
-0.64786
鲁迪-盖伊
-0.99224
-0.78302
德文-哈里斯
1.56315
-0.71823
理查德-杰弗森
-1.09936
-1.25572
鲁迪-盖伊
-0.99224
-0.78302
克里斯-波什
-1.13543
1.695207
安德烈-伊戈达拉
0.928861
-0.83742
理查德-汉密尔顿
-1.25736
-2.35015
乔-约翰逊
1.160829
-0.95566
内特-罗宾逊
-1.31268
-2.99437
艾尔-索顿
-2.64908
-1.06828
杰拉德-华莱士
-1.54053
-0.57441
理查德-杰弗森
-1.09936
-1.25572
艾尔-索顿
-2.64908
-1.06828
本-戈登
0.379407
-1.45623
埃尔-杰弗森
-2.76202
2.118805
德隆-威廉姆斯
1.644285
-1.85248
蒂姆-邓肯
-2.87164
0.523175
理查德-汉密尔顿
-1.25736
-2.35015
德怀特-霍华德
-3.27856
2.920097
内特-罗宾逊
-1.31268
-2.99437
姚明
-3.30216
0.974938
史蒂夫-纳什
0.709206
-3.82858
由表5可以看出,描述后卫的指标(第一主成分)以克里斯-保罗的得分最多,德维恩-韦德和勒布朗-詹姆斯紧跟其后,而作为中锋的蒂姆-邓肯、德怀特-霍华德、姚明等在这方面则不占优势,排在靠后的位置。
描述前锋和中锋的指标(第二主成分)以德维恩-韦德的得分最多,两个主成分得分均很高,说明德维恩-韦德的数据较全面,紧跟其后的是德怀特-霍华德等中锋和大前锋,而数据天王勒布朗-詹姆斯也居于第三位,名副其实。
其中08-09赛季最抢眼的球星科比-布莱恩特的两项指标均名列第八,表现较全面,但相对德维恩-韦德和勒布朗-詹姆斯并不是很突出,此时一方面是指标的局限性,另一方面也说明球队取得好的战绩核心球员并不一定要表现极其优秀。
作为中国球迷最为关注的球星姚明,在第一主成分排名中排30名,在描述前锋和中锋的指标(第二主成分)的指标中也排名第10位。
这些数据显示,一方面,姚明还不是联盟最好的中锋,还需要继续在各方面加强训练;另一方面,有些指标在这里可能没能得到体现,比如尽管姚明封盖能力不是很好,但凭借其NBA第一高度,给进攻球员于极大的进攻压力,这点也是其防守能力的一大体现。
我们发现12个技术指标可以用两个综合指标代替,而综合指标的信息没有损失多少。
在此基础上,我们不仅可以算出各球员的主成分得分,而且可以利用线性加权方法,以各主成分的方差贡献率为权数,即按公式:
(1)
其中
为各主成分的方差,各主成分前的权数为主成分的方差贡献率。
计算各核心球员的综合得分(即为本文分析的核心球员能力)并据此排名(见表5)。
表5球队核心球员总的得分和排名
球员
综合得分
排名
球员
综合得分
排名
德维恩-韦德
1.826056
1
保罗-皮尔斯
-0.00762
16
克里斯-保罗
1.402603
2
卡梅罗-安东尼
-0.05151
17
勒布朗-詹姆斯
1.397285
3
布兰顿-罗伊
-0.08551
18
科比-布莱恩特
0.631979
4
本-戈登
-0.31935
19
凯文-杜兰特
0.613568
5
安托万-贾米森
-0.41091
20
斯蒂芬-杰克逊
0.549019
6
鲁迪-盖伊
-0.46354
21
凯文-马丁
0.465325
7
姚明
-0.46797
22
德文-哈里斯
0.427943
8
杰拉德-华莱士
-0.49506
23
丹尼-格兰杰
0.294483
9
史蒂夫-纳什
-0.51567
24
德隆-威廉姆斯
0.204022
10
理查德-杰弗森
-0.65725
25
德怀特-霍华德
0.197981
11
蒂姆-邓肯
-0.67997
26
安德烈-伊戈达拉
0.130421
12
埃尔-杰弗森
-0.68698
27
德克-诺维斯基
0.082506
13
内特-罗宾逊
-1.10306
28
乔-约翰逊
0.014869
14
理查德-汉密尔顿
-1.1426
29
克里斯-波什
0.010962
15
艾尔-索顿
-1.16203
30
主成分得分是综合考虑各个变量和主成分的方差贡献计算而得,从表中可见:
第一、二主成分指标最靠前的德维恩-韦德、克里斯-保罗、勒布朗-詹姆斯的综合得分仍然很高而相对来说比较靠后的科比-布莱恩特此时排第四名,可见综合考虑各个因素之后,主成分得分较能体现球员的全面能力。
姚明仍然排在22名,较靠后,原因与之前分析的一样。
4.2聚类分析
核心球员的个人能力越强就越能带领球队取得胜利吗?
针对这一问题,我们主要考虑的是球队胜率和核心球员能力之间的关系,本文采用系统聚类法进行分析。
系统聚类法的基本思想是:
距离相近的样本先聚成类,距离相远的后聚成类,过程一直进行下去,每个样本总能聚到合适的类中。
原理可在一般教科书中发现,不再详述。
通过聚类分析,我们想了解各个球队与其核心球员个人能力之间的影响程度。
图1是聚类树状图,图形结构清晰。
图形上面是类间距离,下面数字是球队代号,整个聚类过程用虚线连接。
根据聚类研究的目的和差异的显著性,我们将其聚成以下四类:
类别1:
湖人(13)、魔术(22)、骑士(5)和凯尔特人
(2)。
此类球队核心球员表现好,而且球队战绩也很好,均排在各自所在赛区的前列,球员价值在这类球队得到体现。
类别2:
热火(15)和黄蜂(19)。
此类球队核心球员表现好,德维恩-韦德、克里斯-保罗在两个主成分中均排在最前列,但是球队战绩不好,其中热火排在东部第5,胜率为52.4%,黄蜂排在西部第七,球员价值在这类球队没能完全体现。
类别3:
活塞(8)、尼克斯(20)、快船(12)、灰熊(14)、奇才(30)、山猫(3)、雄鹿(16)、和森林狼(17)。
此类球队核心球员表现不好,在主成分得分中均排在较靠后的位置,球队战绩也不是特别好,均排在联盟的靠后位置。
类别4:
掘金(7)、火箭(10)和开拓者(25)等其余球队。
此类球队核心球员表现一般,在主成分得分中均排在较中间的位置,球队战绩较好,但仍有一定的前进空间。
此类球队核心球员表现和球队战绩与类别一的球队相比较差,但与其他类别的球队相比则较优。
图1球队战绩和核心球员能力之间关系的聚类结果
4.3相关分析
聚类分析的结果显示,不同球队中球队战绩和和核心球员能力之间的相关程度不一致,但究竟关系如何,还应计算二者的相关系数。
球队战绩使用常规赛胜场数,核心球员指标使用主成分分析得到的核心球员综合得分指标,分别计算Pearson相关系数和Spearman秩相关系数,结果见表6。
表6球队常规赛战绩与球队核心球员的相关系数结果
相关系数值
P值
Pearson相关系数
0.31
0.045
Spearman秩相关系数
0.24
0.055
从表6可知,在6%的显著水平下均拒绝原假设,两种相关系数算得的球员得分和球队战绩之间都是显著正相关,只是相关程度都不是很高。
这是因为部分球队相关性较高,而部分球队较低,从而使得总体相关程度不是特别高。
5主客场差异分析
5.1主客场胜场数差异检验
球队在主客场的战绩有所不同,然而这种差异是否显著呢?
本文的检验步骤为:
首先对数据进行正态性检验,若服从正态分布,则使用配对样本的t检验;若不服从正态分布,则使用非参数的Wilcoxon秩和检验。
由于30支球队的主客场胜场数的分布未知,故先对其主客场胜场数分别进行正态性检验。
结果如正态概率图2和图3,可以看出:
主客场胜场数的概率图均近似线性,AD统计量都比较小,分别为0.466,0.375,P值较大分别为0.235,0.395,在0.05的显著水平下,无法拒绝原假设,故认为30支球队的主客场胜场数服从正态分布,接着对其主客场差异使用配对样本的t检验。
计算得的t值为8.34,P值为0.000,说明主客场胜场数存在着显著的差异,确实存在明显的主场优势。
图2主场胜场数正态概率图图3客场胜场数正态概率图
5.2主客场差异原因分析
使用配对样本t检验得出主客场差异存在,但究竟差异具体表现在哪些因素上呢?
故对30支球队主客场的各项指标采用非参数检验中的Mann-Whitney检验进行分析。
Mann-Whitney检验原理是将所有两组变量的所有观察值混合后进行排列,比较小的变量的观察值倾向于排在前面,比较大的变量的观察值倾向于排在后面,从而计算所有观察值的秩,并算出U统计量,当两组变量的U统计量较大时,就存在差异,否则不存在。
分析的因素主要包括每场比赛得分、助攻、篮板、抢断、盖帽、失误、犯规。
其中前五个指标为正指标,失误和犯规为逆指标。
设原假设为
:
考察指标主客场不存在差异;备选假设为
:
正指标变量主场大于客场(负指标变量主场小于客场),利用Mann-Whitney检验,在显著水平为1%的单侧检验下,检验结果见表7。
表7主客场差异原因分析的Mann-Whitney检验结果
变量
得分
助攻
篮板
抢断
盖帽
失误
犯规
W值
1395261
1368822
1412295
1476997
1396534
1545219
1588176
显著性
显著
显著
显著
显著
显著
显著
显著
由表7可知,研究的所有因素均严格体现主客场差异,主场的各项正指标显著大于客场,负指标显著小于客场,可见球队主客场战绩差异显著地表现在球队的各个方面。
6常规赛球队战绩的影响因素分析
鉴于主客场各项指标的差异,以比赛净胜分(result)为因变量,以其他14个球队赛季指标(见第3节)为自变量,自变量还加入主客场因素(field)作为虚拟变量(主场值为2,客场值为1),虚拟变量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 方案设计 大赛 论文 范本