7个径赛项目上的女子纪录的主成分分析处理.docx
- 文档编号:10942451
- 上传时间:2023-02-23
- 格式:DOCX
- 页数:14
- 大小:118.92KB
7个径赛项目上的女子纪录的主成分分析处理.docx
《7个径赛项目上的女子纪录的主成分分析处理.docx》由会员分享,可在线阅读,更多相关《7个径赛项目上的女子纪录的主成分分析处理.docx(14页珍藏版)》请在冰豆网上搜索。
7个径赛项目上的女子纪录的主成分分析处理
7个径赛项目上的女子纪录的
主成分分析处理(总11页)
-CAL-FENGHAI.-(YICAI)>CompanyOne1
■CAL■本页仅作为文档封面.使用请直接删除
7个径赛项目上的女子纪录的主成分分析处理
摘要本文通过主成分分析的相关方法,建立了评价55个国家和地区1984年前在7个径赛项目上的女子纪录的数学模型。
针对前两个问题,通过求解样本相关矩阵,再根据主成分分析的相关方法,利用MATLAB软件求得样本相关矩阵的特征值和相应正交单位化特征向量。
针对第三个问题,山第二个的求解结果进行相关的分析,确定两个主成分的具体意义。
第一主成分反应了各国家和地区的运动员的优秀程度;第二主成分反映了各国家和地区在短跑和长跑项目上的相对实力。
针对笫四个问题,III前两个问题的求解结果,然后基于第一样本主成分的得分对各国家和地区排序,得出的结果与从原始数据中得到的直观看法基本吻合。
最后本文针对两种不同方式得出结果的差异性进行了分析。
关键词主成分分析;相关矩阵;贡献率;第一样本主成分
一、问题重述
在实际问题的研究中,往往会涉及众多有关的变量。
但是变量太多不但会增加计算的复杂性,而且也给合理的分析问题和解释问题带来了困难,一般来说每个变量所提供的信息在一定程度上有所重叠,因而人们希望用为数较少的互不相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的LI的,主成分分析便是在这种降维的思想下产生的处理高维数据的方法([l])o
现请分析下表有关世界上55个国家和地区1984年前在7个径赛项目上的女子纪录数据(见附录),解决如下问题:
(1)求其样本相关矩阵R及它的特征值和相应正交单位化特征向量。
(2)求前两个标准化样本主成分及其累计贡献率。
(3)解释
(2)中的两个主成分的意义。
(4)基于第一样本主成分的得分对各国家和地区排疗;,这与你从原始数据中得到的直观看法是否基本吻合?
二、问题分析
分析问题可知,文中所给数据较多,首先要合理使用MATLAB软件对数据进行处理;要求解文中问题,主要基于主成分分析法的相关方法。
山文中数据可知,所给的七个变量有着不同的量纲,这会引起各变量取值的分散程度差异较大。
若用协方差矩阵求主成分,则优先照顾了方差大的变量,会造成很不合理的结果,为了消除III于量纲的不同可能带来的影响,故采用变量标准化的方法,即用相关矩阵求解。
对于前两个问题,可直接使用MATLAB中的相关函数进行求解。
求解结果可用表格表示。
对于笫三个问题,需要利用笫二个问题求解出的第一主成分和笫二主成分的表达式进行具体分析。
对于第四个问题,要先求各国家和地区的第一样本主成分的得分,然后再根据得分的高低具体分析。
最后针对文中的求解过程与求解结果,讨论模型的不足之处与需要改进的方法。
三、模型假设
假设题中所给数据均准确有效。
四、符号表示
符号
含义
S
R
儿
A
A
入
5
样本协方差矩阵样本相关矩阵主成分(/=1,2,3--7)特征值(/=1,2,3--7)标准化特征向量(/=1,2,3-7)
第i个主成分的贡献率(心123…7)
五、模型建立与求解
本文运用主成分分析法对高维数据进行了降维处理,其间通过求解样本的协方差矩阵与相关矩阵来分析主成分,期望通过较少的变量来反映样本数据的绝大部分信息,假设当主成分的累计贡献率达到80%时,即视为满足了提取原数据中绝大部分信息的要求。
模型建立与求解如下:
模型建立
设(xpx2,-,xj是”元总体,从中取得样本数据:
称为样品,引进样本数据观测矩阵
兀22 它是pxn矩阵,它的〃个列即是〃个样品九心,…心,它们组成来自"元总体 的样本。 观测矩阵X的卩个行变量分别是p个变量 X\X…、Xp 在川次试验中所取得的值。 样本协方差矩阵及相关矩阵分别为 其中 J=兀=一力心,J=12 n? -i 1”r %=—为(几一E)(兀一耳)i・j=、2…、P 11一1/-I 利用S和R求得的样本组成分有下述结论: 设S=gp“是样本协方差矩阵,其特征值为^>A2>---2p>0,相应的正交单位化向量为占鸟,…尙,这里£=©,右2,…吊卩,则第「个样本主成分为X=&、=占內+ei2x2+…+錦心,i=1,2,…,p 其中x=6‘2,…,亏丿为的X的任一观测值。 当依次代入X的“个观测值兀=(心,叫2,1%丿仗=1,2,-,“)时,便得到第i个样本主成分儿的”个观测值坯伙=1,2,…丿),此即为第i个主成分的得分。 为消除量纲的影响,我们可以对样本进行标准化,即令 则标准化数据的样本协方差矩阵即为原数据的样本相关矩阵/? 。 IIIR出发所求得的样本主成分称为标准化祥本主成分。 只要求出R的特征值及相应的正交单位化特征向量,类似上述结果可求得标准化样本主成分.这时标准化样本的样本总方差为卩。 实际应用中,将样本旺(21,2,…,仍代人各主成分中,可得到各样本主成分的观测值坯伙=12…,叩=12…丿)o 模型求解 本文通过求解样本相关矩阵,根据累计贡献率提取主成分,并对主成分的含义给岀了合理解释,最后对各国家的综合成绩进行排名。 求解相关矩阵 由题中所给数据,利用matlab求解,可得: 协方差矩阵S为 '0.2047 0.4938 1.0112 0.0356 0」092 0.2765 9.4469' 0.4938 1.3198 2.6289 0.0895 0.2622 0.6656 23.8551 1.0112 2.6289 7.1734 0.2604 0.6968 1.7206 57.5015 0.0356 0.0895 0.2604 0.0117 0.0322 0.0773 2.5665 0.1092 0.2622 0.6968 0.0322 0.1100 0.2651 &8425 0.2765 0.6656 1.7206 0.0773 0.2651 0.6824 22.5899 9.4469 23.8551 57.5015 2.5665 8.8425 22.5899 925.9861; 相关矩阵/? 为 (1.0000 0.9499 0.8344 0.7274 0.7280 0.7398 0.6861、 0.9499 1.0000 0.8544 0.7199 0.6884 0.7013 0.6824 0.8344 0.8544 1.0000 0.8984 0.7846 0.7777 0.7055 0.7274 0.7199 0.8984 1.0000 0.8966 0.8645 0.7793 0.7280 0.6884 0.7846 0.8966 1.0000 0.9678 0.8763 0.7398 0.7013 0.7777 0.8645 0.9678 1.0000 0.8987 0.6861 0.6824 0.7055 0.7793 0.8763 0.8987 1.0000丿 R的特征值及其正交单位化特征向量见表1和表2: 表1特征值及其贡献率 A 特征值 贡献率/(%) 累计贡献率 特征值对应的正交单位化特征向量 标准化变量 X; V4 X: X; 样本主成分分析 曲表1知前两个标准化样本主成分为 X=—0.3688门一0.364*2-0.3821^*3一0.3849兀\-0.3886%% -0.3890A-0.3674x*7 儿=-0.4855x\-0.5435^2-0.245k%+0.1594疋4+0.3618x1 +0.3489疋6+0.3616疋7 解出两个主成分的累计贡献率为,远远满足要求。 分析上述数据两个主成分的意义: 笫一主成分近似于各变量的等权重之和,它反应了各国家和地区的运动员的优秀程度。 第一主成分各标准化变量前的系数全部带负号,说明各个国家或地区的径赛项H上的女子纪录越高,则该项纪录上相应的数值越低,笫一主成分儿越大。 ”的贡献率达%,已能大致反映出一个国家或地区的女子运动员的优秀程度。 所以对某一国家或地区而言,如果山径赛项LI上的女子纪录所算出的笫一主成分大,则说明这个国家或地区1984年前在7个径赛项目上的女子成绩高,7个径赛项目上的女子运动员十分优秀;反之,则说明这个国家或地区的女子运动员表现一般。 第二主成分可用以度量各国家和地区在短跑和长跑项U上的相对实力。 第二组成分前三个标准化变量前的系数带负号,后四个标准化变量前的系数带正号。 这说明在100米,200米,400米项U上的成绩越差,在800米,1500米,3000米,马拉松项目上的成绩越好,第二主成分力越大。 因此儿反映了一个国家或地区的短跑项LI与长跑项LI的相对优势。 所以对某一国家或地区而言,如果ill径赛项□上的女子纪录所算岀的第二主成分大,则说明这个国家或地区1984年前在短跑项U上的女子成绩较差或在长跑项U上的成绩较好或是短跑项U成绩较差并且长跑项口成绩较好;反之,第二主成分小,则说明这个国家或地区的女子运动员在短跑项U上的女子成绩较好或在长跑项U上的成绩较差或是短跑项目成绩较好并且长跑项目成绩较差。 此外,第一主成分儿和第二主成分〉,2的累讣贡献率大,已能反映出大部分信息。 根据这两个量的大小,可大体判断出一个国家或地区径赛项目上的女子运动员的优秀程度和径赛上的优势与劣势。 各国家地区成绩排名 利用公式: 可先求出七个标准化变量,再利用中求第一主成分的公式: y,=-0.3688a-*! -0.3641%*2一0.382W—0.3849疋4—0.3886x1 —0.3890/6—0.3674^7 可依次得出每一个国家所对应的儿值,并按”的大小从大到小排序,得下表3所示,并根据表中数据对主成分进行分析: 表3基于第一样本主成分的得分对各国家和地区的排疗; 分析上表可知美国的儿值最大,为;其次为原西德,为,与美国相比,有较大差距;最小为西萨摩亚,为。 名次靠前的十儿个国家,儿主要集中分布在24,20,2&17这儿个数值左右;名次中等或靠后的国家,儿值之间大差距大致呈阶梯状下降。 由上述分析结论可知,基于第一样本主成分的得分对各国家和地区排序,与从原始数据中得到的直观看法基本吻合。 但从基于笫一样本主成分的得分对各国家和地区的排序表中,可以很方便地看岀各个国家或地区的七个径赛项LI上的女子运动员的整体水平。 而从原始数据中要得到一些结论是比较困难的。 山于原始数据内容较多,信息量庞大,难以直接有效地读出有用的数据。 转化为基于笫一样本主成分的得分排序表后,能够直观的得到大部分需要的信息。 六、模型评价与推广 采用样本协方差矩阵与样本相关矩阵处理数据称为主成分分析法,其使用简单方便,可快速对高维数据进行降维处理,且降维后的主成分可反映原数据中绝大部分信息,也就是说能够找到一组最佳的基于紧凑的方式来表达数据。 在主成分分析法中,提取了方差较大的主成分来代表原变量,从而大大减少了数据处理的工作量。 在综合评价函数中,各主成分的权数为其贡献率,它反映了该主成分包含原始数据的信息量占全部信息量的比重,这样确定的权数较为客观、合理(E2])o 但用主成分分析法处理数据时,有时对提取变量的并不能给出合理的解释,其变量不能像原始数据那样具有准确的意义,且在提取主成分时必须使主成分的累计贡献率达到一个较高的水平,才能得出一个较为准确的结果,这就使模型本身具有局限性。 主成分分析法虽然使用简单,但却是很多领域里非常有利的工具,可应用于物理中近红外光谱的分析以及核磁共振光谱数据的分析,化学中滴定实验分析,以及对食品功能特性的评价。 参考文献 [1]范金城,梅长林•数据分析•北京: 科学出版社,2002. 矩阵 Yl=[ 1112 11 Y2=[ 24 2324 25],; Y3=[ 52 55 ]'; Y4=[ 2 2 2 2 ]'; Y5=[ ]'; Y6=[ ]'; Y7=[ 233 306]'; Y二[Y1 Y2Y3 Y4Y5Y6Y7]; 样本协方差矩阵 »S=cov(Y) 样本协方差矩阵的正交单位化特征向量V3和特征值U3 [V1,U1]二eig(S) S的贡献率M z=L]; c=sum(z) M二z/c 样本相关矩阵 »Rl=corrcoef(Y) 样本相关矩阵的正交单位化特征向量V2和特征值U2 [V2,U2]=eig(R) R的贡献率Nw=[]; d=sum(W)N=W/d 数据表 表1世界上55个国家和地区1984年前在7个径赛项目上的女子纪录 国家和地区 100m/s 200m/s 400m/s 800m/mi n 1500m/min 3000m/min 马拉松/min 阿根廷 澳大利亚 奥地利 比利时 百慕大 巴西 缅甸 加拿大 智利 中国 哥伦比亚 库克岛 哥斯达黎加 捷克斯洛伐克 丹麦 多米尼加 芬兰 法国 原东德 原西德 英国 希腊 危地马拉 匈牙利 印度 印度尼西亚 爱尔兰 以色列 意大利 日本 肯尼亚 韩国 朝鲜 卢森堡 马兰西亚 毛里求斯 墨西哥 荷兰 新西兰 挪威 巴布亚新儿内亚 菲律宾 波兰 葡萄牙 罗马尼亚 新加坡 西班牙 瑞典 瑞士 中国台北 泰国 土耳其 美国 俄罗斯 西萨摩亚
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 径赛 项目 女子 纪录 成分 分析 处理