书签分享收藏举报版权申诉 / 14

立即下载加入VIP,免费下载

当前位置：首页 > 教学研究 > 教学反思汇报 > 7个径赛项目上的女子纪录的主成分分析处理.docx

7个径赛项目上的女子纪录的主成分分析处理.docx

文档编号：10942451
上传时间：2023-02-23
格式：DOCX
页数：14
大小：118.92KB

《7个径赛项目上的女子纪录的主成分分析处理.docx》由会员分享，可在线阅读，更多相关《7个径赛项目上的女子纪录的主成分分析处理.docx（14页珍藏版）》请在冰豆网上搜索。

7个径赛项目上的女子纪录的主成分分析处理.docx

7个径赛项目上的女子纪录的主成分分析处理

7个径赛项目上的女子纪录的

主成分分析处理（总11页）

-CAL-FENGHAI.-（YICAI）>CompanyOne1

■CAL■本页仅作为文档封面.使用请直接删除

7个径赛项目上的女子纪录的主成分分析处理

摘要本文通过主成分分析的相关方法，建立了评价55个国家和地区1984年前在7个径赛项目上的女子纪录的数学模型。

针对前两个问题，通过求解样本相关矩阵，再根据主成分分析的相关方法，利用MATLAB软件求得样本相关矩阵的特征值和相应正交单位化特征向量。

针对第三个问题，山第二个的求解结果进行相关的分析，确定两个主成分的具体意义。

第一主成分反应了各国家和地区的运动员的优秀程度；第二主成分反映了各国家和地区在短跑和长跑项目上的相对实力。

针对笫四个问题，III前两个问题的求解结果，然后基于第一样本主成分的得分对各国家和地区排序，得出的结果与从原始数据中得到的直观看法基本吻合。

最后本文针对两种不同方式得出结果的差异性进行了分析。

关键词主成分分析；相关矩阵；贡献率；第一样本主成分

一、问题重述

在实际问题的研究中，往往会涉及众多有关的变量。

但是变量太多不但会增加计算的复杂性，而且也给合理的分析问题和解释问题带来了困难，一般来说每个变量所提供的信息在一定程度上有所重叠，因而人们希望用为数较少的互不相关的新变量来反映原变量所提供的绝大部分信息，通过对新变量的分析达到解决问题的LI的，主成分分析便是在这种降维的思想下产生的处理高维数据的方法（[l]）o

现请分析下表有关世界上55个国家和地区1984年前在7个径赛项目上的女子纪录数据（见附录），解决如下问题：

（1）求其样本相关矩阵R及它的特征值和相应正交单位化特征向量。

（2）求前两个标准化样本主成分及其累计贡献率。

（3）解释

（2）中的两个主成分的意义。

（4）基于第一样本主成分的得分对各国家和地区排疗;，这与你从原始数据中得到的直观看法是否基本吻合？

二、问题分析

分析问题可知，文中所给数据较多，首先要合理使用MATLAB软件对数据进行处理；要求解文中问题，主要基于主成分分析法的相关方法。

山文中数据可知，所给的七个变量有着不同的量纲，这会引起各变量取值的分散程度差异较大。

若用协方差矩阵求主成分，则优先照顾了方差大的变量，会造成很不合理的结果，为了消除III于量纲的不同可能带来的影响，故采用变量标准化的方法，即用相关矩阵求解。

对于前两个问题，可直接使用MATLAB中的相关函数进行求解。

求解结果可用表格表示。

对于笫三个问题，需要利用笫二个问题求解出的第一主成分和笫二主成分的表达式进行具体分析。

对于第四个问题，要先求各国家和地区的第一样本主成分的得分，然后再根据得分的高低具体分析。

最后针对文中的求解过程与求解结果，讨论模型的不足之处与需要改进的方法。

三、模型假设

假设题中所给数据均准确有效。

四、符号表示

符号

含义

S

R

儿

A

入

5

样本协方差矩阵样本相关矩阵主成分（/=1,2,3--7）特征值（/=1,2,3--7）标准化特征向量（/=1,2,3-7）

第i个主成分的贡献率（心123…7）

五、模型建立与求解

本文运用主成分分析法对高维数据进行了降维处理，其间通过求解样本的协方差矩阵与相关矩阵来分析主成分，期望通过较少的变量来反映样本数据的绝大部分信息，假设当主成分的累计贡献率达到80%时，即视为满足了提取原数据中绝大部分信息的要求。

模型建立与求解如下：

模型建立

设（xpx2,-,xj是”元总体，从中取得样本数据：

称为样品，引进样本数据观测矩阵

兀22

它是pxn矩阵，它的〃个列即是〃个样品九心,…心,它们组成来自"元总体

的样本。

观测矩阵X的卩个行变量分别是p个变量

X\X…、Xp

在川次试验中所取得的值。

样本协方差矩阵及相关矩阵分别为

其中

J=兀=一力心，J=12

n?

-i

1”r

%=—为（几一E）（兀一耳）i・j=、2…、P

11一1/-I

利用S和R求得的样本组成分有下述结论：

设S=gp“是样本协方差矩阵，其特征值为^>A2>---2p>0,相应的正交单位化向量为占鸟，…尙，这里£=©，右2,…吊卩，则第「个样本主成分为X=&、=占內+ei2x2+…+錦心,i=1,2,…，p

其中x=6‘2,…,亏丿为的X的任一观测值。

当依次代入X的“个观测值兀=（心,叫2,1%丿仗=1,2,-,“）时，便得到第i个样本主成分儿的”个观测值坯伙=1,2,…丿）,此即为第i个主成分的得分。

为消除量纲的影响，我们可以对样本进行标准化，即令

则标准化数据的样本协方差矩阵即为原数据的样本相关矩阵/?

。

IIIR出发所求得的样本主成分称为标准化祥本主成分。

只要求出R的特征值及相应的正交单位化特征向量，类似上述结果可求得标准化样本主成分.这时标准化样本的样本总方差为卩。

实际应用中，将样本旺（21,2,…,仍代人各主成分中，可得到各样本主成分的观测值坯伙=12…,叩=12…丿）o

模型求解

本文通过求解样本相关矩阵，根据累计贡献率提取主成分，并对主成分的含义给岀了合理解释，最后对各国家的综合成绩进行排名。

求解相关矩阵

由题中所给数据,利用matlab求解，可得:

协方差矩阵S为

'0.2047

0.4938

1.0112

0.0356

0」092

0.2765

9.4469'

0.4938

1.3198

2.6289

0.0895

0.2622

0.6656

23.8551

1.0112

2.6289

7.1734

0.2604

0.6968

1.7206

57.5015

0.0356

0.0895

0.2604

0.0117

0.0322

0.0773

2.5665

0.1092

0.2622

0.6968

0.0322

0.1100

0.2651

&8425

0.2765

0.6656

1.7206

0.0773

0.2651

0.6824

22.5899

9.4469

23.8551

57.5015

2.5665

8.8425

22.5899

925.9861；

相关矩阵/?

为

（1.0000

0.9499

0.8344

0.7274

0.7280

0.7398

0.6861、

0.9499

1.0000

0.8544

0.7199

0.6884

0.7013

0.6824

0.8344

0.8544

1.0000

0.8984

0.7846

0.7777

0.7055

0.7274

0.7199

0.8984

1.0000

0.8966

0.8645

0.7793

0.7280

0.6884

0.7846

0.8966

1.0000

0.9678

0.8763

0.7398

0.7013

0.7777

0.8645

0.9678

1.0000

0.8987

0.6861

0.6824

0.7055

0.7793

0.8763

0.8987

1.0000丿

R的特征值及其正交单位化特征向量见表1和表2：

表1特征值及其贡献率

A

特征值

贡献率/（%）

累计贡献率

特征值对应的正交单位化特征向量

标准化变量

X；

V4

X：

X；

样本主成分分析

曲表1知前两个标准化样本主成分为

X=—0.3688门一0.364*2-0.3821^*3一0.3849兀\-0.3886%%

-0.3890A-0.3674x*7

儿=-0.4855x\-0.5435^2-0.245k%+0.1594疋4+0.3618x1

+0.3489疋6+0.3616疋7

解出两个主成分的累计贡献率为，远远满足要求。

分析上述数据两个主成分的意义：

笫一主成分近似于各变量的等权重之和，它反应了各国家和地区的运动员的优秀程度。

第一主成分各标准化变量前的系数全部带负号，说明各个国家或地区的径赛项H上的女子纪录越高，则该项纪录上相应的数值越低，笫一主成分儿越大。

”的贡献率达％,已能大致反映出一个国家或地区的女子运动员的优秀程度。

所以对某一国家或地区而言，如果山径赛项LI上的女子纪录所算出的笫一主成分大，则说明这个国家或地区1984年前在7个径赛项目上的女子成绩高，7个径赛项目上的女子运动员十分优秀；反之，则说明这个国家或地区的女子运动员表现一般。

第二主成分可用以度量各国家和地区在短跑和长跑项U上的相对实力。

第二组成分前三个标准化变量前的系数带负号，后四个标准化变量前的系数带正号。

这说明在100米,200米,400米项U上的成绩越差，在800米,1500米,3000米，马拉松项目上的成绩越好，第二主成分力越大。

因此儿反映了一个国家或地区的短跑项LI与长跑项LI的相对优势。

所以对某一国家或地区而言，如果ill径赛项□上的女子纪录所算岀的第二主成分大，则说明这个国家或地区1984年前在短跑项U上的女子成绩较差或在长跑项U上的成绩较好或是短跑项U成绩较差并且长跑项口成绩较好；反之，第二主成分小，则说明这个国家或地区的女子运动员在短跑项U上的女子成绩较好或在长跑项U上的成绩较差或是短跑项目成绩较好并且长跑项目成绩较差。

此外，第一主成分儿和第二主成分〉，2的累讣贡献率大，已能反映出大部分信息。

根据这两个量的大小，可大体判断出一个国家或地区径赛项目上的女子运动员的优秀程度和径赛上的优势与劣势。

各国家地区成绩排名

利用公式：

可先求出七个标准化变量，再利用中求第一主成分的公式：

y,=-0.3688a-*!

-0.3641%*2一0.382W—0.3849疋4—0.3886x1

—0.3890/6—0.3674^7

可依次得出每一个国家所对应的儿值，并按”的大小从大到小排序，得下表3所示，并根据表中数据对主成分进行分析：

表3基于第一样本主成分的得分对各国家和地区的排疗;

分析上表可知美国的儿值最大，为；其次为原西德，为，与美国相比，有较大差距；最小为西萨摩亚，为。

名次靠前的十儿个国家，儿主要集中分布在24,20,2&17这儿个数值左右；名次中等或靠后的国家，儿值之间大差距大致呈阶梯状下降。

由上述分析结论可知，基于第一样本主成分的得分对各国家和地区排序，与从原始数据中得到的直观看法基本吻合。

但从基于笫一样本主成分的得分对各国家和地区的排序表中，可以很方便地看岀各个国家或地区的七个径赛项LI上的女子运动员的整体水平。

而从原始数据中要得到一些结论是比较困难的。

山于原始数据内容较多，信息量庞大，难以直接有效地读出有用的数据。

转化为基于笫一样本主成分的得分排序表后，能够直观的得到大部分需要的信息。

六、模型评价与推广

采用样本协方差矩阵与样本相关矩阵处理数据称为主成分分析法，其使用简单方便，可快速对高维数据进行降维处理，且降维后的主成分可反映原数据中绝大部分信息，也就是说能够找到一组最佳的基于紧凑的方式来表达数据。

在主成分分析法中，提取了方差较大的主成分来代表原变量，从而大大减少了数据处理的工作量。

在综合评价函数中，各主成分的权数为其贡献率，它反映了该主成分包含原始数据的信息量占全部信息量的比重，这样确定的权数较为客观、合理（E2]）o

但用主成分分析法处理数据时，有时对提取变量的并不能给出合理的解释，其变量不能像原始数据那样具有准确的意义，且在提取主成分时必须使主成分的累计贡献率达到一个较高的水平，才能得出一个较为准确的结果，这就使模型本身具有局限性。

主成分分析法虽然使用简单，但却是很多领域里非常有利的工具，可应用于物理中近红外光谱的分析以及核磁共振光谱数据的分析，化学中滴定实验分析，以及对食品功能特性的评价。

参考文献

[1]范金城，梅长林•数据分析•北京：

科学出版社,2002.

矩阵

Yl=[

1112

11

Y2=[

24

2324

25]，;

Y3=[

52

55

]'；

Y4=[

2

]'；

Y5=[

]'；

Y6=[

]'；

Y7=[

233

306]';

Y二[Y1

Y2Y3

Y4Y5Y6Y7];

样本协方差矩阵

»S=cov（Y）

样本协方差矩阵的正交单位化特征向量V3和特征值U3

[V1,U1]二eig（S）

S的贡献率M

z=L]；

c=sum（z）

M二z/c

样本相关矩阵

»Rl=corrcoef（Y）

样本相关矩阵的正交单位化特征向量V2和特征值U2

[V2,U2]=eig（R）

R的贡献率Nw=[];

d=sum（W）N=W/d

数据表

表1世界上55个国家和地区1984年前在7个径赛项目上的女子纪录

国家和地区

100m/s

200m/s

400m/s

800m/mi

n

1500m/min

3000m/min

马拉松/min

阿根廷

澳大利亚

奥地利

比利时

百慕大

巴西

缅甸

加拿大

智利

中国

哥伦比亚

库克岛

哥斯达黎加

捷克斯洛伐克

丹麦

多米尼加

芬兰

法国

原东德

原西德

英国

希腊

危地马拉

匈牙利

印度

印度尼西亚

爱尔兰

以色列

意大利

日本

肯尼亚

韩国

朝鲜

卢森堡

马兰西亚

毛里求斯

墨西哥

荷兰

新西兰

挪威

巴布亚新儿内亚

菲律宾

波兰

葡萄牙

罗马尼亚

新加坡

西班牙

瑞典

瑞士

中国台北

泰国

土耳其

美国

俄罗斯

西萨摩亚

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 径赛项目女子纪录成分分析处理

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：7个径赛项目上的女子纪录的主成分分析处理.docx
链接地址：https://www.bdocx.com/doc/10942451.html

7个径赛项目上的女子纪录的主成分分析处理.docx

热门标签