基于主成分分析的影响世界卫生水平主要因素的数据挖掘Word格式文档下载.docx
- 文档编号:22289619
- 上传时间:2023-02-03
- 格式:DOCX
- 页数:20
- 大小:49.92KB
基于主成分分析的影响世界卫生水平主要因素的数据挖掘Word格式文档下载.docx
《基于主成分分析的影响世界卫生水平主要因素的数据挖掘Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《基于主成分分析的影响世界卫生水平主要因素的数据挖掘Word格式文档下载.docx(20页珍藏版)》请在冰豆网上搜索。
主成分分析法是将原来众多具有一定相关性(比如P个指标),重新组合成一组新的彼此无关的综合指标来代替原来指标的分析方法。
最经典的做法就是用F1(选取的第1个线性组合,即第1个综合指标)的方差Var来表达,即Var越大,表示F1包含的信息越多。
因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第1主成分。
如果第1主成分不足以代表原来P个指标的信息,再考虑选取F2即选第2个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,即Cov(F1,F2)=0,则称F2为第2主成分,依此类推可以构造出第三、第四,……,第P个主成分。
主成分分析的数学模型如下:
……
其中
为X的协方差阵∑的特征值对应的特征向量,
是原始变量经过标准化处理的值。
主成分分析法的基本方法是:
①将原始指标数据标准化;
②求指标数据间的相关系数矩阵R;
③求R矩阵的特征值、特征向量和贡献率;
④确定主成分个数k;
⑤对主成分含义做出解释;
⑥合成主成分得到综合评价值。
2基干SPSS主成分分析的影响各国卫生水平的多个因素的数据挖掘
2.1数据预处理(数据来源:
THEWORLDHEALTHSTATISTICSREPORT2007)
2.1.1数据筛选
ⅰ为了分析简便起见,我们首先只选取了影响“Mortalityandburdenofdisease”,“morbidity”,“HealthsystemsHRH”,“Healthsystemsexpenditure”的卫生因素。
ⅱ对于这四类因素,我们又对其中的因素进行了筛选:
a.在表“Mortalityandburdenofdisease”中,我们去掉了“Cause-specificmortalityrate(per100000population)”这一类,因为关于这一类因素,数据表中包含了大量不确定的值,比如"
<
10"
。
而这些值是无法用于统计分析的。
b.在表“morbidity”中,我们去掉了“No.confirmedcasesofpoliomyelitis”这一项,因为因为关于这一类因素,数据表中包含了大量"
0"
这说明“No.confirmedcasesofpoliomyelitis”这种疾病可能是地区性的,无法用于进行全球国家健康体系的比较。
c.在表“HealthsystemsHRH”,由于我们将要分析的是医疗体系对于个人的保障效果,故不采用表示总体数量的因素,即不采用医疗工作人员的总量,而是其Density。
我们只Densityof保留了“DensityofPhysicians”,“DensityofNurses”,“DensityofDentists”,“Pharmacists”这四项,因为,其余几项的数据不完整。
d.在表“Healthsysteminternationalsexpenditure”中,我们去掉了“Percapitatotalexpenditureonhealthatdollarrate”。
因为关于“Percapitatotalexpenditureonhealthatdollarrate”的数据是通过关于“Percapitatotalexpenditureonhealthataverageexchangerate(US$)”的数据换算得到的,其并非统计数据。
同样地,我们又去掉了“Percapitagovernmentexpenditureonhealthatdollarrate”这一种卫生因素。
另外,在这张表中我们还去掉了“Coverageofvitalregistrationofdeaths”这一种因素,因为关于这一类因素,数据表中包含了大量不确定的值,比如"
25"
筛选结果:
在对卫生水平进行评分时,我们采用的影响卫生水平的因素共有40项。
2.1.2数据加工
对于“Probabilityofdying”“HIVprevalence”这些对于医疗保健体系评价不利的因素,我们将其转化为其负数,再进行主成分分析。
2.2确定衡量卫生水平的综合性指标
确定方法:
利用SPSS,通过主成分分析法确定主成分,所确定的主成分即可以作为代表多个卫生因素的一个综合性指标。
将原有的p个具有相关性的卫生因素xi作线形变换,转换成另一组不相关的yj。
最终确定的主成分的m由原有影响卫生水平的因素的相关系数矩阵R的特征值决定。
我们取大于1的特征值。
2.2.1对分析效果的初步检验
从主成分分析的初始结果,见附表1中发现,我们所提取的这6个主成分共解释了“Socialsecurityexpenditureonhealthas%ofgeneralgovernmentexpenditureonhealth”这项卫生因素的0.535,而对于“DentistsDensityper1000population”,“PharmacistsDensityper1000population”,“Age-standardizedmortalityratebycause(per100000population)Cancerdiseases”这三项卫生因素的解释分别为0.633,0.598,0.613。
a.我们认为,“NursesDensityper1000population”,“DentistsDensityper1000population”,“PharmacistsDensityper1000population”,都属于医疗工作人员,并且这三种人员的区分并不明确,统计数据就无法准确获得。
因此,我们将这三者的人数加和起来,作为一种卫生因素。
b.关于“Age-standardizedmortalityratebycause(per100000population)Cancerdiseases”这一项统计数据,我们认为目前人类对于癌症的预防,治疗都还没有成熟的认识,因此,各国的医疗保健体系与癌症死亡率的关系也是不明确的。
所以,在精确的模型中,我们将这一种卫生因素删除。
c.对于“Socialsecurityexpenditureonhealthas%ofgeneralgovernmentexpenditureonhealth”这一项统计数据,我们认为它与各个国家的福利体制是紧密相关的。
因此,各国的医疗保健体系与“”的关系还需要进一步考察该国的福利体制。
在我们的精确模型中,我们将这种卫生因素删除。
2.2.2对分析效果的第二次检验
从改进后的主成分分析初始结果,见附表2中,可以看出,现在我们所提取的这6个主成分对于原有40项卫生因素的解释均达到了64%以上。
根据假设,可以认为,下面我们进行的分析的分析效果是较好的。
而这6个因子对于原有40项卫生因素的解释程度的均值达到了0.890。
2.2.3对主成分分析的结果中ExtractionSumsofSquaredLoadings的讨论
由表1:
ExtractionSumsofSquaredLoadings中可以看出,当我们提取6个主成分后,它们可以描述原变量的89.030%。
另外screeplot也说明了这一点。
该图中,横轴表示主成分个数,纵轴表示特征值。
我们可以从中直观地看出,当我们提取了6个主成分后,基本反映了原始变量的绝大部分方差。
也就是说,我们可以通过这6个主成分作为6个综合性指标,来评价医疗保健体系的平均水平。
表1
ExtractionSumsofSquaredLoadings
Total
%ofVariance
Cumulative%
22.553
62.647
3.633
10.092
72.738
2.206
6.127
78.865
1.374
3.816
82.682
1.254
3.482
86.164
1.032
2.866
89.030
2.3各项综合指标的实际含义
分析方法:
通过分析ComponentMatrix来对各项综合指标的实际含义进行解释。
2.3.1分析结果
第一个主成分y1在Lifeexpectancyatbirth(Male)Lifeexpectancyatbirth(Female)Healthylifeexpectancy(HALE)atbirthMaleHealthylifeexpectancy(HALE)atbirthFemale上载荷的绝对值较大,大小也差不多,都达到了0.9630以上。
所以,我们可以认为这个主成分y1代表了Lifeexpectancy。
第二主成分y2在“”Generalgovernmentexpenditureonhealthas%oftotalgovernmentexpenditure“Percapitatotalexpenditureonhealthataverageexchangerate(US$)”Percapitagovernmentexpenditureonhealthataverageexchangerate(US$)Out-of-pocketexpenditureas%ofprivateexpenditureonhealth上的载荷的绝对值较大,大小也差不多,都达到了0.5000以上。
所以,我们可以认为这个主成分代表了expenditureonhealth。
类似地,可以分析出,第三个主成分y3代表Hospitalbedsper10000population,第四个主成分y4代表privateexpenditureonhealth在第五个主成分y5代表HIVprevalenceamongadults≥15years(per100000population)第六个主成分y6代表Age-standardizedmortalityratebycause(per100000population)Injuriesdiseases。
2.3.2对分析结果中“ExtractionSumsofSquaredLoadings”的合理性的检验
由于通过分析ComponentMatrix得到的第三项综合性指标y3综合指标代表Hospitalbedsper10000population,但是,由这种方法分析出,Hospitalbedsper10000population对平均水平的影响是不利的。
这显然与常识是不符的。
因此,在对各国医疗体系的评价上,我们舍去了这个综合性指标。
因此,我们所选的五项指标即为主成分分析得到的y1,y2,y4,y5和y6所代表的五项综合指标。
2.3.3对五项综合性指标的代表性的验证
⑴数据分析的角度:
通过SPSS软件关于“ExtractionSumsofSquaredLoadings”的输出结果,见表1。
可以看出,代表这几个综合性指标的因子y1,y2,y4,y5和y6对原有变量的方差贡献率分别为62.647,10.092,3.816,3.482和2.866。
从数据分析的角度来看,它们都可以用来帮助评价各国的医疗体系。
⑵实际意义的角度:
①“Lifeexpectancy”可以大致反映一个国家卫生水平的大致效果,
②“expenditureonhealth”可以大致反映维持一个较好的卫生水平所需要的经济代价。
③“HIVprevalenceamongadults≥15years(per100000population”说明了HIV的流行对于一个医疗体系的挑战。
也可以在一定程度上反映了一个医疗体系对于传染病的预防情况。
④“Age-standardizedmortalityratebycause(per100000population)Injuries。
”可以反映除非疾病引起的,即“Injuries”对医疗体系的挑战。
2.4对关于平均水平的综合性指标进行打分,并计算卫生水平得分
2.4.1构造因子得分函数
通过分析ComponentScoreCoefficientMatrix,构造出了因子得分函数
,其中i=1,2,3…40;
j=1…6且j≠3。
即:
因子得分yj就是我们对选定的5个综合性指标打出的分数。
2.4.2计算各国卫生水平的得分Sg
分析SPSS对于“ExtractionSumsofSquaredLoadings”的输出结果,我们可以得到6的个综合性指标对卫生水平的方差贡献率。
以此作为权重,对六项综合指标进行线形组合后,得到卫生水平的得分计算公式:
给进行了数据分析后还剩余的59个国家打分,这59个国家的卫生水平排名见附表3。
3结果与讨论
数据挖掘技术是发现影响世界卫生水平的主要因素的有力工具,由附表3可知经主成分分析后综合得分的排名情况,这可以作为评价各国卫生水平的良好参照。
主成分分析作为数据挖掘的一种方法能够用于世界卫生水平的统计分析。
主成分分析在不损失样本特征值的数量和信息前提下,采用降维模式分类方法,将反映世界卫生水平的多个因素用5个主成分来描述原有数据特征,不仅表明主成分分析确实能够起到降维作用,同时使繁多的求解目标简化,便于数据分析,而且原有信息损失少,可用于世界卫生水平的数据挖掘。
4参考文献
[1]TheWorldHealthStatisticsReport2007,http:
//www.who.int/whosis/whostat2007/en/index.html;
[2]章文波,陈红艳.实用数据统计分析及SPSS12.0应用〔M」.北京:
人民邮电出版社,2006:
65-66
附表1
Communalities
Initial
Extraction
Lifeexpectancyatbirth(Male)
1.000
0.985
Lifeexpectancyatbirth(Female)
0.984
Healthylifeexpectancy(HALE)atbirthMale
0.982
Healthylifeexpectancy(HALE)atbirthFemale
0.980
Probabilityofdyingaged15–60yearsper1000population(adultmortalityrate)Male
0.956
Probabilityofdyingaged15–60yearsper1000population(adultmortalityrate)Female
0.979
Probabilityofdyingaged<
5yearsper1000livebirths(under-5mortalityrate)Bothsexes
0.941
Infantmortalityrate(per1000livebirths)Bothsexes
0.937
Neonatalmortalityrate(per1000livebirths)Bothsexes
0.931
Maternalmortalityratio(per100000livebirths)Female
0.898
Age-standardizedmortalityratebycause(per100000population)Non-communicablediseases
0.936
Age-standardizedmortalityratebycause(per100000population)Cardio-vasculardiseases
0.946
Age-standardizedmortalityratebycause(per100000population)Cancerdiseases
0.613
Age-standardizedmortalityratebycause(per100000population)Injuriesdiseases
0.813
DistributionofYLLbybroadercausesh,j,k(%)Communicablediseases
0.961
DistributionofYLLbybroadercausesh,j,k(%)Non-communicablediseases
Distribitionofcausesofdeathamongchildrenaged<
5years(%)Neonatal
0.811
5years(%)HIV/AIDS
0.884
5years(%)Diarrhoeal
0.906
5years(%)Measles
0.701
5years(%)Malaria
0.647
5years(%)Pneumonia
0.915
5years(%)Injuries
0.792
HIVprevalenceamongadults≥15years(per100000population)
TBprevalence(per100000population)
0.835
TBincidence(per100000population)
0.832
PhysiciansDensityper1000population
0.860
NursesDensityper1000population
0.882
DentistsDensityper1000population
0.633
PharmacistsDensityper1000population
0.598
Totalexpenditureonhealthas%ofGDP
0.794
Generalgovernmentexpenditureonhealthas%oftotalexpenditureonhealth
0.788
Generalgovernmentexpenditureonhealthas%oftotalgovernmentexpenditure
0.753
Externalresourcesforhealthas%oftotalexpenditureonhealth
0.734
Socialsecurityexpenditureonhealthas%ofgeneralgovernmentexpenditureonhealth
0.535
Out-of-pocketexpenditureas%ofprivateexpenditureonhealth
0.836
Privateprepaidplansas%ofprivateexpenditureonhealth
0.859
Percapitatotalexpenditureonhealthataverageexchangerate(US$)
0.920
Percapitagovernmentexpenditureonhealthataverageexchangerate(US$)
0.942
Hospitalbedsper10000population
0.874
ExtractionMethod:
P
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 成分 分析 影响 世界卫生 水平 主要因素 数据 挖掘