数据分析课程设计社会发展的综合状况指标分析.docx
- 文档编号:6077149
- 上传时间:2023-01-03
- 格式:DOCX
- 页数:17
- 大小:132.80KB
数据分析课程设计社会发展的综合状况指标分析.docx
《数据分析课程设计社会发展的综合状况指标分析.docx》由会员分享,可在线阅读,更多相关《数据分析课程设计社会发展的综合状况指标分析.docx(17页珍藏版)》请在冰豆网上搜索。
数据分析课程设计社会发展的综合状况指标分析
数据分析课程设计论文
题目:
我国各省市自治区社
会发展的综合状况指标分析
学院:
专业:
姓名:
学号:
我国各省市自治区社会发展的综合状况
指标分析
摘要
一个地区的全面发展必须使经济和社会协调发展。
为了全面衡量社会发展水平,有必要选择一套能反映社会发展的有代表性的社会指标进行综合评价,对每个地区的社会发展水平进行测量分析,我们根据各地区统计指标,选择了有代表性的社会经济指标,包括城镇居民可支配收入、农村居民可支配收入、在校学生数、学校数、卫生机构数、固定资产投资总额等方面数据进行综合考察,利用主成分分析方法对各地区综合发展状况进行评价。
论文中主要运用的方法是主成份分析法。
主成份分析法的目的是利用降维的思想,把多指标转化为少数几个综合指标。
分析出主成分后,对数据进行综合排名,能较直观的反应社会发展的综合状况,便于分析各省市自治区的社会发展情况和影响因素。
关键词:
各省自治区社会发展综合状况指标主成分分析排名
目录
一、问题的提出…………………………………………………4
二、基于主成份分析的社会发展综合状况指标的筛选
2.1原理概述…………………………………………………………4
2.1.1主成分分析的一般数学模型…………………………4
2.1.2主成分分析确定的一般原则…………………………5
2.1.3主成分分析的基本步骤………………………………5
2.1.4主成分分析得到的主成分与原始变量之间的关系…5
2.2原始数据及来源…………………………………………………6
2.3对指标的主成分分析及筛选…………………………………7
2.3.1操作过程………………………………………………7
2.3.2实验结果输出………………………………………8
2.3.3实验结果分析………………………………………12
三、总结…………………………………………………………14
参考文献……………………………………………………………16
附录…………………………………………………………………16
第一章问题的提出
中国的经济和社会的发展如何让才能踏上一条内外和谐、全面增长的稳健之路,不但攸关中国自身的利益,也成为举世瞩目的焦点。
本文根据各省的社会发展指标,将全国主要省份社会实力进行排名,从而可以为政府决策部门对社会的发展规划提供一定的依据。
日后通过政府政策的调整,各省再发挥各自优势力量,抓住机遇,社会全发张和可持续发展能力一定会进一步提高。
社会发展状况评价的难点在于反映社会发展的指标众多,每一项指标又会从不同视角反映社会发展状况。
所以,依据他们作综合评价有一定难度。
我们可以看到,成份分析法的目的是利用降维的思想,把多指标转化为少数几个综合指标,从而很好地解决了这一问题。
第二章基于主成份分析的社会发展综合状况指标的筛选
2.1原理概述
主成分分析是考察多个定量(数值)变量间相关性的一种多元统计方法。
它是研究如何通过少数几个主分量(即原始变量线性组合)来解释多变量的方差——协方差结构。
具体地说,是导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此间不相关。
主成分分析常被庸吏寻找判断某种事物或现象的综合指标,并给综合指标所蕴藏的信息以恰当解释,以便更深刻地解释事物内在的规律。
2.1.1主成分分析的一般数学模型
假设有n个样本,每个样本测得p项指标(p 由于这p项指标之间往往具有相关关系,且每个样本各指标取值的单位和数量大小不同,使我们较难利用这p项指标的信息区别这n个样本。 因此,如何从这p项指标中找出少数几个综合指标,使它们尽可能多地反应各项指标的信息,而且彼此之间不相关,这就成为一个重要的问题。 怎么解决这个问题,主成分分析给出了最好的方法。 如果记原来的变量指标为 ,它们的综合指标——新变量指标为 , (m≤p)。 则 在 (2)式中,系数lij由下列原则来决定: (1)zi与zj(i≠j;i,j=1,2,…,m)相互无关; (2)z1是x1,x2,…,xp的一切线性组合中方差最大者;z2是与z1不相关的x1,x2,…,xp的所有线性组合中方差最大者;……;zm是与z1,z2,……zm-1都不相关的x1,x2,…,xp的所有线性组合中方差最大者。 这样决定的新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,xp的第一,第二,…,第m主成分。 其中,z1在总方差中占的比例最大,z2,z3,…,zm的方差依次递减。 在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。 从以上分析可以看出,找主成分就是确定原来变量xj(j=1,2,…,p)在诸主成分zi(i=1,2,…,m)上的载荷lij(i=1,2,…,m;j=1,2,…,p),从数学上容易知道,它们分别是x1,x2,…,xp的相关矩阵的m个较大的特征值所对应的特征向量。 2.1.2主成分分析确定的一般原则 在主成分分析中希望用尽可能少的主成份包含原来尽可能多的信息,有以下几点原则: (1)主成分的累积贡献率: 一般来说,提取主成份的累计贡献率达到80%~85%以上就比较满意了,可以此确定提取多少个主成分。 (2)特征根: 特征根在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征根小于1,说明该主成分的解释力度还不如直接引入一个原始变量的平均解释力度大。 因此一般可以用特征根大于1作为纳入标准。 (3)综合判断: 大量的实践表明,如果根据累积贡献率确定主成分个数往往较多,而用特征根确定又往往偏低,许多时候应该将二者结合起来,以综合确定合适的数量。 2.1.3主成分分析的基本步骤 在实际操作中,主成分分析主要是按照如下的步骤来对实际问题进行分析的: 第一步: 对原p个指标n×p个原始变量标准化。 目的是为了消除变量之间在数量级上或量纲上不用而产生的影响,以使每个变量的均值为0,方差为1。 变换标准化的公式为: 其中 和 分别是第j个变量的平均值和标准差; 第二步,根据标准化矩阵求出协方差矩阵; 第三步,求出协方差矩阵的特征根 第四步,确定主成分,结合专业知识给出各主成分所蕴含的信息,给予恰当的解释,并利用它们来判断样本的特性。 2.1.4主成分分析得到的主成分与原始变量之间的关系 主成分分析就是设法将原来众多的具有一定相关性的指标,重新组合成一组新相互无关的综合指标来代替原来指标(比如p个指标)。 通常数学上的处理就是将原来p个指标做线性组合,作为新的综合指标,但是这种线性组合,如果不加限制,则可以有很多,我们应该如何去选取呢? 如果将选取的第一个线性自合即第一个综合指标为 ,自然希望 尽可能多的反映原来指标的信息,这里的“信息”用什么来表达? 最经典的方法就是用 的方差来表达,即Var( )越大,表示 包含的信息越多。 因此在所有的线性组合中所选取的 应该是方差最大的,故称 为第一主成分。 如果第一主成分不足以代表原来p个指标的信息,再考虑 即选第二个线性组合,为了有效的反映原来的信息, 已有的信息就不需要再出现在 中,用数学语言表达就是要求Cov( , )=0,称 为第二主成分,以此类推可以造出第三、四…p个主成分。 不难想象这些主成分之间不仅不相关,而且它们的方差依次递减。 因此在实际工作中,就挑选前几个最大的主成分虽然这样做会损失一部分信息,但是由于它们抓住了主要矛盾,并从原始数据中进一步提取了某些新的信息,因而在某些实际问题的研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。 一般来说,利用主成分分析得到的主成分与原始变量之间有如下基本关系: (1)每个主成分都是各原始变量的线性组合 (2)主成分的数目大大少于原始变量的数目 (3)主成分保留了原始变量绝大多数信息 (4)各主成分之间互不相关 通过主成分分析可以从事物之间错综复杂的关系中找出一些主成份,从而有效的利用大量统计数据进行定量分析,揭示变量之间的内在关系,得到对事物特征及发展规律的一些深层次的启发,把研究工作引向深入。 2.2原始数据及来源 本论文数据来源于中国统计年鉴《2006年全国各省自治区社会发展综合状况指标》 单位: 亿元 地区 人均地区 城镇居民 农村居民 在校 学校数 卫生 固定资产 每万人 生产总值 可支配收 家庭人均 学生数 (所) 机构数 投资总额 拥有公共 (元) 入(元) 纯收入(元) (人) (个) (亿元) 交通车辆(标台) 北京 50467 19977.52 8275.47 565779 80 4877 3296.4 22.2 天津 41163 14283.09 6227.94 357382 45 2367 1820.5 14.2 河北 16962 10304.56 3801.82 862618 88 17733 5470.2 8.1 山西 14123 10027.7 3180.92 446428 56 9776 2255.7 5.7 内蒙古 20053 10357.99 3341.88 252917 37 7958 3363.2 6.1 辽宁 21788 10369.61 4090.4 720548 78 15876 5689.6 9.3 吉林 15720 9775.07 3641.13 435065 45 9696 2594.3 7.7 黑龙江 16195 9182.31 3552.43 592000 65 8181 2236.0 8.7 上海 57695 20667.91 9138.65 466333 60 2519 3900.0 12.5 江苏 28814 14084.26 5813.23 1306181 116 17143 10069.2 8.6 浙江 31874 18265.1 7334.81 719869 68 14230 7590.2 9.3 安徽 10055 9771.05 2969.08 663684 83 9288 3533.6 7.7 福建 21471 13753.28 4834.75 461341 63 9652 2981.8 9.0 江西 10798 9551.12 3459.53 770525 66 10210 2683.6 8.1 山东 23794 12192.24 4368.33 1338122 108 17016 11111.4 10.5 河南 13313 9810.26 3261.03 974096 84 14629 5904.7 7.1 湖北 13296 9802.65 3419.35 1092274 86 10052 3343.5 10.6 湖南 11950 10504.67 3389.62 830181 96 15331 3175.5 9.0 广东 28332 16015.58 5079.78 1008577 105 16953 7973.4 5.7 广西 10296 9898.75 2770.48 387447 55 9977 2198.7 7.4 海南 12654 9395.13 3255.53 90138 15 2337 423.9 7.9 重庆 12457 11569.74 2873.83 376118 38 6613 2407.4 9.1 四川 10546 9350.11 3002.38 860640 74 24015 4412.9 8.2 贵州 5787 9116.61 1984.62 221546 36 6147 1197.4 5.8 云南 8970 10069.89 2250.46 284230 50 10020 2208.6 9.7 西藏 10430 8941.08 2435.02 23327 6 1349 231.1 15.5 陕西 12138 9267.7 2260.19 726219 76 11631 2480.7 901.0 甘肃 8757 8920.59 2134.05 263691 33 12022 1022.6 6.1 青海 11762 9000.35 2358.37 35983 11 1643 408.5 18.3 宁夏 11847 9177.26 2760.14 55931 13 1553 498.7 7.7 新疆 15000 8871.27 2737.28 199251 31 8175 1567.1 13.4 依次设人均地区生产总值、城镇居民可支配收入、农村居民家庭纯收入、在校学生数、学校数、卫生机构数、固定资产投资总额、每万人拥有公共交通车辆为X1、X2、X3、X4、X5、X6、X7、X8 2.3对指标的主成分分析及筛选 在SPSS环境下进行操作,下面对主成分分析过程所得结果进行分析 2.3.1操作过程 第一步: 打开数据文件; 第二步: 原始数据一致化处理; 第三步: 打开factor将变量移到Variables; 第四步: 输出原始分析结果与原始变量的相关系数矩阵以及所以变量相关系数单侧检验的p值; 第五步: 输出碎石图; 第六步: 提交系统运行,显示结果清单; 2.3.2实验结果输出 表1 相关矩阵 X1 X2 X3 X4 X5 X6 X7 X8 相关 X1 1.000 .923 .962 .190 .281 -.133 .362 -.088 X2 .923 1.000 .954 .242 .349 -.032 .435 -.109 X3 .962 .954 1.000 .291 .371 -.028 .445 -.158 X4 .190 .242 .291 1.000 .950 .773 .857 .081 X5 .281 .349 .371 .950 1.000 .750 .819 .096 X6 -.133 -.032 -.028 .773 .750 1.000 .705 .044 X7 .362 .435 .445 .857 .819 .705 1.000 -.073 X8 -.088 -.109 -.158 .081 .096 .044 -.073 1.000 Sig.(单侧) X1 .000 .000 .152 .063 .238 .023 .320 X2 .000 .000 .094 .027 .431 .007 .279 X3 .000 .000 .056 .020 .440 .006 .198 X4 .152 .094 .056 .000 .000 .000 .333 X5 .063 .027 .020 .000 .000 .000 .304 X6 .238 .431 .440 .000 .000 .000 .407 X7 .023 .007 .006 .000 .000 .000 .349 X8 .320 .279 .198 .333 .304 .407 .349 表2 公因子方差 初始 提取 X1 1.000 .997 X2 1.000 .998 X3 1.000 .993 X4 1.000 .997 X5 1.000 .999 X6 1.000 1.000 X7 1.000 1.000 X8 1.000 1.000 提取方法: 主成份分析。 表3 解释的总方差 成份 初始特征值 提取平方和载入 合计 方差的% 累积% 合计 方差的% 累积% 1 4.063 50.790 50.790 4.063 50.790 50.790 2 2.447 30.587 81.376 2.447 30.587 81.376 3 .989 12.360 93.737 .989 12.360 93.737 4 .208 2.601 96.338 .208 2.601 96.338 5 .165 2.065 98.403 .165 2.065 98.403 6 .074 .920 99.323 .074 .920 99.323 7 .038 .477 99.801 .038 .477 99.801 8 .016 .199 100.000 提取方法: 主成份分析。 表4 成份矩阵a 成份 1 2 3 4 5 6 7 X1 .660 -.719 .111 .006 .013 .162 -.076 X2 .715 -.657 .072 .105 .032 -.193 .018 X3 .740 -.657 .027 .016 .057 .051 .082 X4 .830 .498 .017 -.213 .001 .037 .112 X5 .867 .410 .060 -.189 .153 -.063 -.107 X6 .582 .719 -.106 .329 .152 .046 .009 X7 .886 .286 -.116 .069 -.336 -.011 -.032 X8 -.046 .227 .971 .051 -.039 .001 .007 提取方法: 主成分分析法。 a.已提取了7个成份。 2.3.3实验结果分析 如表1(相关矩阵表)所示各变量之间存在着较强的相关关系,如果直接用于分析,可能带来严重的共线性问题,因此有必要对变量进行主成分分析,表中的空格表明自身相关系数为1,其不相关的显著性概率为0,因此不再显示。 如表2所示,表中列出了所有的主成分,他们按照特征根从小到大的次序排列,可见第一个主成分的特征值为4.063,他解释了总变异的50.79%;第二个主成分的特征值为2.447,他解释了总变异的30.58%;第三个个主成分虽然解释了总变异的12.36%,但其特征值小于1,因此根据主成分个数的原则,即累计方差贡献率达到80%以上和特征值大于1这两个原则,确定这8个变量需要提取2个主成分。 图3为碎石图,实际上是按特征根大小排列的主成分散点图,如图所示,第一主成分与德尔主成分的特征值都大于1,从第三个主成分开始特征根就比较低,特征根小于1,可以认为前两个主成分能概括绝大部分信息。 如表4所示,从因子载荷矩阵可以看出,标准化的原始变量可以用求得的主成分来线性表示,其近似表达式可根据表3写出,以X1为例,由于本实验过程有2个主成分,可以用F1,F2来表示这两个主成分,得到的表达式如下: X1=0.660*F1-0.719*F2 此外,运用该系数矩阵还可以得出各原始变量写出的因子表达式,方法为用此表中的第i列向量除以第i个特征根的算术平方根后,得到第i个主成分的变量系数向量,具体表达式如下: F2=-0.4596*X1-0.42*X2-0.42*X3+0.3184*X4+0.2621*X5+0.4596*X6+0.1828*X7+0.1451*X8 从上式可以看出,第一主成分主要由X4、X5、X7确定的,并且均为中度正相关,故可以认为第一个主成分是说明教育和地方投资对社会发展的影响 第二个主成分主要是由X1、X2、X3、X6确定的,所以可以认为是反映居民医疗和生活水平,因为这两个主成分累计方差贡献率高达80%,所以用他们来替代原问题具有80%的可靠性。 可以看出,上述分析并不能看出这31个省市自治区社会发展状况的差别,因此还要计算它们分别在第一第二主成分以及综合上的得分,以此作为评价的依据。 排名表: 教育与投资 收入和医疗 主成分1 排名 主成分2 排名 综合 排名 北京 262509.25571 14 147923.74746 15 66898.934344 5 天津 169491.81751 21 87674.047865 22 48826.959138 11 河北 373365.14741 6 270071.35209 7 52239.695142 9 山西 197011.76168 18 135004.14793 16 32959.780346 20 内蒙古 119401.79659 24 69829.299989 25 28597.919059 22 辽宁 316130.44495 11 221660.34173 11 49272.307963 10 吉林 193056.05146 19 130588.01945 18 33524.207979 19 黑龙江 257003.14476 15 179860.21501 14 40302.580948 17 上海 224065.17901 16 111309.99977 21 67851.128311 4 江苏 563833.03052 2 403978.36113 2 81669.358489 1 浙江 323500.88739 10 211717.94816 12 61285.380949 6 安徽 285402.29087 13 206251.53098 13 40070.661202 18 福建 207773.36143 17 134193.12458 17 40645.56197 16 江西 329626.55711 9 240073.56188 9 44940.636698 14 山东 574557.97028 1 417986.07026 1 78676.27587 2 河南 416992.56582 5 306324.21672 5 54967.981616 8 湖北 463257.74986 3 341320.11025
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 课程设计 社会发展 综合 状况 指标