有关spss数据分析的课程设计报告书.docx
- 文档编号:8159662
- 上传时间:2023-01-29
- 格式:DOCX
- 页数:15
- 大小:95.20KB
有关spss数据分析的课程设计报告书.docx
《有关spss数据分析的课程设计报告书.docx》由会员分享,可在线阅读,更多相关《有关spss数据分析的课程设计报告书.docx(15页珍藏版)》请在冰豆网上搜索。
有关spss数据分析的课程设计报告书
成绩评定表
学生姓名
常一肖
班级学号
1009010101
专业
信息与计算科学
课程设计题目
四川省生态管理系统的评价分析
评
语
组长签字:
成绩
日期
20年月日
课程设计任务书
学院
理学院
专业
信息与计算科学
学生姓名
常一肖
班级学号
1009010101
课程设计题目
四川省生态管理系统的评价分析
实践教学要求与任务:
设计要求(技术参数):
1、熟练掌握SPSS软件的操作方法;
2、根据所选题目及调研所得数据,运用数据分析知识,建立适当的数学模型;
3、运用SPSS软件,对模型进行求解,对结果进行分析并得出结论;
4、掌握利用数据分析理论知识解决实际问题的一般步骤。
设计任务:
1、查阅相关资料,利用因子分析确定评估四川省各地区(18个市)的生态环境质量状况的指标体系;
2、利用数据分析的理论,将公共因子的方差贡献率作为权重,结合各因子得分,建立综合评价模型,评价四川省各地区的生态环境质量状况;
3、利用SPSS软件求解,并给出正确的结论;
工作计划与进度安排:
第一天——第二天学习使用SPSS软件并选题
第三天——第四天查阅资料
第五天——第六天建立数学模型
第七天——第九天上机求解并完成论文
第十天答辩
指导教师:
201年月日
专业负责人:
201年月日
学院教学副院长:
201年月日
摘要
四川是中国西部地域辽阔、资源丰富、人口众多的一个多民族聚居的内陆大省,改革开放以来,经济发展取得了历史性的进步,在经济高速增长的同时也应该看到,这种高投入驱动的粗放型的经济增长方式资源消耗大,无疑会给环境造成很大的压力。
从一定意义上来说,经济水平的提高和物质享受的增加,在很大程度上是以牺牲环境与消耗资源为代价的,并由此产生了各种生态问题,随着改革开放和经济的高速发展,对四川省的生态质量做出科学合理的研究显得尤为重要。
本文运用因子分析,综合比较分析了四川省各地区(18个市)的生态环境质量状况及存在的主要问题,并借鉴可持续发展的三大支撑体系,在设计生态质量管理系统评价框架时,以提高生态经济效率为核心内容,分为经济、环境、社会这三方面水平、变动及相互协调的程度。
在此基础上,建立评价生态质量管理系统的指标体系,利用因子分析提取指标中共同的信息,结合指标具体含义,对因子进行命名,然后利用SPSS数据分析软件提取公共因子并计算公共因子的得分。
以提取的公共因子的方差贡献率作为权重,结合各因子得分,建立综合评价模型,最后计算四川省各市的综合得分并进行排序比较,得出综合评价结果。
关键词:
SPSS数据分析软件;因子分析;方差贡献率;指标体系;
四川省生态管理系统的评价分析
1设计目的
为了更好的了解数据分析的知识,熟练掌握数据分析在实际问题上的应用,并将所学的知识结合SPSS数据处理软件解决实际问题。
本设计主要是利用因子分析法结合SPSS数据处理软件进行对生态管理系统指标体系的设计,并利用因子得分结合赋权之后的的综合得分对四川省各市的生态管理系统进行评价分析。
2设计问题
四川是中国西部地域辽阔、资源丰富、人口众多的一个多民族聚居的内陆大省,以富饶的物产,秀美的山川,富足的生活被世人誉为“天府之国”,现辖18个地级市、三个民族自治州。
改革开放以来,四川经济发展取得了历史性的进步,1978-2005年的27年间,四川地区生产总值年均增长率达到9.69%,人均地区生产总值年均增长率为9.10%,比全国同期经济增长率高。
2007年,全省的生产总值(GDP)列全国第九,西部第一。
但是在经济高速增长的同时也应该看到,这种高投入驱动的粗放型的经济增长方式资源消耗大,无疑会给环境造成很大的压力。
从一定意义上来说,经济水平的提高和物质享受的增加,在很大程度上是以牺牲环境与消耗资源为代价的,并由此产生了各种生态问题,随着改革开放和经济的高速发展,对四川省的生态质量做出科学合理的研究显得尤为重要。
请对四川省各市的生态质量做出综合评价并提出意见或建议。
数据来源一是《中国统计年鉴》,二是《四川统计年鉴》,获取四川省18个地市州的经济、社会协调和环境保护方面的数据,形成数据集见附件。
3设计原理
本文主要采用的是因子分析法,下面着重阐述因子分析的原理。
因子分析的目的是将具有错综复杂关系的变量(或样品),综合为数量较少的几个因子,以再现原始变量和因子之间的相互关系,通过不同的因子还可以对变量进行分类。
因子分析模型的建立和求解过程都是基于随机向量的斜差矩阵,这是因为因子分析是为了消除相关性,同时在信息损失最小的情况下降维,通常认为随机变量的信息蕴含在其变化中,而随机变量变化通常用方差来表示,因此随机变量本身的信息就在变量的方差中,而变量间的重叠信息在变量协方差中,因此我们要研究变量的协方差矩阵。
下面我们来了解因子分析的模型。
设p元总体X包含p个随机变量:
如果每个变量都可以由m个隐变量
表示为:
,
或者用矩阵表示为:
简记为:
则称
为公共因子,是不可观测的变量,而是隐藏在变量中的变量的影响因素,可以把它理解为高维空间中互相垂直的m个坐标轴,变量在坐标轴上的投影,即为它们在公共因子前的系数,矩阵系数A称为因子载荷。
是特殊因子,是不能被前m个公共因子包含的部分。
为说明因子载荷
的统计意义,我们随机向量的将第i个随机变量表达式单独写出:
在上式的左右关于第j个公共因子
求数学期望:
根据因子分析模型的要求,可知,公共因子之间是不相关的,公共因子和特殊因子也是不相关的,而公共因子的方差为1,因此,上面公式可以化解为:
概括来说,因子载荷表明了变量和因子相关程度,若因子载荷
绝对值接近1,则因子
能说明变量
的大部分信息,而变量
也是因子
含义的重要组成部分,我们可以根据因子在哪些变量上载荷大,来发掘因子的含义,对因子进行命名。
公共因子能说明变量的信息和特殊因子能说明变量的信息,现在定义变量共同度如下:
,从而
共同度是因子载荷矩阵的第i行的元素的平方和。
假定
是标准化的变量,则上述公式转化为:
至此,变量共同度的统计意义也很清楚了,就是随机变量信息(方差)中,公共因子能够说明的部分,对应的特殊因子说明的部分成为特性方差
。
按照因子分析的目的,要求共同度大而特性方差小,我们可以根据共同度和特性方差的比例说明变量被公共因子说明的程度。
前面已经有了衡量变量重要性的统计特征。
下面我们要定义公共因子重要性的统计特征,定义公共因子
的方差贡献为:
从定义可以看出,方差贡献是因子载荷矩阵中各列元素的平方和。
是第j个公共因子和所有的原始变量的相关系数的平方,衡量公共因子
的相对重要性。
下面我们来看变量共同度和因子方差贡献的关系,将变量共同度公式两边关于i求和,得到:
交换两求和号的求和顺序,得到:
比较上述两个公式,从全部变量的角度,我们得到如下公式:
即无论从变量的角度看,还是从公共因子的角度看,随机变量的被公共因子解释的信息都是一样的,即变量总方差减去特殊因子的特性方差之和。
因此特性方差就是我们损失的信息。
4符号说明
X1:
人均GDP、
X2:
环境投资、
X3:
城镇化率
X4:
教育投资、
X5:
人均工业总值、
X6:
固体废物综合利用率
X7:
工业废水排放达标率、
X8:
人均公共绿地面积
:
因子贡献率
:
因子载荷
:
变量共同度
5设计程序
在本例中主要是进行因子分析,一方面简化变量结构,了解隐藏在变量中的主要影响因素,另一方面求得因子得分,为综合评价做准备。
另外一个重要操作就是利用因子得分和权重计算出综合得分的数据。
以此得分来评价各地市州的生态质量整体情况。
用SPSS软件进行因子分析,首先进行KMO和巴特利特球度检验,结果如下:
表4KMO和巴特利特球度检验结果
KMO检验值为0.618,说明原始变量有相关性,而巴特莱特球形检验的P值为0,拒绝原假设,通过检验,也说明原始变量之间有较强的相关性。
比较适合做因子分析。
5.1指标体系的设计
生态环境评价指标的选择要因地制宜,结合研究区的具体情况,本着科学、整体、针对、可量化和可比较的原则,最大程度的反映区域的生态环境质量。
具体来说,首先动态性与静态相统一,作为一个系统,对它的衡量必须在评估其目前状况的基础上,反映它的发展变动趋势;其次,全面性与重点性相结合;第三,系统性与层次性相结合;最后,科学性与可比性相结合。
本案例建立了评价指标体系(表15-21),选取经济环境协调度、社会环境协调度、生态环境保护三大系统构成一级指标,选择代表性强、易于量化的参数即人均GDP、人均工业总产值、教育投资额、城镇化率、环境污染治理投资总额、工业废水排放量、工业废物综合利用率、人均公共绿地面积等8个指标作为指标层构成评价指标体系。
用方差最大法进行正交旋转,其特征根见下表:
表5.1.1主成分特征值及贡献率
从表5.1.1可以看出,特征根大于1的因子共有三个,因而可提取三个公共因子
通过资料矩阵的相关系数矩阵计算特征值和特征向量,按照因子的累计方差贡献率来确定,一般认为要达到80%才能符合要求,该指标体系所提取的因子累计贡献率大于80%,说明这三个公共因子能较好地描述这些指标。
从计算的初始因子载荷矩阵中可以清晰地分析出每个公共因子对指标的影响程度,即因子载荷。
单纯地从初始因子载荷矩阵并不能看出提取的公共因子的实际意义,因此旋转后的因子载荷系数取值明显更加极端,即取值更加向0或1靠近,这样公共因子的解释和命名更加容易。
表5.1.2因子旋转矩阵
表5.1.2是旋转后的因子载荷矩阵,结合生态质量系统评价指标体系,从矩阵中可以看出,第一公共因子
在人均GDP、环境投资、城镇化率上有较大的载荷,说明它主要解释了这3个指标,可以命名为“经济环境协调度”;第二公共因子
在教育投资、人均工业总值、固体废物综合利用率上有较大的载荷,说明它主要解释了这3个指标,可以命名为“社会环境协调度”;第三公共因子
在工业废水排放达标率、人均公共绿地面积上有较大的载荷,说明它主要解释了这2个指标,可以命名为“生态环境保护”。
通过因子分析对原有指标进行了分组,把原有8项指标分成3组,组内的各个指标的关联程度较高,联系更加紧密。
由此本案例建立了评价指标体系(表5.1.3),选取经济环境协调度、社会环境协调度、生态环境保护三大系统构成一级指标,选择代表性强、易于量化的参数即人均GDP、人均工业总产值、教育投资额、城镇化率、环境污染治理投资总额、工业废水排放量、工业废物综合利用率、人均公共绿地面积等8个指标作为指标层构成评价指标体系。
表5.1.3生态质量评价指标体系
一级指标
生态质量整体状况
二级指标
经济环境协调度
社会环境协调度
生态环境保护
三级指标
X1:
人均GDP、
X2:
环境投资、
X3:
城镇化率
X4:
教育投资、
X5:
人均工业总值、
X6:
固体废物综合利用率
X7:
工业废水排放达标率、
X8:
人均公共绿地面积
5.2指标权重的计算
本案例采取的因子分析的方法属于客观赋权法,其步骤为:
第一,由SPSS数据分析软件中的因子分析确定因子载荷矩阵,如下表所示
表5.2.1因子载荷矩阵
第二,设因子的贡献率为
,采用公式
将每一个指标的权重计算出,并由此得到的综合模型为
6结果分析
6.1因子得分的结果分析
由因子分析分别得到的在经济环境协调度(FAC1_1)、社会环境协调度(FAC2_1)、生态环境保护(FAC3_1)这三个维度下四川省各城市对应的得分情况,如下表(表6.1.1;表6.1.2;表6.1.3):
6.1.1在经济环境协调度维度上四川省各市的得分
城市
FAC1_1
成都
2.80227
自贡
0.26595
攀枝
2.08711
泸州
-0.28711
德阳
0.57059
绵阳
-0.17808
广元
-0.57319
遂宁
-0.73033
内江
0.28139
乐山
-0.47307
南充
-0.50781
眉山
-0.87293
宜宾
0.22045
广安
-0.08078
达州
-0.07226
雅安
-0.9419
巴中
-0.81849
资阳
-0.69181
在经济环境协调度维度上,根据因子得分情况,排在前两位的是成都市和攀枝花市,德阳、内江、自贡、宜宾为正得分,而剩下的12个市都是负得分,其中排名最后的两个城市是眉山市和雅安市,引起这种结果的原因可能是成都市政委以清洁生产、资源综合利用为手段,推进工业循环经济发展,组织工业循环经济示范点,而且大力发展高科技产业开发园和工业生态园,使得在保证经济开速稳定增长的同时控制并尽量减少环境污染;攀枝花市的人均GDP列全省第一,钢铁、钒钛、能源和化工是攀枝花市的四大支柱产业,与经济相协调发展的环境水平得分高的原因可能是由于本身是工业城市,所以市政府对环境污染投资的力度很大。
表6.1.2在社会环境协调度维度上四川省各市的得分
城市
FAC2_1
成都
1.99971
自贡
-1.31199
攀枝
-1.83559
泸州
0.25134
德阳
-0.58104
绵阳
0.17472
广元
-0.41621
遂宁
0.66776
内江
-0.09448
乐山
0.20217
南充
1.93843
眉山
0.31794
宜宾
-0.02411
广安
-1.06615
达州
0.25115
雅安
-0.64962
巴中
-0.72251
资阳
0.89848
在社会环境协调度维度上,根据因子得分情况,排在前两位的是成都和南充市,而攀枝花市排在了最后一位,产生此结果的原因可能是:
攀枝花的教育投资列全省倒数第二,工业废物的综合利用率也很低,这说明了政府虽然加大了对环境的治理力度但是政策的落实还存在问题。
表6.1.3在生态环境保护的维度上四川省各市的得分
城市
FAC3_1
成都
0.33475
自贡
-0.36606
攀枝
0.91154
泸州
0.02731
德阳
0.36953
绵阳
1.35129
广元
-0.46081
遂宁
0.3924
内江
-2.29242
乐山
0.65164
南充
0.03927
眉山
0.56616
宜宾
-0.40385
广安
-1.30862
达州
-0.99784
雅安
2.06535
巴中
-0.25585
资阳
-0.62379
在生态环境保护的维度上,排在前五的分别是雅安、绵阳、攀枝花、乐山、眉山,而排在最后一位的是内江市,虽然内江市的工业废水排放达标率最低,但生态环境保护排最后可能另有原因,有待于进一步分析。
6.2综合得分的结果分析
将标准化后的数据代入上述的综合模型即可计算出综合得分,如下表
表6.2.1各城市综合得分
城市
综合得分
城市
综合得分
城市
综合得分
成都市
1.77
乐山市
0.071
达州市
-0.19
攀枝花市
0.500
宜宾市
0.012
自贡市
-0.415
绵阳市
0.326
遂宁市
-0.014
广元市
-0.436
南充市
0.293
眉山市
-0.055
巴中市
-0.57
德阳市
0.128
泸州市
-0.062
内江市
-0.591
雅安市
0.082
资阳市
-0.177
广安市
-0.672
从上表综合评价结果来看,有些城市出现了负得分,其原因是在对各个指标进行标准化处理时,有些指标值低于平均水平,计算结果就出现了负分。
四川省生态质量综合水平从高到低可以分成3类:
第一类城市:
成都
第二类城市:
攀枝花、绵阳、南充、德阳、雅安、乐山、宜宾
第三类城市:
遂宁、眉山、泸州、资阳、达州、自贡、广元、巴中、内江、广安
从地理位置的分布方面分析,成都市和攀枝花市是全省两个最大的经济发展市,成都周边地区如德阳、绵阳、南充有着便捷的交通,因而城市发展规划比较科学,且此类地区森林覆盖率高,环境质量高,有丰富的国家级、省级生态示范城市的建设经验,今后更要广泛开展创建生态市及国家园林城市、国家卫生城市、国家环保模范城市的工作,进一步推进生态小区、生态型城镇建设。
第三类城市的自然风貌好,森林覆盖率高,环境质量高,得分低可能是由于这几个城市的经济发展相对落后,工业设备的生态性能不够。
从整体情况来看,四川省作为全国的农业大省,在经济建设方面,虽然经济总体状况有所改善,但是经济效益、经济结构还需要进一步提高和优化。
生活质量方面,居民人均可支配收入虽然较往年有较大提高,但是医疗卫生保健服务尚不健全;人口素质方面,四川省人口基数大、科教、医疗设施投入比重较其它发达城市偏低,大量优秀人才外流,影响了经济和社会的发展潜力;生态方面,能源和其它自然资源的利用率不高以及环境污染问题也比较突出。
7模型评价
优点:
因子分析法,不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据,了解隐藏在变量中的主要影响因素,清晰地分析出每个公共因子对指标的影响,简化了许多微小因素对结果的影响程度,通过旋转使得因子变量更具有可解释性,命名清晰性高。
具有较强的全面性和客观性,是解决定性问题定量化的一种行之有效的方法。
缺点:
在某些方面因子分析法尚不能完全替代定性分析,如指标含义分析、主成分的经济解释等,而且,该方法的应用在很大程度上还受到统计数据的制约,因此,本案例建立的指标体系是在原有的指标体系基础上经过适当变换的到的,这会存在一定的问题,如各指标间的线性相关度高,区分不明显。
设计总结
通过对数据分析这道实际问题的解决,不仅使我更加深刻的理解了数据分析的基础知识,对因子分析以及矩阵旋转有了更深刻的了解,而且使我对这些知识在实际中的应用产生了浓厚的兴趣,同时对我学习好数据分析这门课有很大帮助。
在实现这道题的过程中我应用了SPSS数据分析软件,学会了这个软件的一些新的应用,更加熟练的操作该软件进行一些数据上的处理。
参考文献
[1]梅长林、范金城.数据分析方法[M].北京:
高等教育出版社2006.2
[2]杨维忠、张甜.SPSS统计分析与行业应用案例详解[M].北京:
清华大学出版社2011.4
[3]时立文.SPSS19.0统计分析从入门到精通[M].清华大学出版社2012.8
[4]崔飚、高胜、万萍.四川生态建设中存在的问题[J].绿色经济2002年第10期
[5]《中国环境统计年鉴—2007》
[6]《四川统计年鉴—2007》
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 有关 spss 数据 分析 课程设计 报告书