基于SPSS的聚类分析在行业统计数据中的应用.docx
- 文档编号:3437991
- 上传时间:2022-11-23
- 格式:DOCX
- 页数:10
- 大小:321.01KB
基于SPSS的聚类分析在行业统计数据中的应用.docx
《基于SPSS的聚类分析在行业统计数据中的应用.docx》由会员分享,可在线阅读,更多相关《基于SPSS的聚类分析在行业统计数据中的应用.docx(10页珍藏版)》请在冰豆网上搜索。
基于SPSS的聚类分析在行业统计数据中的应用
基于SPSS的聚类分析在行业统计数据中的应用
摘要
基于SPSS的聚类分析在行业统计数据中的应用
改革开放以来,随着中国的经济高速发展,各行膈应人都已经有了飞跃进步。
科技在现在的经济发展中起着越来越重要的作用。
目前,人民已经在总体上达到了小康水平,我国也已经成为了世界上最有潜力的大国。
中国的经济离不开改革开放,离不开科技的发展,离不开各行各业努力工作的人民的辛勤劳动。
从十九世纪五十年代以来,中国已经陆续的完成了是一个“五年计划”,在这五十多年里,中国所取得的成就是全世界有目共睹的,中国的经济得到了非常快的增长,为国民经济的发展打下了非常坚实的基础。
本文的研究对象是“中经网数据统计库”中的行业统计数据,数据包括含有年份的和地区的统计数据。
本文建立的主要模型是主成分-聚类模型。
该模型的主要思想是将数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自主分类,产生多个分类结果。
本文的研究将采用两种方法进行聚类分析:
一种是系统聚类法,另一种是K-聚类法(快速聚类法)。
通过这两个模型,对各地区的的经济进行划分,能更好的了解中国的经济信息。
关键词:
聚类分析;SPSS;系统聚类法;K-聚类法。
Abstract
TheApplicationofClusteringAnalysisBasedonSPSSinIndustryStatisticalData
Sincethereformandopeningup,everyindustryhasgotaleapinprogresswiththerapiddevelopmentofChina’srapideconomic.Technologyandscienceplayanimportantroleineconomicdevelopment.Peoplehavereachedacomfortablelevelingeneral,andChinahasbecomeaneofthemostpotentialcountriesintheworld.TheeconomyofChinaisinseparablefromthereformofChina’sdevelopmentandtechnology.Theeconomyisalsoinseparablefromallwalksoflifetoworkhard.
Chinahassuccessivelycompletedsomefive-yearsplansinthesefiftyyearssincetheyearof1850.China’sachievementsareobvioustoallaroundtheworldinthefiftyyears,andChina’seconomyhasgrownfast,andlaidaverysolidfoundationforthedevelopmentofthenationaleconomy.
TheobjectofthispaperisCEInetStatisticsDatabase.Thedatacontainstheyear’sandregion’sstatistics.ThemainmodelestablishedinthispaperisthePrincipalComponentAnalysis-Clusteringmodel.Themodelideaofthismodelisthedataaccordingtoitsmanycharacteristicsandthedegreeofcloseness,intheabsenceofpriorknowledgeclassificationindependently,producemultipleclassificationresults.
Theresearchwillusetwokindsofmethodforclusteringanalysis,oneisthesystemclusteringmethod,theotherisaK-clusteringmethod.Bythesetwomodels,canbetterunderstandChina’seconomicinformation.
Keywords:
ClusteringAnalysis;SPSS;Systemclustering;AK-clustering。
第1章绪论
1.1.选题背景
目前,社会主义市场经济体制在社会中发挥着重要的作用。
市场和宏观调控互相协调,相得益彰,各种体系发展日益完善,经济形势发展越来越好,产生的价值越来越大。
到2020年,我国会建立起比较成熟的社会主义市场经济体制。
2012年一月份至九月份,中国经济增长速度是已经回落到7.7%。
相较于中国过去30年接近10%的增长速度,十一五期间更是接近11.2%的增长速度。
因此在10%或者8%以下,显然是经济增长缓慢。
另外,中经数据统计发布的各种宏观数据显示,中国经济增长速度已经开始缓慢。
1.2数据来源
《中经网统计数据库》是由国家信息中心中经网凭借与国家发改委、国家统计局、海关总署、各行业主管部门以及其他政府部门的良好合作关系,经过长期数据积累并依托自身技术、资源优势,通过专业化加工处理组织而成的一个综合、有序的庞大经济统计数据库群。
本文从中经网选取个地区最近三年各季度城镇工资总额来进行分析,该部分反映我国劳动经济方面的基本情况,其中各地区包括31个省、自治区、直辖市。
1.3本文主要工作
本文的研究对象是“中经网统计数据库”中个地区城镇工资总额,总所周知,各地区由于地理,文化的差异,其各地区的工资水平以及发展程度是不一样的。
分析各地区的工资问题,可以为我们毕业生提供宏观的就业位置,给出一个合理的基准判断。
本文就是针对按照地区各季度城镇工资总额等数据,对中国各省份地区进行聚类分析,建立聚类分析【1】模型。
聚类分析是数据挖掘【2】中的一种重要的算法,他将生活中的数据对象进行数据分析,将性质相似或者相近的对象放在一个类中,将性质不同的对象放在不同的类中,研究聚类分析,使得我们从复杂的现实生活中提取有用的信息,从而更好的分析数据,反应生活中的社会信息。
本文建立的主要模型是系统聚类分析模型和K-均值聚类分析模型,该模型主要思想是将数据按照亲疏的不同进行聚类,一步一步聚类,最终聚类成一个大类。
然后对聚类过程中的步骤进行分析,从而得到聚类结果。
第2章SPSS软件简介
SPSS【3】是现代统计软件的典型代表,其全称:
StatisticalPackagefortheSocialSciences,即社会科学统计软件包。
世界上公认数据分析软件有三个,分别是SAS、SPSS和SYSTAT。
SPSS软件作为其中的一个统计学软件,有着强大的功能和特点。
SPSS统计学软件有以下几个特点。
(1)利用SPSS软件能够实现很多的类似于微软的操作,列如可以将数据录入到SPSS中,可以将资料进行编辑,可以将数据进行管理,可以像EXCEL一样进行报表制作等。
(2)SPSS统计学软件的统计功能,可以实现“报告”“描述统计”“表”“比较均值”“一般线性模型”“广义线性模型”“相关”“回归”等功能。
(3)SPSS数据输入和输出可以选取多种格式如:
sav、xls等等。
第3章聚类分析
3.1简介
聚类分析【4】是数据挖掘中一种重要的算法。
它主要是将具有相同或者相似性质的对象放在同一个集合中,把具有不同性质的对象放在不同的集合中。
聚类分析在商业、生物、教育等很多行业有着重要的应用。
正是有了类似分析这样的数据挖掘算法,我们才从庞大的社会信息中提取出对我们有用的信息,更好的反馈社会。
3.2系统聚类法
系统聚类法分为Q型聚类和R型聚类两种:
Q型聚类是对样本进行聚类,它使具有相似特征的样本聚在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数、降低变量维度的目的。
在本文中Q型聚类中类与类之间距离的计算方法主要有以下几种:
(1)最短距离法,是指两类之间每个个体距离的最小值;
(2)最长距离法,是指两类之间每个个体距离的最大值;
(3)组间联接法,是指两类之间个体之间距离的平均值;
(4)组内联接法,是指把两类所有个体之间的距离都考虑在内;
(5)重心距离法,是指两个类中心之间的距离;
(6)离差平方和法,是指同类样品的离差平方和应当较小,类与类之间的离差平方和应当较大。
3.3k均值聚类法
k均值类法【5】的工作原理:
该算法首先确定初始的聚类中心,一般是随机的选定K个对象,然后计算各个样本到聚类中心的距离,从而把样本或者对象归到离它最近的聚类中心所在的类。
计算完所有样本后,重现计算聚类中心,重新对样本或者对象进行类,如果相邻两次的聚类中心没有变化或者两侧的聚类中心之间的差距已经收敛,则聚类结束。
3.4聚类法分析的优缺点
聚类分析是数据挖掘中的经典算法之一。
聚类分析的优点如下:
(1)聚类分析能够很好的反映类之间的关系,研究聚类分析能够研究数据背后的对象的性质,能够对我们了解这些对象有着重要的作用。
(2)聚类分析能够使用聚类中心来很好地体现该类的性质。
比较不同类的聚类中心能够发现不同类的聚类中心所代表的意义不同。
(3)聚类分析能够帮助我们从数据中提取重要的信息,聚类分析可以反映数据信息的有效性。
聚类分析的缺点如下:
(1)以k均值聚类算法为例,初始聚类中心随机设定,这就使研究者在设定聚类中心时产生随机性。
(2)聚类分析的类数k的确定。
在聚类分析算法中,一般人为的设定k值。
这样,如果将一堆对象分城较少的类,则可能不能体现聚类中各个类的性质。
如果将对象分成较多的类,则可能造成数据的冗余。
第4章聚类分析的应用
4.1数据输入
图4.1年份各地区数据变量视图
在SPSS统计学软件中,有“数据视图”和“变量视图”两种。
数据视图就是将实际数据导入SPSS中后显示的实际数据,而变量数据是对数据对象打的属性变量的定义,包括名称、类型、宽带、小数、数值等相关信息。
变量视图如上图所示。
4.2统计数据-系统聚类分析
在本小节中,针对统计数据,使用SPSS统计学软件进行系统聚类分析。
如图4.2所示,将数据导入SPSS软件,然后进行系统分析。
图4.2统计数据-系统分析
通过系统分析可以得到其各个样本之间的相似系数,数值越大表示两样本之间的距离越大。
如下图4.3所示。
图4.3相似矩阵表
冰柱图直观的反应了系统聚类法中分类的步骤。
如图4.4所示。
图4.4系统聚类分析冰柱图
利用SPSS软件,进行系统分析,可以利用软件做出树状图,利用树状图我们可以看出各个样本之间的聚类过程,可以看出分类的过程,直观的显示结果。
如图4.5所示。
图4.5系统聚类分析树状图
通过利用SPSS统计软件分析,结合树状图和冰状图可以得出,系统分析将各省份分城三个大类,第一类是北京和广州属于城镇工资总额最高的两个城市,表明出,在北京和广州两地的工资较高相应看出这两个地方的经济较为发达。
第二类是江苏、浙江、山东和上海,其余的分为第三类。
4.3统计数据-k均值聚类分析
本小节,针对统计数据进行k均值聚类分析。
图4.6统计数据-k均值聚类分析
图4.7初始聚类中心
图4.8迭代历史记录
得到初始中心后,利用k均值聚类的计算方法,计算得到聚类中心,然后,把每个对象归类到距离最近的聚类中心所在的类中,在这个过程中,需要经过迭代过程,上图4.8反映的是迭代过程中的聚类中心结果。
如果收敛,即停止计算聚类中心。
通过k均值计算依据,可以得到聚类结果。
聚类成员如下图4.9所示,最终的聚类中心如下图4.10所示。
聚类成员包含有案例号、案例所在的类数和对象距离聚类中心的距离。
图4.9k均值聚类聚类成员
图4.10k均值聚类最终聚类中心
在统计数据经过K均值聚类分析后,得到三个大类,图4.11表示了聚类成员和最终聚类中心间的距离,同时也表示出每个类别的案例。
图4.11k均值聚类分析结果显示图
通过k均值聚类分析,我们可以得到第一大类包含:
北京,上海,广州,江苏,浙江,山东。
第二类包含:
湖南,福建等地。
明显可以得到在北上广等地区属于中国经济发的的地区,然而中国城镇工资总额不高的地区还是占多部分的省份。
总体而言,可以反映出中国的经济发展还不平衡,各地区经济水平差异较大。
第5章总结
在数据挖掘中,聚类算法是一类很重要的算法,并且在现实的社会生活中有着非常广泛的应用。
广大的学者通过多年的研究得到了很多与聚类相关的算法和设计应用,相信在未来的时间里,会呈现出更多的聚类算法的改进和应用,更好地从社会生活科研中提取数据,通过对数据的分析挖掘研究出有用的信息,用于社会和人们之中。
参考文献
[1]HanJiawei,MichelineKamber.DataMining:
ConceptsandTechniques[M].1sted.SanFransisco:
USMorganKaufmannPublishers.Inc,2001:
223-262.
[2]李斌.基于正常简当聚类的自适应异常检测技术研究[D].中南大学硕士学位论文,2009.
[3]蔡建琼,于惠芳,朱志洪.SPSS统计分析实例精选[M].北京:
清华大学出版社.2006.
[4]MarkouMT,KassomenosP.ClusteranalysisoffiveyearsofbacktrajectoriesarrivinginAthens,Greece[J].ATMOSPHERICRESEARCH,2010,98(2-4):
438-457.
[5]杨飞.SPSS中主成分分析在体育科研中的应用研究[J].体育科技文献通报.2009.17(12):
128-129/132.
致谢
感谢我的老师严谨的学风、谦虚的为人,使我在实验设计与数据处理课程学习中受益匪浅。
感谢学校为我们提供了这么良好的学校环境。
感谢所有帮助过我的人,谢谢大家。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 SPSS 聚类分析 行业 统计数据 中的 应用