spss聚类与判别分析分析系统辨识小组结题报告文档格式.docx
- 文档编号:21105719
- 上传时间:2023-01-27
- 格式:DOCX
- 页数:22
- 大小:1.33MB
spss聚类与判别分析分析系统辨识小组结题报告文档格式.docx
《spss聚类与判别分析分析系统辨识小组结题报告文档格式.docx》由会员分享,可在线阅读,更多相关《spss聚类与判别分析分析系统辨识小组结题报告文档格式.docx(22页珍藏版)》请在冰豆网上搜索。
1.2.1数据检查
在导入数据后,首先要做的是对每个变量进行定义,主要包括对数据的类型、宽度、标签、值、缺失值、度量标准等作出明确的定义。
如下所示:
图1.1.1变量的定义
对变量定义完成之后,需要对变量进行检查,包括对缺失值、极端值的处理,必要时对一些不合理的个案进行剔除等操作。
具体如下:
图1.1.2缺失值的处理
图1.1.3极端值的处理(根据方差大小)
图1.1.4对不合理定义的数据的剔除
1.2.2基本统计特征描述
利用spss软件本身的统计功能,可以描述个案的分布特征以及描述变量与变量之间的相关性。
基本统计特征的描述将作为对数据进一步处理的指导跟依据。
以下是对数据统计处理后的部分结果的展示:
图1.2.1数据的分布特征
图1.2.2变量之间统计特征
第二部分基于注册时间的聚类与判别分析
2.1聚类分析
2.1.1聚类分析概述
聚类分析的原理是把每一个个案看成是N维空间中的一个点(N等于观察变量的个数),根据事先定义的点与点之间的距离,把相邻的点聚成一类,再把距离相近的类聚成一个大类,依次进行下去,最后生成一个树形的聚类表,根据聚类表与聚类系数来分析类别以及类别之间的关系。
从聚类的分析的原理可以看出,用于聚类的个案数量不能太多(一般小于100),否则会因为个案数量太多,生成的聚类数太复杂,难以分析类别之间的关系。
因此我们组讨论的解决方法是:
1.对原始数据进行初步的分类(根据时间、行政区域);
2.对每一个原始类别进行统计处理(求均值、个案数量);
3.把每个类别的统计值作为新的的值,重新构建新的数据表,在新的数据表中每一个原始类别作为一个案例;
4.再对构建的新的数据表进行聚类分析,以得到分析结果。
如下图所示:
图2.1.1聚类分析步骤
2.1.2数据的进一步处理
为了能够对初始数据进行更合理的分类与处理,需要对数据进行进一步的处理,这部分的工作包括日期的转换与处理、字符的处理、数据的标准化以及个案的筛选和分组。
图2.1.2日期格式的转换及年份提取
图2.1.3字符变量的简化处理
图2.1.4字符变量数值化
图2.1.5数据的标准化
2.1.6根据注册年份将数据分组
在这部分数据处理中,我们把数据依照注册年份分成初始类别,并把行业类型代码作数值化操作。
在个案筛选的操作中,考虑到我们使用每一个初始类的统计数据作为聚类分析的个案的,因此延时类别中数据量太少将影响到最后的分析结果,因此我们剔除了个案个数较少的年份(小于20个个案)。
最终我们得到从2003年到2013年的处理后的统计数据。
最后处理的结果如下:
2.1.7处理结果
2.1.3数据的统计以及初始类别的构建
对已经分组的数据进行标准化处理,然后进行统计,求出每个组的平均值跟个案数量,以此构建新的数据表。
图2.1.8统计得到的分组数据
图2.1.9构建新数据表
对新表进行层次聚类处理,得到结果如下:
近似矩阵
案例
平方Euclidean距离
1:
2003
2:
2004
3:
2005
4:
2006
5:
2007
6:
2008
7:
2009
.000
.115
.149
.410
.398
.496
.616
.063
.377
.330
.402
.475
.264
.247
.411
.465
.005
.076
.086
.050
.059
.009
8:
2010
.806
.615
.676
.227
.180
.034
9:
2011
1.533
1.278
1.501
.824
.738
.413
.388
10:
2012
1.874
1.484
1.652
.916
.825
.519
.445
11:
2013
2.333
1.923
2.035
1.106
1.026
.714
.608
平均联结(组之间)
聚类表
阶
群集组合
系数
首次出现阶群集
下一阶
群集1
群集2
1
4
5
6
2
7
3
8
.042
10
11
.046
.113
9
.123
.132
.466
1.041
根据聚类表的系数以及平均联接树状图,可以大致把样本分为四个组,即:
2006和2007一组,2008、2009和2010一组,2003、2004和2005一组,2011、2012和2013一组。
从近似矩阵里面也可以看出每个类别之间的距离比较。
2.2判别分析
2.2.1判别分析概述
判别分析主要根据是根据一个已经分类的样本集合(一个分类变量跟几个观察变量)来拟合一个判别函数,用拟合的判别函数来对未分类的样本进行判别。
判别函数的一般形式如下:
可以看到,该函数是假设函数值(分类变量)跟观察变量之间的关系式线性的。
在进行判别分析时该函数会根据观察变量返回一个值,这个值代表了该个案属于某个类别的概率。
从判别的分析的概述可以看出,要拟合出一个比较合理判别函数,一般需要足够多的样本值来训练,因此我们组讨论的处理方式是:
1.根据聚类分析的结果,把原来处理过的数据加上聚类分析的结果全部作为判别分析的个案;
2.然后对所有个案进行判别分析操作;
3.最后根据判别分析的结果(判别率)来检验聚类分析的合理性。
2.2.2样本数据处理
要进行判别分析,首先需要根据聚类分析的结果,给原来处理过的数据(一万多个数据)贴上标签,分为四个不同的类别。
图2.2.1把数据分为四类
另外,考虑到样本数据量太大,随机因素太多,因此在原始数据的基础上再加上一个变量,用来该变量对应的注册年份的案例个数,以强调该个案所在的年份的特征。
图3.2.2增加表征该年份特征的变量
然后对数据进行判别分析操作,设定观察变量跟分类变量(年份),并对输出结果分析。
图3.2.3采用fisher判别法
图3.2.4确定输出的图形
输出结果如下:
分类函数系数
分类
1.00
2.00
3.00
4.00
注册资金归一
2208.159
2209.753
2209.974
2209.036
注册年份
3743.227
3747.909
3739.399
3753.462
是否注销
1159.535
1160.264
1158.729
1159.961
企业类别
36.339
36.633
36.221
37.089
(常量)
-3755782.568
-3765183.225
-3748104.479
-3776348.660
Fisher的线性判别式函数
分类结果a
预测组成员
合计
初始
计数
2075
3008
2279
5046
%
100.0
.0
a.已对初始分组案例中的100.0%个进行了正确分类。
可以看到,由于加入了代表该年度的案例的数量特这,因此判别的结果是比较理想的,即对训练样本的所有个案正确分类,由此也检验了聚类分析的结果的合理性。
2.3聚类分析结果的试探性分析
在查阅广州市往年的经济发展年度汇报等相关资料后,得到的结论是分类的结果跟广州市总体的经济形势是相符合的。
具体来说,聚类分析的结果是:
2003、2004和2005一组,2006和2007一组,2008、2009和2010一组,2011、2012和2013一组。
从每年的广州市国民经济和社会发展统计公报中可以看出:
(1)2003年到2005年是广州市经济发展的快速时期,每年的GDP增长分别是15%、15%和13%。
(2)2006开始,国家开始采取宏观调控措施,抑制经济发展过热的现象,宏观调控措施可能是稍早之前就开始实施的,但在2006开始,确实是初见成效,这在很多经济分析报到中可以看到。
(3)而08年开始,受国内低温雨雪冰冻灾害、四川汶川特大地震灾害的影响和国际金融危机对实体经济的冲击,广州市的经济也收到相当大的影响,该年的GDP增长为12.3%,09年跟10年分别是11.5%跟13.0%(经济回暖过渡期)。
(4)2011年为国家的十二个五年计划的第一年,广州市有效应对了金融危机的影响,2011年至2013年广州市经济处于平稳发展的时期。
再回顾一下聚类分析的结果,就可以发现两者是相符合的。
第三部分基于行政区域的聚类与判别分析
3.1概述
1.安装spss软件,查阅资料。
2.将判别分析法和聚类分析法应用到数据中。
3.根据结果进行分析,对数据进行进一步的预处理,反复调整方法,直至得到一个合理的有意义的结果。
3.2实现过程
首先我们得到的是14000多个样本,这是不方便进行聚类分析的。
因此为了聚类,我们把样本按不同地区划分为24类。
它们的共同属性是公司注册资金的均值。
我们以此为依据进行聚类分析。
图3.2.1
将结果输出到一个新的表格,变量包括注册资金的均值和对应地区的个案数。
图3.2.2
再进行聚类分析
图3.2.3
聚类分析生成树状图如下所示
图3.2.4
从树形图进行分析,可以分成4个类别。
对原表格添加一个“类别”变量
图3.2.5
分析:
1、我们按广州市行政区划分析各个市辖区的经济发展状况。
其中变量取值为“广州市”和“市辖区”的这一行对我们的分析帮助不大。
且注意到“广州市”之所以注册资金如此高,是因为有一家公司注册资金达55万元,大幅抬高了总体水平。
2、最后一行南海区样本数太少,删去。
最后得到的数据再进行一次聚类分析得到结果如下
图3.2.6
采用判别分析验证结果。
将原来的14000个样本中加入“类别”变量属性并按聚类结果进行赋值。
然后按部就班地采用判别分析的方法,具体过程在此不再赘述。
判别准则为FISHER判别函数。
得到输出如下示
案例处理摘要:
分类结果:
可见对于14000多个样本,分类的正确率达到了86.8%。
因此聚类分析的结果是比较可靠的。
但是通过分析分类结果可以发现,这里的判别估计的做法是把所有个案都归类于第一类。
这是由于聚类分析把大部分样本都聚类到了第一类。
可见在600元注册资金以下的地区占大多数,因此SPSS在判别分析的时候把所有的个案都归类到了600元以下的注册资金这一类。
虽然看起来不太智能,但是正确率还是可以的。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- spss 判别分析 分析 系统 辨识 小组 报告