河北省各市公用事业的聚类与判别分析.docx
- 文档编号:11148274
- 上传时间:2023-02-25
- 格式:DOCX
- 页数:15
- 大小:53.06KB
河北省各市公用事业的聚类与判别分析.docx
《河北省各市公用事业的聚类与判别分析.docx》由会员分享,可在线阅读,更多相关《河北省各市公用事业的聚类与判别分析.docx(15页珍藏版)》请在冰豆网上搜索。
河北省各市公用事业的聚类与判别分析
河北省各市公用事业的聚类与判别分析
摘要:
本文采集了2013年河北省各市14项公用事业的相关数据,运用SPSS软件对河北省各市的公用事业类型进行聚类分析,再用判别分析对聚类结果进行判别。
判别分析结果与聚类分析预测的公用事业类型基本符合。
关键词:
公用事业、距离分析、判别分析
1引言
指具有各企业、事业单位和居民共享的基本特征的,服务于城市生产、流通和居民生活的各项事业的总称。
通称城市基础设施或市政服务事业。
公用事业同一般生产企业有所不同,表现在:
①以提供劳务为主,很少或几乎不生产有形产品;②服务面广,几乎对全市所有团体、组织和居民提供服务;③投资大、回收期长,有的还向用户(或居民)提供无偿服务;④能给整个城市及用户带来经济效益、社会效益和环境效益。
城市公用事业是城市生产经营、居民日常生活所不可缺少的事业,是城市生存与发展的基础和基本条件。
这一事业的发达和完善,能提高整个城市的劳动生产效率、工作效率,节约社会劳动,为居民生活创造优美的环境和良好的条件。
它反映城市面貌、文化水准生活水平以及经济水平的整体面貌。
本文通过SPSS统计软件对2013年河北省各城市公用事业进行聚类和判别分析,客观地反映了当前市的城市基础设施类型。
2聚类分析
聚类分析包含的内容很广泛,可以有层次聚类法、分层聚类法、快速聚类法等多种方法。
其中应用最为广泛的是层次聚类法。
它的基本原理是:
首先将一定数量的样品(或指标)各自看成一类,然后根据样品(或指标)的亲疏程度,将亲密程度最高的两类进行合并,然后考虑合并后的类与其他类之间的亲疏程,再进行合并,重复这一过程,直至将所有的样品(或指标)合并为一类。
2.1数据采集
表1为2013年河北省各市基础设施建设相关数据[1]。
查询了2013年河北省各市实有城市道路面积(万平方米)、排水管道长度(公里)、供水综合生产能力(万立方米/日)、供水总量(万立方米)、用水人口(万人)、煤气(人工、天然气)供气总量(万立方米)、用煤气(人工、天然气)人口(万人)、液化石油气(吨)、用液化气人口(万人)、公共交通运营车(辆)、全年公共汽(电)车客运总量(万人次)、年末实有出租汽车(辆)、园林绿地面积(公顷)、建成区绿化覆盖面积(公顷)的数据,作为聚类分析的初始数据。
表12013年河北省各市基础设施建设相关数据
城市
年末实有城市道路面积(万平方米)
排水管道长度(公里)
供水综合生产能力(万立方米/日)
供水总量(万立方米)
用水人口(万人)
煤气(人工、天然气)供气总量(万立方米)
用煤气(人工、天然气)人口(万人)
液化石油气(吨)
用液化气人口(万人)
公共交通运营车(辆)
全年公共汽(电)车客运总量(万人次)
年末实有出租汽车(辆)
园林绿地面积(公顷)
建成区绿化覆盖面积(公顷)
石家庄市
4560
2208
126.73
35081
251.29
34194
237.51
30348
13.78
5378
67825
10471
9246
9308
承德市
733
461
31.68
5497
54.58
5207
18.73
4455
35.78
838
14732
5892
4213
4676
张家口市
1347
666
75.30
8384
87.60
5627
76.41
5640
10.67
1391
18673
5474
3378
3565
秦皇岛市
1900
1411
41.70
11288
96.23
20650
93.86
2893
2.37
934
14290
4344
5187
4740
唐山市
3050
2279
130.00
25979
197.48
63206
189.21
9870
8.27
2427
27926
6610
9618
10245
廊坊市
884
542
22.68
4791
52.50
16530
49.70
2900
2.79
693
4985
8252
4348
2870
保定市
2437
833
37.19
9597
122.71
16206
88.35
3249
14.66
2389
18859
6543
5579
5821
沧州市
942
535
25.00
3919
54.73
8130
38.98
3210
15.75
1447
8270
7503
2052
2360
衡水市
687
388
12.86
2317
36.62
3170
10.00
3900
26.52
1154
4927
2412
1740
1911
邢台市
1367
710
53.60
8146
91.70
27631
84.00
7292
7.70
2353
17606
4343
3851
2956
邯郸市
3157
1621
98.50
14258
164.79
26212
138.81
4995
25.98
2899
25242
7185
7947
5617
2.2数据处理
打开SPSS13.0分析程序,选择Analyze→Classify→HierarchicalCluster,进行系统聚类分析(HierarchicalClusterAnalysis),由于属于所选取的影响因素单位差异较大,故先对其进行标准化处理,引入的变量是x1到x14。
对样品(个案)进行聚类,即Q型聚类分析(对研究对象本身分类)。
聚类方法使用Between-groupslinkage(类间平均链锁法),距离测量技术选择AquaredEuclideandistance(Euclidean距离平方,即两观察单位距离间的距离为其值差的平方和,该技术用于Q型聚类)。
分析所得结果。
表2数据汇总表
表3聚类顺序表
表2为数据汇总表,是Processing过程中的输出信息,即数据的基本信息。
数据分类为有效个案(Valid)、缺失个案(Missing)和个案总数(Total)的个数和百分数。
脚注显示聚类时采用的距离度量方法,具体聚类方法为默认设置,即欧氏距离平方值。
从表中可以看出,11个样本参与分析,没有缺失值。
表3显示了聚类的过程,并且可以看出,聚类一共进行了10个步骤的分析,距离最小的样本之间先聚类,从表格的第一行表示,第2个样本和第3个样本最先进行了聚类,这个聚类结果将在后面的第5步聚类中用到;第二行表示聚类的第二步中第4个样本和第7个样本进行了聚类,这个聚类的结果将在后面的第4步聚类中用到。
其余类似。
经过了10步聚类,11个样本聚成了一个大类。
CASE0510152025
LabelNum+---------+---------+---------+---------+---------+
2
3
8
9
6
4
7
10
11
1
5
图1分类结果树状图
表4分类结果表
2.3结果分析
图1为分类结果树状图,表4为分类结果表。
结合表4和图1,可以看出,如若将河北省各市的公用事业类型分为三类,则分类如下:
(Ⅰ)石家庄市
(Ⅱ)邯郸市、邢台市、保定市、秦皇岛市、廊坊市、衡水市、沧州市、张家口市、承德市
(Ⅲ)唐山市
若将河北省各市公用事业分为四类,则分类如下:
(Ⅰ)石家庄市
(Ⅱ)廊坊市、衡水市、沧州市、张家口市、承德市
(Ⅲ)邯郸市、邢台市、保定市、秦皇岛市
(Ⅳ)唐山市
而若将河北省各市公用事业分为五类,则分类如下:
(Ⅰ)石家庄市
(Ⅱ)衡水市、沧州市、张家口市、承德市
(Ⅲ)邯郸市、邢台市、保定市、秦皇岛市
(Ⅳ)唐山市
(Ⅴ)廊坊市
3判别分析
判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类,从而对事物进行判别分类的统计方法。
判别分析适用于已经掌握了历史上分类的每一个类别的若干样品,希望根据这些历史的经验(样品),总结出分类的规律性(判别函数)来指导未来的分类。
判别分析是先根据已知类别的事物的性质(自变量),建立函数式(自变量的线性组合,即判别函数),然后对未知类别的新事物进行判断以将之归入已知的类别中。
通常使用的判别分析方法有:
距离判别法、Bayes判别法以及Fisher判别法等方法。
本文中将使用SPSS17.0的Classify→Discriminate程序随机选取衡水市、邢台市、邯郸市进行判别分析,以确定这些地区所属的类型。
3.1数据处理
选择SPSS→Analyze→Classify→DiscriminantAnalysis,定义分类结果为指标变量X15,采用自变量全进入模型来进行判别分析。
在河北省11个市中,选取石家庄市、承德市、张家口市、秦皇岛市、唐山市、廊坊市、保定市、邯郸市这8个市作为数据源,将沧州市、衡水市和邢台市3市进行判别,以确定这些地区所属的公用事业类型。
采取聚类分析中将河北省各市的公用事业类型分为四类的情况,其取值范围为1~4,如表5所示。
表5河北省各市公用事业相关数据表
编号
城市
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
X14
X15
1
石家庄市
4560
2208
126.73
35081
251.29
34194
237.51
30348
13.78
5378
67825
10471
9246
9308
1
2
承德市
733
461
31.68
5497
54.58
5207
18.73
4455
35.78
838
14732
5892
4213
4676
2
3
张家口市
1347
666
75.30
8384
87.60
5627
76.41
5640
10.67
1391
18673
5474
3378
3565
2
4
秦皇岛市
1900
1411
41.70
11288
96.23
20650
93.86
2893
2.37
934
14290
4344
5187
4740
3
5
唐山市
3050
2279
130.00
25979
197.48
63206
189.21
9870
8.27
2427
27926
6610
9618
10245
4
6
廊坊市
884
542
22.68
4791
52.50
16530
49.70
2900
2.79
693
4985
8252
4348
2870
2
7
保定市
2437
833
37.19
9597
122.71
16206
88.35
3249
14.66
2389
18859
6543
5579
5821
3
8
沧州市
942
535
25.00
3919
54.73
8130
38.98
3210
15.75
1447
8270
7503
2052
2360
2
注:
X1:
年末实有城市道路面积(万平方米)
X2:
排水管道长度(公里)
X3:
供水综合生产能力(万立方米/日)
X4:
供水总量(万立方米)
X5:
用水人口(万人)
X6:
煤气(人工、天然气)供气总量(万立方米)
X7:
用煤气(人工、天然气)人口(万人)
X8:
液化石油气(吨)
X9:
用液化气人口(万人)
X10:
公共交通运营车(辆)
X11:
全年公共汽(电)车客运总量(万人次)
X12:
年末实有出租汽车(辆)
X13:
园林绿地面积(公顷)
X14:
建成区绿化覆盖面积(公顷)
X15:
类别
表6分组均数齐性检验
3.2结果分析
表6为分组均数齐性检验,以group为自变量,以14个指标为因变量,来分析预测变量在这4个不同的类中的平均数差异型。
其中F值越大,Wilks’Lambda越小,平均数的差异越大。
从最后一列可以看出,14个自变量中,X9(用液化气人口)和X12(年末实有出租汽车)对城市分类的影响不是很显著,其余变量对城市分类都是显著的有效变量。
表7特征值表
表7显示了3个典型判别函数的特征值。
可以看出,第一个函数占了总方差的99.5%,其他两个函数仅占总方差的0.4%和0.1%,说明函数1的区别判断力比函数2和函数3强,函数1更具有区别判断力。
表8Wilks'lambda表
表8为Wilks'lambda表,即组内平方和与总平方和之比。
当所有观测的组均值相等时,Wilks'lambda值为1;当组内变异与总变异相比小时,Wilks'lambda值接近于0。
因此,Wilks'lambda值大,表示各个组的均值基本相等;Wilks'lambda小表示组间有差异。
在判别分析中,只有组均值不等时,判别分析才有意义。
从表8中可以看出,“1到3”和“2到3”表示两个判别函数的平均数在类间的差异情况,P值(1到3)=0.001<0.05,表示差异达到显著水平;P值(2到3)=0.115>0.05,表示差异未达到显著水平;“3”表示在排除了第一、第二个判别函数后,第三个判别函数在组别间的差异情况,P值=0.149>0.05,表示判别函数3未达到显著水平。
由表9-表12可以得出数据分类的Fisher线性判别函数,分别如下:
Y1=0.911X1+0.240X2-30.6X3+0.286X4-5424.699
Y2=0.132X1+0.051X2—3.988X3+0.036X4-103.027
Y3=0.363X1+0.133X2-11.255X3+0.1X4-769.138
Y4=0.579X1+0.184X2-18.904X3+0.175X4-2136.106
表9标准化的典型判别式函数系数
表10结构矩阵
表11典型判别式函数系数
表12Fisher线性判别函数系数表
将衡水、邢台和邯郸市的指标代入四个判别函数,判别函数值最大函数所属类别即为这个城市的分类。
结果如表13所示。
表13衡水、邢台和邯郸市的判别函数值
城市
X1
X2
X3
X4
Y1
Y2
Y3
Y4
衡水市
687
388
12.86
2317
-4436.49
39.58
-381.18
-1504.53
邢台市
1367
710
53.60
8146
-3319.68
193.08
32.72
-801.88
邯郸市
3157
1621
98.50
14258
-1095.84
516.86
909.69
623.25
由表13可以看出,衡水市和邢台市的Y2最大,因此属于第二类;邯郸市的Y3最大,因此属于第三类。
图2中4个类别的个案对应的散点分别用4种不同的颜色表示,较大的方框表示各类别的重心。
由表13及图2可以很直观地看出,河北省8个城市公用事业属于第一类的有一个城市,第二类有4个城市,第三类有2个城市,第四类有1个城市。
另外3个城市,衡水市和邢台市属于第二类;邯郸市属于第三类。
判别分析结果与聚类分析预测的公用事业类型基本符合。
图2典型判别函数图
表14分类结果表
4结论
(1)本文采集了2013年河北省各市公用事业的相关数据,运用SPSS软件对河北省各市的公用事业类型进行分类,分类结果如下:
(Ⅰ)石家庄市
(Ⅱ)廊坊市、衡水市、沧州市、张家口市、承德市、邢台市
(Ⅲ)邯郸市、保定市、秦皇岛市
(Ⅳ)唐山市
(2)第一类仅有石家庄市,石家庄市作为河北省会城市,是全省的政治、经济、文化中心,经济水平发达,综合实力较为突出,政府致力于公用事业的力度强大,所以被划分成单独一类。
(3)第二类城市中,经济发展水平不如石家庄市,综合实力相对不强,政府对于公共事业的投入不如省会城市,因此被划分为第二类。
(4)第三类城市中,秦皇岛作为沿海城市,旅游业繁荣,人流量大,经济文化交流广;邯郸市位于河北南端,地处晋冀鲁豫四省交界处,是国家历史文化名城;保定市临近首都北京,与北京、天津构成黄金三角,并互成掎角之势。
这三市各有其特色,但政府对基础设施的关注度同样重视,因此被划分第三类。
(5)第四类城市仅有唐山市,唐山市作为中国近代工业的摇篮,工业基础雄厚。
这里诞生了中国第一座机械化采煤矿井、第一条标准轨距铁路、第一台蒸汽机车、第一桶机制水泥,孕育了丰厚的工业文明。
同时唐山是中国评剧的发源地,素有“冀东三支花”之称的皮影、评剧、乐亭大鼓享誉全国,为国家级非物质文化遗产。
独特的经济类型和文化交流促使唐山市具有了与河北省其他省辖市不同的公用事业类型。
参考文献
[1]中华人民共和国河北省统计局.中国统计年鉴[M].北京:
中国统计出版社,2013.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 河北省 各市 公用事业 判别分析