聚类论文.docx
- 文档编号:3741145
- 上传时间:2022-11-25
- 格式:DOCX
- 页数:12
- 大小:175.23KB
聚类论文.docx
《聚类论文.docx》由会员分享,可在线阅读,更多相关《聚类论文.docx(12页珍藏版)》请在冰豆网上搜索。
聚类论文
各地区按行业分城镇单位就业人员数
摘要
为做好中央管理企业特定就业政策2010年清算和2011年补助工作,妥善处理并轨后的历史遗留问题,财政部日前联合人力资源社会保障部发布通知,明确中央管理企业特定就业政策2010年清算及2011年补助有关问题。
我国现行特定就业政策是指为妥善解决并轨遗留问题,经国务院批准,各级财政对国有困难企业为其“4050”下岗职工缴纳社会保险费给予补助的政策。
两部门在通知中明确,社会保险费补助政策的执行期限为2011年底。
各地要认真贯彻落实《中华人民共和国就业促进法》等有关文件精神,按照属地原则,切实将行政区域内中央管理企业的下岗失业人员纳入当地就业工作规划,统筹安排,落实各项促进就业政策。
通过对各个城市中的各项职业从事人数的分析,通过大样本的快速聚类法,经过四次聚类,一步一步地使得分类更合理化和人性化,使得我们对于这些本来无关的职业有了一个比较全面的了解,使得我们明白了一些职业是有其内在联系的,我们得到的结论是,第一类由采矿业,电力、燃气及水的生产和供应业组成的自然资源利用职业;第二类是由金融业和省份组成的经济类职业;第三类是由农林牧渔业和制造业组成的农林制造业;第四类是交通运输,仓储和邮政业和信息传输,计算机软件服务业,组成的交通信息运输职业;第五类是建造业。
结果还是挺切合实际的,如果想要更清楚地了解职业的情况,可以参考更多的城镇和职业类型。
【关键词】快速聚类;城市;职业
目录
各地区按行业分城镇单位就业人员数-1-
摘要-1-
1问题的提出-2-
2聚类分析原理概述-3-
2.1聚类分析的基本思想及意义-3-
2.2聚类分析的原理-3-
2.3快速聚类法-3-
2.4快速聚类法的步骤-3-
3指标符合说明-4-
4分析结果与分析-5-
4.1第一次聚类-5-
4.2第二次聚类-7-
4.3第三次聚类-8-
4.4第四次聚类-9-
5结果总析与数据预测-10-
6结语-10-
参考文献-10-
7成绩评定表-10-
1问题的提出
由于中央一直重视就业的问题,现对以下数据进行处理,得出他们之间的内在联系,把相近的可以进行合并。
地区
农、林、
牧、渔业
采矿业
制造业
电力、燃气及水的生产和供应业
北京
2.6
4.5
96.3
6.6
天津
0.7
7.0
72.7
3.6
河北
7.5
28.1
116.4
19.5
上海
1.2
0.1
143.0
5.5
江苏
12.2
13.6
307.4
12.7
福建
6.7
4.8
223.8
9.5
四川
7.1
23.2
123.9
15.4
西藏
0.5
0.1
0.8
0.8
宁夏
3.1
5.0
10.7
3.9
新疆
60.0
17.7
25.0
6.0
地区
建筑业
交通运输、仓储和邮政业
信息传输、计算机服务和软件业
金融业
北京
32.8
47.7
33.4
22.7
天津
10.8
12.5
2.5
6.2
河北
34.6
25.7
5.6
22.2
上海
11.1
34.0
5.6
20.7
江苏
38.4
32.0
7.3
25.0
福建
45.0
15.9
3.9
11.0
四川
93.8
23.2
5.2
17.9
西藏
0.8
0.8
0.4
0.8
宁夏
2.4
2.8
0.6
2.6
新疆
13.8
10.8
1.9
6.4
2聚类分析原理概述
2.1聚类分析的基本思想及意义
聚类分析的基本思想是在样品之间定义距离,在变量之间定义相似系数,距离或相似系数代表样品或变量之间的相似程度。
按相似程度的大小,将样品(或变量)逐一归类,关系密切的类聚集到一个小的分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚集完毕,形成一个表示亲疏关系的谱系图,依次按照某些要求对样品(或变量)进行分类。
聚类分析一般寻求客观的分类方法。
在进行聚类之前,对总体到底有几类类型并不知道(究竟分几类较为合适需从计算中探索调整)。
判别分析则是在总体类型划分已知,在各总体分布或来自总体训练样本基础上,对当前的新样本判定它们属于哪个总体。
联系:
例如当我们对研究的多元数据的特征不熟悉,就要先进行聚类分析,才能考虑判别分析问题。
2.2快速聚类法
在谱系聚类法中,因为样品一旦被归到某个类后就不变了,所以要求分类方法比较准确。
而样品容量较大时,谱系聚类法的计算量过大。
因此,为了弥补谱系聚类法的不足,产生了快速聚类法,又称动态聚类法。
快速聚类法先将样品粗糙地分一下类,然后再按照某种原则进行修正,直至分类比较合理为止。
2.3快速聚类法的步骤
选择聚点
聚点(种子)是一批有代表性的样品,它的选择决定了初始分类,对最终分类有较大影响。
在进行快速聚类法前,要根据研究问题的要求及了解程度先定下分类数k,这样就可以在每一类中选择一个有代表性的样品作为聚点(初始聚点)。
选择聚点有下列方法:
1)经验选择。
如果对研究对象比较了解,根据以往的经验定下k个样品作为聚点。
2)将n个样品人为地(或随机地)分成k类,以每类的重心作为聚点。
3)最小最大原则。
设要将n个样品分成k类,先选择所有样品中距离最远的两个样品为前两个聚点,即选择
和
,然后,选择第3个聚点
,使得
与前两个聚点的距离
最小者等于所有其余的与
和
的较小距离中最大的,用公式表示为
3指标符合说明
——农、林、牧、渔业
——采矿业
——制造业
——电力、燃气及水的生产和供应业
——建筑业
——交通运输、仓储和邮政业
——信息传输、计算机服务和软件业
——金融业
——省份
4分析结果与分析
4.1第一次聚类
默认统计量,各个变量的均值和方差。
分析:
相关矩阵是产生VARCLUS聚类的比不可少的第一步,从上图中可以看出,农林牧渔业与地区的相关系数是-0.4135,呈现较弱的负相关,而金融业与地区的相关系数是-0.9335,呈现较强的负相关,表明编码越是往后的省份(比如新疆),金融业的就业人数越少;编码越是往后的省份(比如北京),金融业的就业人数越多。
各个变量的特征值,上下特征值,方差比例和累计方差比例。
分析:
上图的上半部分的统计量表明:
当聚类为两大类时,第一个大聚类中有5个变量,它们分别是
;从中可以概括成自然能源职业。
第2大聚类中有4个变量,它们分别是
(省份),从中可以概括为科技经济类职业。
从下部分可以看出,交通运输,仓储和邮政业的
它对于第二大聚类的影响非常大,而对于第一大聚类则毫无影响。
分析:
从上图中可以看出,只有电力、燃气及水的生产和供应业的因子载荷量相对较大为0.916545,同理农林牧渔业和采矿业是组成第2大聚类的核心变量。
再从相关矩阵来看,这两大聚类的相关系数只有0.37843,不是太低,相对理想。
4.2第二次聚类
分析:
上图的上半部分的统计量表明:
当聚类为三大类时,第一个大聚类中有3个变量,它们分别是
;从中可以概括成能源建筑职业。
第2大聚类中有4个变量,它们分别是
(省份),从中可以概括为科技经济类职业。
第3大聚类有2个变量,它们分别是
,从中可以概括为农林制造职业,从下部分可以看出,交通运输,仓储和邮政业的
它对于第二大聚类的影响非常大,而对于第一大聚类则毫无影响;而农林牧渔业和制造业的
它们对第三大聚类影响较大,但对于其他两大类毫无影响。
分析:
从上图中可以看出,只有电力、燃气及水的生产和供应业和采矿业的因子载荷量相对较大,均大于0.95,是组成第一大聚类的核心变量。
再从相关矩阵来看,这两大聚类的相关系数只有0.31075和0.46233,不是太低,相对理想。
4.3第三次聚类
分析:
上图的上半部分的统计量表明:
当聚类为四大类时,第一个大聚类中有3个变量,它们分别是
;从中可以概括成能源建筑职业。
第2大聚类中有2个变量,它们分别是
(省份),从中可以概括为经济类职业。
第3大聚类有2个变量,它们分别是
,从中可以概括为农林制造职业,第四大聚类有2个变量,它们分别是
,从中可以概括为交通信息运输职业,从下部分可以看出,各个聚类中的变量的
都相当大了,均达到0.92以上,它们对于自身聚类影响较大,但对于其他聚类毫无影响。
分析:
再从相关矩阵来看,这两大聚类的相关系数只有0.61312和0.46233和-0.09113,不是太低,但是各个聚类的相关程度却非常大。
4.4第四次聚类
分析:
上图的上半部分的统计量表明:
当聚类为五大类时,第一个大聚类中有2个变量,它们分别是
;从中可以概括成自然能源职业。
第2大聚类中有2个变量,它们分别是
(省份),从中可以概括为经济类职业。
第3大聚类有2个变量,它们分别是
,从中可以概括为农林制造职业,第四大聚类有2个变量,它们分别是
,从中可以概括为交通信息运输职业,从下部分可以看出,第五大聚类有1个变量是
,各个聚类中的变量的
都相当大了,均达到0.92以上,它们对于自身聚类影响较大,但对于其他聚类毫无影响。
5结果总析与数据预测
通过分析我们知道了,最细的分割是1采矿业,电力、燃气及水的生产和供应业,其实这是不难理解的,首先电力燃气都是以自然资源作为基础的,所以它势必要和采矿业结合在一起。
2是金融业和省份,其实这是不难理解的,一般来说大城市的经济都比较发达,如北京、上海、天津,而相对落后的地区,从事金融行业的人就少。
农林牧渔业和制造业聚成一类也是理所应当,首先他们都是比较适合层次比较低的人,因而广大人民群众还是会比较从事这方面的职业的。
第4大类是交通运输,仓储和邮政业和信息传输,计算机软件服务业,信息离不开交通,所以他们同属于实在和虚有的运输业。
建造业单独成为一类是因为他是构建社会的主要主力,是生活必需品。
今后我们在统计一些职业的人数时,可以预先给他们分好类,这样比较容易揭露本质,比如那些经济类和科技类的人本来就少,应该单独考虑,而不应该与农业和制造业的人杂在一起考虑。
6结语
本次分析对数据进行VARCLUS分析,可以输出给SCORE过程计算每个聚类成员的得分,通过四次聚类使得分割越来越细,而且也更精确,层次清晰,非常合理。
参考文献
应用多元统计
聚类分析课件
附件
程序:
datavarc;
inputv1v2v3v4v5v6v7v8v;
lablev1='农林牧渔业'v2='采矿业'v3='制造业'v4='电力、燃气及水的生产和供应业'v5='建筑业'v6='交通运输、仓储和邮政业'v7='信息传输、计算机服务和软件业'v8='金融业'v='省份';
cards;
2.64.596.36.632.847.733.422.7
0.7772.73.610.812.52.56.2
7.528.1116.419.534.625.75.622.2
1.20.11435.511.1345.620.7
12.213.6307.412.738.4327.325
6.74.8223.89.54515.93.911
7.123.2123.915.493.823.25.217.9
0.50.10.80.80.80.80.40.8
3.1510.73.92.42.80.62.6
6017.725613.810.81.96.4
;
procformat;
valuevf1='北京'2='天津'3='河北'4='上海'5='江苏'6='福建'7='四川'8='西藏'9='宁夏'10='新疆';
title'各地区按行业分城镇单位就业人员数';
procprincompoutstat=col;
procvarclusdata=colouttree=treelmaxclusters=5hi;
proctreedata=tree1;
run;
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 论文