聚类分析 美国人口分类.docx
- 文档编号:8934219
- 上传时间:2023-02-02
- 格式:DOCX
- 页数:9
- 大小:107.84KB
聚类分析 美国人口分类.docx
《聚类分析 美国人口分类.docx》由会员分享,可在线阅读,更多相关《聚类分析 美国人口分类.docx(9页珍藏版)》请在冰豆网上搜索。
聚类分析美国人口分类
2013数学建模课程设计论文
学院数学与信息科学学院
专业数学与应用数学
姓名杨培亮
学号201115414
美国人口问题研究报告
摘要
人口资源是最具战略性的资源,人口管理现代化,对于每个国家各项事业的发展至关重要。
要把握美国的人口问题,必须掌握人口分布状况。
材料3分别出了2010年美国老年人口在各地区和各年龄段的分布情况。
材料4分别给出了2010年美国各个州常住人口在各年龄段的分布情况。
通过对各个州或地区的人口占总人口的比例、老年比例、少儿人口比例等数据进行聚类分析,选择了相应指标对美国各州的人口发展水平进行了综合评价。
进而对美国不同地区人口发展的现状水平及各自特点制定相应的方案。
关键字人口分布聚类分析综合评价
1问题的重述
人口资源是最具战略性的资源,人口管理现代化,对于每个国家各项事业的发展至关重要。
一个人从出生到婴幼儿、青少年、中年、老年直至死亡是一个生命过程,它是不可逆转的单向过程。
一个国家的人口可以因为老年人口增加快于青少年人口,使得人口结构从较年轻的状态变化到较年老的状态,形成人口老龄化;而由于青少年人口增加快于老年人口,则会形成人口年轻化。
而人口问题是全世界都日益关注的问题。
本文以美国区域人口发展状况为例,对美国的人口发展水平做出综合评价,以期能对人口的发展现状有大概了解,并对后续研究起到抛砖引玉的作用。
2问题的分析
在数据挖掘领域中,聚类分析是一项重要的研究工具,把聚类分析应用到人口的研究中,对人口的管理和控制有很大的作用。
目前,人们提出了很多种聚类算法。
对于材料3中老年人分别在各个年龄段和各个种族的分布数据,材料4美国各个州常住人口在各年龄段的分布的数据,非常符合k-means算法的优点和条件,采用k-means算法能达到很好的效果。
3模型假设
1)假设材料中数据来源真实可靠。
2)不考虑计算机计算精度计算所引起的误差。
4符号说明
_______________________
_符号______________含义____
T每一组数据的类别
H每种类别包含的组数
cid每一组数据的类别
_nr___________每种数据包含的组数
5模型的建立与求解
5.1数据预处理
通过分析材料3材料4所给的PDF文件,将其中的表格转换成EXCEL形式(见附录)。
5.2材料3
材料3中给出了2010年美国老年人口在各地区和各年龄段的分布情况,我们可以分两部分建模。
5.2.1模型一
美国的四个地区(Northeast、Midwest、South、West)的数据量较少,可以采用层次聚类的方法。
1)一次聚类:
A=xlsread('1.xlsx','B4:
E7');
T=clusterdata(A,2);
得到T的值分别为2221
2)分步聚类:
Step1:
寻找变量之间的相似性
A1=zscore(A);A2=pdist(A1);
Step2:
定义变量之间的连接
A3=linkage(A2);
Step3:
评价聚类信息
A4=cophenet(A3,A2);
Step4:
创建聚类,并做出谱系图
T=cluster(A3,2);H=dendrogram(A3);
5.2.2模型二
美国的52个州或地区,数据量较大,采用k-means算法建模比
好(k-means源代码见附录)。
1)当聚合成3类结果为(源代码见附录):
cid=
Columns1through52
1211221123232113112321111111211111111131111221231123
nr=33136
分类效果图为:
2)当聚合成4类结果为(源代码见附录):
cid=
Columns1through52
3433112312421132331213313323133333233322323443132313
nr=1201318
分类效果图为:
5.3材料4
材料4给出了美国52个州或地区的人口在不同年龄段(共10个年龄段)的分布,数据量较大,宜采用k-means算法建立模型。
1)当聚合成3类结果为(源代码见附录):
cid=
Columns1through52
2111131111311111111111111111111113111111111131111111
nr=4714
分类效果图为:
2)当聚合成4类结果为(源代码见附录):
cid=
Columns1through52
3112141111421122111112222121111214212112111241122121
nr=301714
分类效果图为:
6模型评价和改进
6.1模型优缺点
6.1.1模型的优点
1)采用的数学模型有成熟的理论基础,可信度较高。
2)建立的数学模型都有相应的专用软件支持,算法简介,编程实现简单,推广容易。
3)利用数学工具,通过MATLAB、EXCEL等软件的利用,严格的对模型求解,具有科学性。
4)建立的模型与实际紧密相连,充分考虑现实情况的多样性,从而使模型更贴近实际,通用性、推广性较强。
6.1.2模型的缺点
1)算法上,需要套用大量的表格,不易用数学软件进行直接求解,使计算步骤相对比较繁琐。
2)层次聚类的方法不适合数据量较大的聚类。
3)在K-means算法中K是事先给定的,这个K值的选定是非常难以估计的。
4)在K-means算法中,首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化。
这个初始聚类中心的选择对聚类结果有较大的影响,一旦初始值选择的不好,可能无法得到有效的聚类结果,这也成为K-means算法的一个主要问题。
5)K-means算法框架可以看出,该算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量非常大时,算法的时间开销是非常大的。
6.2模型改进
1)在进行K-means算法计算时,可以采用遗传算法(GA),例如文献中采用遗传算法(GA)进行初始化,以内部聚类准则作为评价指标。
2)在进行聚类分析时需要对所采用算法的时间复杂度进行分析、改进,提高算法应用范围。
在文献中从该算法的时间复杂度进行分析考虑,通过一定的相似性准则来去掉聚类中心的侯选集。
而在文献中,使用的K-means算法是对样本数据进行聚类,无论是初始点的选择还是一次迭代完成时对数据的调整,都是建立在随机选取的样本数据的基础之上,这样可以提高算法的收敛速度。
7参考文献
[1]姜启源,谢金星,数学模型(第三版)[M],北京:
高等教育出版社,2003。
[2]卓金武,MATLAB在数学建模中的应用[M],北京:
北京航空航天大学出版社,2011。
[3]韩中庚,数学建模方法及其应用[M],北京:
高等教育出版社,2005。
[4]谢中华,MATLAB统计分析与应用:
40个案例分析[M],北京:
北京航空航天大学出版社,2011。
[5]丁刚,甘肃省各市州人口环境的发展水平的综合评价与聚类分析[J],河西学院学报,2008第24卷第6期。
[6]叶水仙,刘慧青,林国剧,基于聚类分析方法的人口区划研究[J],科协论坛,2013年第5期(下)。
[7]周忠学,聚类分析在人口状况研究中的应用[J],社科纵横,2005年2月总第20卷第1期。
[8]宋丽红,K-均值聚类的Matlab仿真设计[J],实验技术与管理,2010年10月第27卷第10期。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 聚类分析 美国人口分类 美国 人口 分类
![提示](https://static.bdocx.com/images/bang_tan.gif)