书签分享收藏举报版权申诉 / 9

立即下载加入VIP,免费下载

当前位置：首页 > 高等教育 > 农学 > 聚类分析美国人口分类.docx

聚类分析美国人口分类.docx

文档编号：8934219
上传时间：2023-02-02
格式：DOCX
页数：9
大小：107.84KB

聚类分析美国人口分类.docx

《聚类分析美国人口分类.docx》由会员分享，可在线阅读，更多相关《聚类分析美国人口分类.docx（9页珍藏版）》请在冰豆网上搜索。

聚类分析美国人口分类.docx

聚类分析美国人口分类

2013数学建模课程设计论文

学院数学与信息科学学院

专业数学与应用数学

姓名杨培亮

学号201115414

美国人口问题研究报告

摘要

人口资源是最具战略性的资源，人口管理现代化，对于每个国家各项事业的发展至关重要。

要把握美国的人口问题，必须掌握人口分布状况。

材料3分别出了2010年美国老年人口在各地区和各年龄段的分布情况。

材料4分别给出了2010年美国各个州常住人口在各年龄段的分布情况。

通过对各个州或地区的人口占总人口的比例、老年比例、少儿人口比例等数据进行聚类分析，选择了相应指标对美国各州的人口发展水平进行了综合评价。

进而对美国不同地区人口发展的现状水平及各自特点制定相应的方案。

关键字人口分布聚类分析综合评价

1问题的重述

人口资源是最具战略性的资源，人口管理现代化，对于每个国家各项事业的发展至关重要。

一个人从出生到婴幼儿、青少年、中年、老年直至死亡是一个生命过程，它是不可逆转的单向过程。

一个国家的人口可以因为老年人口增加快于青少年人口，使得人口结构从较年轻的状态变化到较年老的状态，形成人口老龄化；而由于青少年人口增加快于老年人口,则会形成人口年轻化。

而人口问题是全世界都日益关注的问题。

本文以美国区域人口发展状况为例，对美国的人口发展水平做出综合评价，以期能对人口的发展现状有大概了解，并对后续研究起到抛砖引玉的作用。

2问题的分析

在数据挖掘领域中，聚类分析是一项重要的研究工具，把聚类分析应用到人口的研究中，对人口的管理和控制有很大的作用。

目前，人们提出了很多种聚类算法。

对于材料3中老年人分别在各个年龄段和各个种族的分布数据，材料4美国各个州常住人口在各年龄段的分布的数据，非常符合k-means算法的优点和条件，采用k-means算法能达到很好的效果。

3模型假设

1）假设材料中数据来源真实可靠。

2）不考虑计算机计算精度计算所引起的误差。

4符号说明

＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿

＿符号＿＿＿＿＿＿＿＿＿＿＿＿＿＿含义＿＿＿＿

T每一组数据的类别

H每种类别包含的组数

cid每一组数据的类别

＿nr＿＿＿＿＿＿＿＿＿＿＿每种数据包含的组数

5模型的建立与求解

5.1数据预处理

通过分析材料3材料4所给的PDF文件，将其中的表格转换成EXCEL形式（见附录）。

5.2材料3

材料3中给出了2010年美国老年人口在各地区和各年龄段的分布情况，我们可以分两部分建模。

5.2.1模型一

美国的四个地区（Northeast、Midwest、South、West）的数据量较少，可以采用层次聚类的方法。

1）一次聚类：

A=xlsread（'1.xlsx','B4:

E7'）;

T=clusterdata（A,2）；

得到T的值分别为2221

2）分步聚类：

Step1:

寻找变量之间的相似性

A1=zscore（A）;A2=pdist（A1）;

Step2:

定义变量之间的连接

A3=linkage（A2）;

Step3:

评价聚类信息

A4=cophenet（A3,A2）;

Step4:

创建聚类，并做出谱系图

T=cluster（A3,2）;H=dendrogram（A3）;

5.2.2模型二

美国的52个州或地区，数据量较大，采用k-means算法建模比

好（k-means源代码见附录）。

1）当聚合成3类结果为（源代码见附录）：

cid=

Columns1through52

1211221123232113112321111111211111111131111221231123

nr=33136

分类效果图为：

2）当聚合成4类结果为（源代码见附录）：

cid=

Columns1through52

3433112312421132331213313323133333233322323443132313

nr=1201318

分类效果图为：

5.3材料4

材料4给出了美国52个州或地区的人口在不同年龄段（共10个年龄段）的分布，数据量较大，宜采用k-means算法建立模型。

1）当聚合成3类结果为（源代码见附录）：

cid=

Columns1through52

2111131111311111111111111111111113111111111131111111

nr=4714

分类效果图为：

2）当聚合成4类结果为（源代码见附录）：

cid=

Columns1through52

3112141111421122111112222121111214212112111241122121

nr=301714

分类效果图为：

6模型评价和改进

6.1模型优缺点

6.1.1模型的优点

1）采用的数学模型有成熟的理论基础，可信度较高。

2）建立的数学模型都有相应的专用软件支持，算法简介，编程实现简单，推广容易。

3）利用数学工具，通过MATLAB、EXCEL等软件的利用，严格的对模型求解，具有科学性。

4）建立的模型与实际紧密相连，充分考虑现实情况的多样性，从而使模型更贴近实际，通用性、推广性较强。

6.1.2模型的缺点

1）算法上，需要套用大量的表格，不易用数学软件进行直接求解，使计算步骤相对比较繁琐。

2）层次聚类的方法不适合数据量较大的聚类。

3）在K-means算法中K是事先给定的，这个K值的选定是非常难以估计的。

4）在K-means算法中，首先需要根据初始聚类中心来确定一个初始划分，然后对初始划分进行优化。

这个初始聚类中心的选择对聚类结果有较大的影响，一旦初始值选择的不好，可能无法得到有效的聚类结果，这也成为K-means算法的一个主要问题。

5）K-means算法框架可以看出，该算法需要不断地进行样本分类调整，不断地计算调整后的新的聚类中心，因此当数据量非常大时，算法的时间开销是非常大的。

6.2模型改进

1）在进行K-means算法计算时，可以采用遗传算法（GA），例如文献中采用遗传算法（GA）进行初始化，以内部聚类准则作为评价指标。

2）在进行聚类分析时需要对所采用算法的时间复杂度进行分析、改进，提高算法应用范围。

在文献中从该算法的时间复杂度进行分析考虑，通过一定的相似性准则来去掉聚类中心的侯选集。

而在文献中，使用的K-means算法是对样本数据进行聚类，无论是初始点的选择还是一次迭代完成时对数据的调整，都是建立在随机选取的样本数据的基础之上，这样可以提高算法的收敛速度。

7参考文献

[1]姜启源，谢金星，数学模型（第三版）[M]，北京：

高等教育出版社，2003。

[2]卓金武，MATLAB在数学建模中的应用[M]，北京：

北京航空航天大学出版社，2011。

[3]韩中庚,数学建模方法及其应用[M],北京:

高等教育出版社，2005。

[4]谢中华,MATLAB统计分析与应用：

40个案例分析[M]，北京:

北京航空航天大学出版社，2011。

[5]丁刚，甘肃省各市州人口环境的发展水平的综合评价与聚类分析[J],河西学院学报，2008第24卷第6期。

[6]叶水仙,刘慧青,林国剧,基于聚类分析方法的人口区划研究[J]，科协论坛，2013年第5期（下）。

[7]周忠学，聚类分析在人口状况研究中的应用[J]，社科纵横，2005年2月总第20卷第1期。

[8]宋丽红，K-均值聚类的Matlab仿真设计[J],实验技术与管理，2010年10月第27卷第10期。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 聚类分析美国人口分类美国人口分类

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：聚类分析美国人口分类.docx
链接地址：https://www.bdocx.com/doc/8934219.html

聚类分析 美国人口分类.docx

热门标签

聚类分析美国人口分类.docx