人口增长模型.docx
- 文档编号:11114958
- 上传时间:2023-02-25
- 格式:DOCX
- 页数:18
- 大小:26.49KB
人口增长模型.docx
《人口增长模型.docx》由会员分享,可在线阅读,更多相关《人口增长模型.docx(18页珍藏版)》请在冰豆网上搜索。
人口增长模型
中国人口增长预测
2009-03-0907:
55:
36| 分类:
数学建模|字号 订阅
注:
在格式转化过程中部分数据丢失,如需帮助请QQ408322103,本文由时宝雯、汪铁龙、田艳三人在司书红老师的指导下创作,获2007年“高教杯”省特等奖。
摘要
中国是一个人口大国,人口问题始终是制约我国发展的关键因素之一,虽然我国已进入低生育率国家行列,但由于人口基数庞大,人口净增长水平仍然居高不下。
近年来中国的人口发展出现了一些新的特点,例如老龄化进程加速,新生儿性别比持续攀高,农村人口城镇化等,这些都影响着中国人口质量的提高与可持续发展战略的实现。
因此,科学准确地预测未来我国人口的发展具有现实意义。
本文从我国实际情况和人口增长新特点出发,分析并参考了相关数据资料,建立了我国人口增长预测的数学模型——基于灰色理论的人口中短期预测模型和人口长期预测的Leslie矩阵模型。
模型一中,除了采用常规GM(1,1)模型和新陈代谢模型预测外,结合2005—2020年人口增长的新特点,通过引进强化算子,自定义了QGM模型,使得预测结果更符合实际。
利用该模型,我们预测出了2010年、2020年人口总量分别约为13.5亿、14.3亿。
模型二中,从考虑女性年净增人口数出发,建立Leslie预测模型,并引入了女婴比,改进Leslie预测模型;预测出女性年净增长人数趋势,并结合市、镇、乡男女比例,得到人口总量年净增长预测值(2005—2050年)。
再根据2004年人口基数,还原出各年人口总量值,并绘出人口发展趋势曲线图,可以看出中国人口在2022年左右进入缓慢增长期,到2034年达到峰值约为14.97亿,之后人口总量呈缓慢下降趋势。
在问题的进一步研究中,在Leslie矩阵基础上给出了预测人口总量的另一种方法,并初步探索了基于宋健人口预测模型和基于BP神经网络的人口预测模型。
同时我们还进行了结果讨论和模型的稳定性分析,并给出了模型的优缺点。
关键词:
人口预测,灰色理论,GM(1,1)模型,QGM模型,强化算子,Leslie矩阵
1问题的提出
中国是世界上第一人口大国,到2004年底总人口为12.9988亿,占世界人口的1/5;2005年1月5日,我国人口达到13亿,人口问题一直是制约我国社会和经济发展的关键因素之一。
我国的现代化进程,必须实现人口与经济、社会、资源、环境协调发展和可持续发展,进一步控制人口数量,提高人口质量,改善人口结构,引导人口分布,稳定低生育水平,这是当前全面建设小康社会最迫切、最重要的基本工作任务。
因此科学准确地预测未来我国人口的发展,对中国经济和社会发展战略决策有着极为重要的现实意义。
近年来中国人口发展又出现了一些新的特点,例如老龄化进程加速、出生人口性别比持续升高以及乡村人口城镇化等等,这些都影响着中国人口的增长。
试从中国的实际情况和人口增长的上述特点出发,参考相关数据资料,建立中国人口增长的数学模型,并由此对中国人口增长的中短期和长期趋势作出预测。
2问题的分析
该题是关于中国人口增长预测的建模问题,人口预测模型比较多,我们通过搜索网上资源及查阅文献[1]、[2],初步总结出一些人口预测方法。
常用人口预测方法有自回归法、幂函数法、多元回归模型法、时间序列法(如ARMA、ARIMA)、灰色系统GM(1,1)法、神经网络法等。
自回归法、幂函数法都要求人口数据具有明显的规律性,只对于特定地区(或特定时期)的人口状况才适用。
多元回归模型涉及较多影响因素,而如何对这些因素进行定量是研究的难点。
灰色系统法、时间序列法和神经网络法适用于不同类型的人口数据,但后两种需要大量而全面的历史数据,相对操作也比较复杂。
加上查找到正确且全面的历史人口方面的相关数据是很困难的。
因此本文的预测(中短期预测)主要采用基于灰色系统理论的模型。
根据灰色系统基本原理【3】,我们建立基于灰色理论的人口中短期预测模型,建模中可以利用常规的及改进的GM(1,1)模型,还可以结合问题的实际对现有灰色GM(1,1)模型进行改进,自定义合适的灰色模型。
关于人口的长期预测,我们追求的是预测远期的稳定性及总体发展趋势,可以采用按年龄分组的种群增长预测模式,用Leslie矩阵模型求解。
Leslie矩阵模型是用来描述女性人口变化规律的。
故可先预测女性人口增长,然后根据男女性别比求出总人口的增长。
还可以尝试对现有模型的改进或用其他一些最新发展模型来建模。
3模型的假设
(1)中短期的预测年限为2007-2020年,长期预测年限为2010-2050年。
(2)预测期内不发生自然灾害等严重影响人口数量的事件。
(3)未来几十年内中国城市、镇、乡的人口性别比按各自现有性别比基本保持不变。
(4)预测期内的平均总和生育率为1.8。
(5)死亡率分布函数只与年龄有关,而不考虑疾病、瘟疫等导致的死亡。
(6)人口迁出率等于人口迁入率,且男女迁移人数相同,或者更进一步假设为无人口迁移。
(7)国家统计局公布的中国人口的统计数据真实、可靠。
4概念引进和符号说明
4.1概念引进
(1)人口:
生活在一定社会生产方式、一定时间、一定地域,实现其生命活动并构成社会生活主体,具有一定数量和质量的人所组成的社会群体。
(2)出生率:
指某年每1000人对应的活产数,它反映了人口的出生水平,一般以千分数表示。
(3)生育率:
某年每1000名15-49岁妇女的活产婴儿数。
该指标比出生率要精确一些,因为它将生育同可能生育的特定性别年龄的人口联系起来(通常是15-49岁的妇女),排除了年龄性别结构不同引起的偏差。
生育率比出生率更能揭示生育水平的变化。
(4)总和生育率:
指假设妇女按照某一年的年龄别生育率度过生育期,平均每个妇女在育龄期生育的孩子数。
(5)死亡率:
一定时期内(通常为一年)死亡人数与同期平均人数之比。
说明该时期人口的死亡强度,通常用千分比表示。
(6)人口增长率:
一定时期内人口增长数与人口总数之比,通常以一年为期计算,用百分数表示。
(7)性别比:
指某一人口中男性对女性的比例,通常以每100个女性对应的男性数表示,本文中用男性比率与女性比率的比值来表示。
4.2符号说明
:
第年总人口(开始年份对应于)
:
第+1年预测总人口
:
原始序列强化算子
:
地区性别比(分别对应城市、镇、乡)
:
:
:
岁女(男)性的存活率
:
女婴比
:
Leslie矩阵
5模型的建立及求解
5.1数据预处理
5.1.1关于2001—2005年中国人口1%调查数据的处理
按提供的原始数据计算得到2001—2005年的人口总数分别约为12206万、12589万、12605万、12530万,169857万,而国家统计局公布数据【4】为:
127627万、128453万、129227万、129988万、130756万。
显然,偏差太大,即提供的数据不是中国人口1%调查数据。
我们作这样的处理:
认为提供数据(除2005年)为一些具有代表性的地区的统计平均值,且认为它们所反映出的比例关系是正确的;2005年的数据是完全错误的(太大),但我们忽略其数据本身值,而同样认为它们所反映出的比例关系是正确的。
以2005年城市男为例,提供数据(按1%计)为2005年城市男2357679,而计算出2005年总人口是16985767,国家统计局公布的2005年全国人口为130756万,我们认为2005年城市男真实人口为:
15465万
同理,我们得出2001-2005年各地区男女真实人口,见下表。
表12001-2005年各地区人口单位:
万人
年份
2001
2002
2003
2004
2005
城市男
15465
16803
16779
16678
18149
城市女
15420
16804
16843
16889
18092
城市总人口
30885
33607
33622
33567
36241
镇男
8394
8213
9961
10060
11276
镇女
8154
7904
9704
9901
11117
镇总人口
16548
16117
19665
19961
22393
乡男
41271
40566
39223
39360
36661
乡女
38923
38163
36717
37100
35461
乡总人口
80194
78729
75940
76460
72122
全国总人口
127627
128453
129227
129988
130756
5.1.2各地区性别比
利用提供的统计数据,计算出01-05年各地区男女比率及平均比率(见表2)。
表201-05年各地区男女比率及平均比率
年份
城市
镇
乡
男性比率
女性比率
男性比率
女性比率
男性比率
女性比率
2001
50.11
49.88
50.35
49.61
50.78
49.15
2002
49.66
50.28
50.39
49.61
51.51
48.48
2003
49.98
49.97
50.81
49.24
51.69
48.31
2004
50.33
49.66
50.95
49.06
51.6
48.42
2005
49.98
49.99
50.76
49.27
51.68
48.36
平均
50.012
49.956
50.652
49.358
51.452
48.544
得到各地区性别比为:
分别表示城市、镇、乡性别比。
根据假设3,我们认为未来几十年各地区性别比保持在。
5.2基于灰色理论的人口中短期预测模型
5.2.1灰色理论的基本原理及GM(1,1)模型【3】
在灰色系统理论的创立和发展过程中,邓聚龙教授发现并提炼出灰色系统的
基本原理:
1.差异信息原理:
“差异”是信息,凡信息必有差异;
2.解的非唯一性原理:
信息不完全、不确定的解是非唯一的;
3.最少信息原理:
灰色系统的特点是充分开发利用已占有的“最少信息”;
4.认知根据原理:
信息是认知的工具;
5.新信息优先原理:
新信息对认知的作用大于老信息;
6.灰性不灭原理:
“信息不完全”(灰)是绝对的。
GM(1,1)模型是灰色预测模型中的最基本的模型,它比多变量多阶预测模型或其他预测方法计算简单,预测精度较高,且兼有对样本数量和概率分布无严格要求的特点。
因而其预测效果好,适应性强,可广泛应用于人口、疾病等方面的预测,为政府决策部门提供超前服务。
5.2.2 GM(1,1)模型的一般步骤【3】
1.累加生成
设为原始序列
(1)
对进行一次累加生成,即1-AGO,得到生成序列
(2)
其中,。
2.建立模型
由构造背景值序列
(3)
其中。
一般取建立白化微分方程(影子方程)为
(4)
称为GM(1,1)模型的原始形式。
将式(4)离散化,微分变差分,得到GM(1,1)灰微分方程如下:
(5)
称为GM(1,1)模型的基本形式。
其中为待定系数,分别称为发展系数和灰色作用量,的有效区间是(-2,2)。
3.求解参数
应用最小二乘法,可经下式求得:
(6)
其中
实际灰色模型中,系统的原始序列数据不一定全部用来建模,不同维数(长度)序列建模,所得参数的值是不一样的,因而模型的预测效果也不同,它们构成一个预测灰度区间。
发展系数反映系统发展态势,根据灰色理论,当为负值时,其绝对值越大,系统发展就越快;反之则越慢。
灰色作用量是从内涵外延化的具体体现,它的存在是区别灰色建模与一般输入输出建模(黑箱建模)的分水岭,也是区别灰色系统观点与灰箱观点的重要标志。
4.建立预测公式
(7)
5.2.3 新陈代谢GM(1,1)模型【5】
根据生物新陈代谢原理,在原始数据序列中,置入新信息(数据),
同时去掉最老信息,用新序列为最新的原始序列,建立常规GM(1,1)模型,如此反复,依次递补,直到完成预测目标,即为灰色新陈代谢模型。
5.2.4 强化的GM(1,1)模型(QGM模型)
受第三次出生人口高峰期(1985-1991年)的影响,2005-2020年,20-29岁生育旺盛的妇女数量将形成一个小高峰期,导致出生人口数量增长将出现一个小高峰期。
因此原始的GM(1,1)模型可能对这一特殊时期预测的精度不够。
我们加入对原始序列进行强化,使序列增长速度加快。
原始序列强化的基本思想:
综合考虑影响因素的大小,对原始序列加入一个强化算子,从而使得整个预测序列值变化加快。
我们称该模型为强化的GM(1,1)模型,简称QGM模型。
对原始序列加入强化算子的最简单形式是
(8)
文献[5]中的序列算子作用与强化算子相同,其定义为
(9)
该模型的预测公式形式与常规GM(1,1)模型相同,即
QGM模型的MATLAB程序见附录一,通过程序运行,我们发现的不同取值对预测结果影响较大,所以采用计算机对值优化。
得出最优值为1‰
5.2.5灰色模型的精度检验
为确保灰色模型有较高的精度,一般用后验差方法对模型进行精度检验。
1.求出之残差、相对误差和平均相对误差:
(10)
2.求出原始数据平均值,残差平均值:
(11)
3.求出原始数据方差与残差方差的均方差比值和小误差概率:
(12)
通常、、值越小,值越大,则模型精度越好。
常用均方差比值和小误差概率共同评定模型等级。
模型精度等级=,分级标准见下表。
表3模型精度等级表
模型精度等级
一级(好)
二级(合格)
三级(勉强)
四级(不合格)
5.2.6 基于灰色理论的人口中短期预测模型求解
根据经验,短维序列建立的GM(1,1)模型预测精度要高于长维序列,因此
我们用短维(6维)序列(原始序列为国家统计局公布的2000-2005年总人口)建立GM(1,1)模型来预测。
我们编写了求解预测公式及模型精度检验的MATLAB程序,见附录一。
运行程序,得到下列结论:
常规GM(1,1)模型的预测公式:
(13)
QGM模型的预测公式:
(14)
表4GM(1,1)模型的检验
年份
实际值
拟合值
相对误差(‰)
模型等级
2000
126743
126743
0
0.014128
1
一级
2001
127627
127656
0.23
2002
128453
128428
0.19
2003
129227
129205
0.17
2004
129988
129987
0.01
2005
130756
130773
0.13
表5QGM模型的检验
年份
实际值
拟合值
相对误差(‰)
模型等级
2000
126743
126857
0.9
0.014137
1
一级
2001
127627
127771
1.13
2002
128453
128544
0.71
2003
129227
129321
0.73
2004
129988
130104
0.89
2005
130756
130891
1.03
从表4和表5中可以看出,运用常规GM(1,1)模型和我们自定义的QGM模型,其模型等级都为一等,且精度非常高。
故所建立的基于灰色理论的人口中短期预测模型是很可靠的。
比较两表,可以看出常规GM(1,1)模型的精度比QGM模型的精度要高,主要原因是我们在QGM模型中加入了强化原始序列算子。
QGM模型尽管拟合精度稍低,但它更符合问题实际(前面已分析出2006-2020人口增长将有所加快),因此它的预测值将更可靠。
我们分别得出了三种灰色模型对于2006-2020中国人口的预测值,见表6,其图形如图1。
表6基于灰色模型的人口中短期预测值
年份
GM(1,1)预测
新陈代谢GM(1,1)预测
QGM预测
2006
131564
131564
131695
2007
132360
132339
132492
2008
133160
133130
133293
2009
133966
133931
134099
2010
134776
134735
134910
2011
135591
135536
135726
2012
136412
136350
136547
2013
137237
137166
137373
2014
138067
137985
138204
2015
138902
138810
139040
2016
139742
139641
139881
2017
140587
140475
140727
2018
141438
141315
141579
2019
142293
142160
142435
2020
143154
143010
143297
图1基于灰色模型的人口中短期预测曲线
从表6和图1可以看出,2010年、2020年人口总量分别约为13.5亿,14.3亿,这与《国家人口发展战略研究报告》中公布的战略目标(到2010年、2020年,人口总量分别控制在13.6亿、14.5亿)基本吻合,也说明我们的预测模型精度是相当高的。
5.3人口长期预测的Leslie矩阵模型【1】
灰色理论模型在预测中短期人口数据规模时行之有效,但在预测长期人口中有着明显的不足,主要原因是没考虑到年龄结构的分布且不同年龄的男女生育率和死亡率有明显的不同。
我们下面讨论按年龄分组的种群增长模型。
5.3.1模型理论
下面建立差分方程模型,然后针对城市女、镇女、乡女,讨论稳定状况下人群的增长规律。
根据题意,将种群按年龄大小分成90个年龄组,时间也离散为时段,与年龄的离散化相对应,且时段的间隔与年龄区间大小相等。
人群是通过女性的个体生育而增长的,所以用女性个体数量的变化为研究的对象比较方便;在以下的方法中,我们只研究女性引起的人群数量变化(男性的研究中只需要将矩阵中生育率改为0即可)。
记第年第年龄组的种群数量为,。
第岁的女性生育率为,即第岁女性在当年生育率人数占第岁女性人数的比率,第岁的死亡率为,称为存活率,和已由题目给出。
的变化规律由以下的事实得到。
第年1岁人群数量是上年(第年)岁女性生育数量之和,即
(15)
第+1年第年龄组的女性数量是第年第岁的女性存活下来的数量,即
(16)
记第年人群按年龄组的分布向量为
(17)
由生育率和存活率构成的矩阵
(18)
则式(15)和式(16)可表示为
(19)
当矩阵和按年龄组的初值分布向量已知时,可以预测未来任意一年的人口按年龄的分布,为
(20)
有了就不难算出第年女性的总数。
下面以2001年为第0年来算2002-2030
年的女性人口数量,其中=,可取为0.485,为了方便计算,我们近似取为0.5。
以1岁为一个年龄组,1年为一个时段,即年岁的女性人数为。
设生育率与年龄和时间有关,记年岁女性生育率(每位女性平均生育的女儿数)为,育龄区间为[]。
设死亡率只与年龄有关,记年岁女性死亡率为,存活率为。
进一步将分解为
其中为生育模式,而是年所有育龄女性平均生育的女儿数,满足
若女性在育龄期间所及的时间内保持生育率不变,则就是年岁的每位女性一生平均生育的女儿数,即总和生育率(或生育胎次),是控制人口数量的主要参数。
仍用表示女性人口的(按年龄)分布向量,如式(17),为了清楚地表明的作用,将式(18)的矩阵作如下分解。
记
,
则模型式(19)应表示为
(21)
5.3.2模型建立
如果单纯的用人口数代入Leslie矩阵模型,则预测曲线不是呈递增状态就是呈递减状态,这样预测出的人口发展趋势与中国现行实际不符合。
故我们不直接用人口数,而是用人口年净增长数。
处理后的模型预测出的不是人口总量值,而是年净增长数。
最后利用已知某年的基数,还原出人口数即可。
5.3.3模型的改进
用表示女性人口按年龄的分布向量:
为第年岁的妇女存活到下一年(年,年龄岁)的人数;参照宋健的人口模型[6],我们认为为新生代,应将其转化为新生女婴,于是我们引入了新生女婴比。
(按照统计规律即生物学规律,为了简化计算我们取)
在Leslie人口模型
中,为年岁的每位女性一生平均生育的儿女数,即总和生育率(或生育胎次),是控制人口数量的主要参数。
要想维持现有人口结构不变,应取为2.1,要想维持现有人口不变,应取为1.8。
则
即为改进后的莱斯利方程,很适合预测现行计划生育国策下的人口增长趋势。
在改进后的Leslie模型中
根据统计资料得知人口的初始分布和存活率矩阵,并给定了生育模式矩阵,就可用不同的总和生育率来预测或控制未来人口数量,此方程为一差分方程,但与我们采用的是2001年的数据,将2001-2005年数据作平均,我们发现2001年的与与它们平均下来的与仍略有出入,的不同决定了特征值的不同,当唯一正特征根>1时,种群递增,<1时种群递减,但当充分大时,种群按年龄组的分布趋向稳定,它与初始分布无关,可以说这种预测方法是长期稳定的。
5.3.2模型求解
我们编写了Leslie矩阵模型的MATLAB程序(见附录二),先预测出了2002-2005年的分地区女性年净增长人口数,还原成人口数并和实际值比较,见表7,图形比较如图2。
表72002-2005年女性人口
2002年
2003年
2004年
2005年
实际值
预测值
实际值
预测值
实际值
预测值
实际值
预测值
城市
16804
15982
16843
16211
16889
16754
18091
18011
镇
7903
7752
9704
8978
9901
9864
11117
11003
乡
38163
38006
36717
37121
37099
36847
35460
36284
总人口
62870
61740
63264
62310
63889
63465
64668
65298
(注:
总人口值不是模型直接预测出来的,而是三个地区预测值之和)
图22002-2005女性人口实际值与模型预测值比较图
从图2可以看出,该模型的精度可以接受。
且模型的长期稳定性较好,故选式(20)做人口长期预测是可行的。
利用模型的MATLAB程序,分别得出了各地区女性年净增长人口的长期预测值,并利用该值结合各地区性别比得出全国总净增长人口的长期预测值和预测趋势图(见图3
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人口增长 模型