数学建模第八次作业第十章人寿保险问题.docx
- 文档编号:23889548
- 上传时间:2023-05-21
- 格式:DOCX
- 页数:20
- 大小:166.91KB
数学建模第八次作业第十章人寿保险问题.docx
《数学建模第八次作业第十章人寿保险问题.docx》由会员分享,可在线阅读,更多相关《数学建模第八次作业第十章人寿保险问题.docx(20页珍藏版)》请在冰豆网上搜索。
数学建模第八次作业第十章人寿保险问题
《数学建模》作业论文(八)
题目:
(第十章)人寿保险问题
学号:
201006332010059820100549
姓名:
张林任凯郭腾飞
年级:
数学与应用数学10级三班
学院:
信息与计算科学学院
指导教师:
沈菊红
完成日期:
2013年5月
信息与计算科学学院
人寿保险问题
【摘要】:
本文结合实际背景,经过对数据的观察并汇出其散点图推测经理的人寿保险额只与其年均收入和风险偏好度之间分别存在着二次效应和线性效应。
在采用混合回归模型建立起了经理的人寿保险额与其年均收入和风险偏好度之间的函数关系式,采用最小二乘法利用MATLAB软件的统计工具箱结合题中所给数据对各参数的值与其置信区间进行了估计,并很好的通过了回归的检验。
在通过对原模型进行改进的基础上,以一预测模型各参数的置信区间不应有零点作为该预测模型的可行的原则,验证了经理的年均收入和风险偏好度对其人寿保险额不存在交互效应。
人寿保险问题是一类统计回归模型问题,该模型是类随机模型,运用统计学的方法去解决现实中的类似问题。
此论文通过对现有调查数据的分析,并用MATLAB等数学软件画出相应的图形,找出数据间的相关关系(一次关系,二次关系等),建立相应的数学模型。
本文的独特之处就是建立多个模型,对每个模型进行分析解出结果,并分析回归得一较优的模型。
【关键词】:
保险额风险偏好度回归系数置信区间统计回归方法
目录
一、问题重述-4-
二、基本假设-4-
三、符号说明-5-
四、问题分析:
-5-
五、模型建立与求解-5-
六、结果分析-14-
七、参考文献-14-
八、附录-14-
一、问题重述
下表列出了某城市18位35岁~44岁经理的年平均收入(千元),风险偏好度和人寿保险额(千元)的数据,其中风险偏好度是根据发给每个经理的问卷调查表综合评估得到的,它的数值越大,就越偏爱高风险。
研究人员想研究此年龄段中的经理所投保的人寿保险额与年均收入及风险偏好度之间的关系。
研究者预计,经理的年均收入和人寿保险额之间存在着二次关系,并有把握地认为风险偏好度对人寿保险额有线性效应,但对风险偏好度对人寿保险额是否有二次效应以及两个自变量是否对人寿保险额有交互效应,心中没底。
请你通过表中的数据来建立一个合适的回归模型,验证上面的看法,并给出进一步的分析。
表一
序号
y
x1
x2
1
196
66.290
7
2
63
40.964
5
3
252
72.996
10
4
84
45.010
6
5
126
57.204
4
6
14
26.852
5
7
49
38.122
4
8
49
35.840
6
9
266
75.796
9
10
49
37.408
5
11
105
54.376
2
12
98
46.186
7
13
77
46.130
4
14
14
30.366
3
15
56
39.060
5
16
245
79.380
1
17
133
52.766
8
18
133
55.916
6
二、基本假设
(1)风险偏好度对人寿保险额有二次效应;
(2)风险偏好度和经理年平均收入对人寿保险额有交互效应。
三、符号说明
——人寿保险额
——经理的年平均收入
——风险偏好度
——回归系数(
=0、1、2、3,4)
——随机误差
——回归方程的决定系数
——统计量值
——与统计量对应的概率值
四、问题分析:
在现实生活中,35岁~44岁之间的经理很关心他们的人寿保险额跟风险偏好度和年平均收入有怎样的关系,本问题研究的是35岁~44岁经理的年平均收入与风险偏好度和人寿保险额之间的关系,通过调查发现人寿保险额受经理的年平均收入与风险偏好度的影响,依次来研究它们之间的关系。
五、模型建立与求解
基于上面的分析,我们利用x1和x2来建立y的预测模型。
基本模型І
通过大概的分析并根据题意得y与x1和x2的关系,利用表一的数据分别作出了y与x1和x2的散点图(如下图所示)。
图一(y对x1的散点图)
图二(y对x2的散点图)
通过图一我们发现,随着x1的增长,y有明显向上弯曲增加的趋势,图中的曲线可以用二次函数模型
y=β0+β1x1+β2x12+ε
(1)
拟合的(其中ε是随机误差)。
而在图二中,当x2的增大时,y有明显增长趋势,图中的直线用线性模型
y=β0+β1x2+ε
(2)
拟合的(其中ε是随机误差)。
综合以上的分析,结合模型
(1)和
(2)建立如下模型
y=β0+β1x1+β2x12+β3x22+ε(3)
(3)式右端的x1和x2称为回归变量(自变量),β0+β1x1+β2x12+β3x22是给定价格差x1、广告费用x2时,牙膏销售量y的平均值,其中的参数β0,β1,β2,β3称为回归系数,由表1的数据估计,影响y的其他因素作用都包含在随机误差ε中,如果模型选择得合适,ε应大致服从均值为零的正态分布。
模型求解:
直接利用MATLAB统计工具箱中的命令regress求解,使用格式为:
【b,bint,r,rint,stats】=regress(y,x,alpha)其中输入y为模型(3)中y的数据(n维向量,n=30),x为对应于回归系β=(β0,β1,β2,β3)的数据阵【1x1x2x22】(n×4矩阵,其中第1列为全1向量),alpha为置信水平α(缺省时α=0.05);输出b为β的估计值,常记做٨β,bint,为b的置信区间,r为残差向量y-x٨β,rint为r的置信区间,stats为回归模型的检验统计量,有三个值第一个是回归方程的决定系数R2(R是相关系数),第二个是F统计量值,第三个是与F统计量对应的概率值p。
得到模型(3)的回归系数估计值及其置信区间(置信水平α=0.05),的结果见表2.
表二
参数
参数估计
参数置信区间
β0
-62.3486
[-73.5025-51.1947]
β1
0.8396
[0.39511.2840]
β2
5.6846
[5.26046.1089]
β3
0.0371
[0.03300.0412]
R2=1F=8.2737p<0.0033
结果分析;表2显示检查他们置信区间得到,β0,β1,β2,β3都未包含零点,表明回归变量x1,x2都是显著的。
表2的回归系数给出了模型(3)中β0,β1,β2,β3,即β0=-62.3486,β1=0.8396,β2=5.6846,β3=0.0371。
因此,该模型还是可用的,为了更好地理解风险偏好度和经理年平均入对人寿保险额的关系,对此进行改进。
模型改进
:
模型(3)中回归变量x1和x2对因变量y的影响是相互独立的,即经理的年平均收入x1和人生保险额y之间存在二次关系,并风险偏好度与人寿保险额y有线性关系,
根据经验可以猜想,风险偏好度对人寿保险有二次关系,于是将模型(3),增加一项
即;y=β0+β1x1+β2x2+β3x22+β4x12+ε(5)
对y和x12散点图和拟合图如下图所示:
图三(y和x12散点图)
下面让我们用表一的数据估计模型的系数,利用matlab的统计得到表三:
表三
参数
参数估计
参数置信区间
β0
-60.9101
[-72.6072-49.2130]
β1
0.9303
[0.43891.4218]
β2
4.4529
[1.69107.2149]
β3
0.0359
[0.03100.0408]
β4
0.1159
[-0.14090.3727]
R2=1F=8.2737p<0.0033
用模型(5)对人寿保险额做预测,经理的年平均收入x1和风险偏好度x2,表3的回归系数给出了模型(5)中的估计值β0,β1,β2,β3,即
-60.9101,
0.9303,
4.4529,
0.0359,β4=0.1159,则人寿保险额的估计值y=-60.9101+0.9303x1+4.4529x2+0.0359x22+0.1159x12,与模型(3)的结果相比,与表3检查它们的置信区间发现只有β4的置信区间包含零点,表明回归变量x12不是太显著的,因此,β4的估计值是不可靠的,要对模型(5)进行残差分析,首次回归所得图四
图四
图四个异常数据,剔除第3第5数据后再次回归,得到回归分析图五
图五
再次踢出第五个数据再次得到回归分析图六
图六
再次踢出第9,10数据后的回归分析图七
图七
结果其如表四:
表四
参数
参数估计
参数置信区间
β0
-63.2111
[-69.8785-56.5438]
β1
1.0998
[0.83671.3630]
β2
3.4542
[1.79415.1142]
β3
0.0340
[0.03110.0368]
β4
0.2450
[0.07590.4140]
R2=1F=2.7735p<0.0001
在经过几组数据的踢出,使得模型的各估计值更为有了提升,无异常数据,该模基本可用。
所以通过模型二的建立,其各计值
-63.2111,
1.0998,
3.4542,
0.0340,β4=0.2450,则其预测方程为
y=-63.2111+1.0998x1+3.4542x2+0.0340x22+0.2450x12
从中我们可知人寿保险额y与风险偏好度x1有二次关系
该模似乎可以使用了,但是为了得到人寿保险额y是否与风险偏好度x1和经理年收入x2有交互效应,我们将对模型(5)进行再次改进。
模型Ш
为进一步的了解人寿保险额y与风险偏好度x1和经理的年平均收入x2是否有交互效应
不妨简单的用x1,x2的乘积表示风险偏好度x1和经理的年平均收入x2交互效应,于是将模型(5)进一步改进得到
y=β0+β1x1+β2x2+β3x22+β4x12+β5x1x2+ε(6)
在这模型中,假设风险偏好度x1和经理的年平均收入有关,下面我们通过分析作出了y跟x1,x2乘积的散点图和拟合曲线,见如下图八所示:
图八
利用matlab统计工具箱中的命令求解,得到表四的回归系数估计值及其置信区间(置信水平a=0.05)结果见表五:
表五
参数
参数估计
参数置信区间
β0
-65.3853
[-78.7266-52.0440]
β1
1.0172
[0.52021.5141]
β2
5.2172
[2.27858.1559]
β3
0.0358
[0.03100.0406]
β4
0.1661
[-0.09560.4279]
β5
-0.0196
[-0.05010.0109]
R2=1F=7.1099p<0.0030
用模型(5)对人寿保险额做预测,经理的年平均收入x1和风险偏好度x2,与模型(3)的结果相比,表3的回归系数给出了模型(5)中的估计值β0,β1,β2,β3,β4,
即β0=-65.3853,β1=1.0172,β2=5.2172,β3=0.0358,β4=0.1661,β5=-0.0196
则人寿保险额的预测方程为
y=-65.3853+1.0172x1+5.2172x2+0.0358x22+0.1661x12-0.0196x1x2,
根据表3检查它们的置信区间发现有β4,β5的置信区间包含零点,表明回归变量x12,x1x2不是显著的,对此不能正确判断,需对模型(6)作残差分析,首次进行得到图九
图九
踢出第3,5个数据后的回归分析图十如下所示:
图十
再出第5个数据后的回归分析图十一下所示:
图十一
通过残差分析得到数据如表所示:
表六
参数
参数估计
参数置信区间
β0
-64.7757
[-72.7253-56.8261
β1
1.1075
[0.83811.3768]
β2
3.8722
[1.79905.9454]
β3
0.0347
[0.03210.0374]
β4
0.2917
[0.09620.4871]
β5
-0.0160
[-0.03320.0011]
R2=0.0001F=2.0635p<0.0001
通过这三次的残差回归分析,踢出几组数据后,各数据都能表示人寿保险额y与风险偏好度x1和经理年平均收入x2的关系,可通过残差回归分析检查得到,
最后的数据发现β5的置信区间包含零点,表明回归变量x1x2(对变量y的影响)不是太显著地,我们将变量x1x2从模型(6)中去掉。
六、结果分析
模型(5):
表三显示,p远小于α,发现存在问题,通过残差回归分析,几次数据的踢出,得到的使数据更有说服力,模型从整体看上去还是可用的。
表明人寿保险额y与风险偏好度x1有二次关系;
所以,型(5)的预测方程为
y=-63.2111+1.0998x1+3.4542x2+0.0340x22+0.2450x12
模型(6):
表七显示,发现β5的置信区间包含零点,并通过残差回归分析,得到最后的数据,还是包含零点,得到最后的结论是去除模型(6)的变量x1x2,
可知经理当中经理年平均收入x2和风险偏好度x两个自变量的交互效应与人寿保险额y没有关系。
七、参考文献
【1】数学模型(第三版).姜启源,谢金星,叶俊.北京,高等教育出版社,2012
【2】MATLAB7.X程序设计.王建卫,曲中水,凌滨.北京,中国水利水电出版社,2007
八、附录
模型I第一次分析:
①%未踢出前的一
y=[19663252841261449492664910598771456245133133]';
x0=[111111111111111111]';
x1=[66.29040.96472.99645.01057.20426.85238.12235.84075.79637.40854.37646.18646.13030.36639.06079.38052.76655.916]';
x2=[7510645469527435186]';
x3=[4394.361678.055328.422025.903272.30721.031453.291284.515745.031399.362956.752133.152127.98922.091525.686301.182784.253126.60]';
x4=[4925100361625163681254491692516436]';
x=[x0,x1,x2,x3,x4];
alpha=0.05;
[b,bint,r,rint,stats]=regress(y,x,alpha);
rcoplot(r,rint)(图略)
b=
-60.9101
0.9303
4.4529
0.0359
0.1159
bint=
-72.6072-49.2130
0.43891.4218
1.69107.2149
0.03100.0408
-0.14090.3727
r=
0.7270
0.4326
-2.2943
-0.5397
-3.3788
-1.1024
2.6367
-0.4088
0.8087
-0.2602
-0.1297
2.5586
-1.0201
-0.8249
0.6707
1.4165
1.8852
-1.1770
rint=
-2.56104.0149
-3.43794.3031
-4.1867-0.4018
-4.37443.2951
-6.2877-0.4699
-3.96951.7647
-0.84256.1158
-4.18583.3682
-2.26043.8777
-4.11213.5916
-2.95672.6972
-0.87885.9961
-4.77232.7321
-4.10822.4584
-3.18194.5233
-0.39123.2242
-1.44895.2193
-4.74342.3893
stats=
1.0e+003*
0.00108.273700.0033
②%踢出5数据后一
x4=[49253625163681254491692516436]';
y=[19663841449492664910598771456245133133]';
x3=[4394.361678.052025.90721.031453.291284.515745.031399.362956.752133.152127.98922.091525.686301.182784.253126.60]';
x1=[66.29040.96445.01026.85238.12235.84075.79637.40854.37646.18646.13030.36639.06079.38052.76655.916]';
x2=[7565469527435186]';
x0=[1111111111111111]';
x=[x0,x1,x2,x3,x4];
alpha=0.05;
[b,bint,r,rint,stats]=regress(y,x,alpha)
rcoplot(r,rint);
③%踢出3,5数据后一
x4=[492536253681254169256436]';
y=[1966384144926649105771456133133]';
x3=[4394.361678.052025.90721.031284.515745.031399.362956.752127.98922.091525.682784.253126.60]';
x1=[66.29040.96445.01026.85235.84075.79637.40854.37646.13030.36639.06052.76655.916]';
x2=[7565695243586]';
x0=[1111111111111]';
x=[x0,x1,x2,x3,x4];
alpha=0.05;
[b,bint,r,rint,stats]=regress(y,x,alpha)
rcoplot(r,rint)
模型II第一次回归分析:
①%踢出3,5,后的二
x4=[49253625163681254491692516436]';
y=[19663841449492664910598771456245133133]';
x3=[4394.361678.052025.90721.031453.291284.515745.031399.362956.752133.152127.98922.091525.686301.182784.253126.60]';
x1=[66.29040.96445.01026.85238.12235.84075.79637.40854.37646.18646.13030.36639.06079.38052.76655.916]';
x2=[7565469527435186]';
x0=[1111111111111111]';
x5=[464.0300204.8200270.0600134.2600152.4880215.0400682.1640187.0400108.7520323.3020184.520091.0980195.300079.3800422.1280335.4960]'
x=[x0,x1,x2,x3,x4,x5];
alpha=0.05;
[b,bint,r,rint,stats]=regress(y,x,alpha);
rcoplot(r,rint)
②%踢出5后的二
x4=[492536253681254491692516436]';
y=[196638414492664910598771456245133133]';
x3=[4394.361678.052025.90721.031284.515745.031399.362956.752133.152127.98922.091525.686301.182784.253126.60]';
x1=[66.29040.96445.01026.85235.84075.79637.40854.37646.18646.13030.36639.06079.38052.76655.916]';
x2=[756569527435186]';
x0=[111111111111111]';
x5=[464.0300204.8200270.0600134.2600215.0400682.1640187.0400108.7520323.3020184.520091.0980195.300079.3800422.1280335.4960]'
x=[x0,x1,x2,x3,x4,x5];
alpha=0.05;
[b,bint,r,rint,stats]=regress(y,x,alpha);
rcoplot(r,rint)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学 建模 第八 作业 第十 人寿保险 问题