人寿保险购买情况的回归分析1.docx
- 文档编号:11973697
- 上传时间:2023-04-16
- 格式:DOCX
- 页数:22
- 大小:87.51KB
人寿保险购买情况的回归分析1.docx
《人寿保险购买情况的回归分析1.docx》由会员分享,可在线阅读,更多相关《人寿保险购买情况的回归分析1.docx(22页珍藏版)》请在冰豆网上搜索。
人寿保险购买情况的回归分析1
大学生数学建模
承诺书
我们仔细阅读了数学建模的规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。
如有违反竞赛规则的行为,我们将受到严肃处理。
所属班级(请填写完整的全名):
2009级数学与应用数学班
队员(打印并签名):
1.
2.
3.)
小组负责人(打印并签名):
日期:
2012年4月7日
教师评阅:
摘要1
一、问题的提出1
二、符号说明与假设2
三、问题分析2
四、模型的建立与求解2
4.1模型I的建立与求解2
4.2模型II的建立与求解4
4.3模型III的建立与求解8
五、结果分析9
六、模型的评价11
七、模型的改进与推广12
八、参考文献12
九、附录13
题目:
保险额与年平均收入和风险偏好度的回归分析
摘要:
为了更好地了解人寿保险额,经理年平均收入,风险偏好度的关系,利用18位35岁~44岁经理的数据,建立数学模型,并通过模型建立他们之间的关系,来判断它们有什么关系,利用MATLAB软件的统计工具箱结合题中所给数据对各参数的值与其置信区间进行了估计,并很好地通过了回归的检验。
在通过对原模型进行改进的基础上,以一预测模型各参数的置信区间不应有零点作为该预测模型可行的原则,验证了经理的人寿保险额与其风险偏好度之间存在二次效应,经理的年均收入和风险偏好度对其人寿保险额不存在交互效应,运用软件对我们的模型进行验证,分析结果然后综合得到。
关键词:
保险额年平均收入风险偏好度
回归系数置信区间统计回归方法
一、问题提出:
下表列出了某城市18位35岁~44岁经理的年平均收入(千元),风险偏好度和人寿保险额(千元)的数据,其中风险偏好度是根据发给每个经理的问卷调查表综合评估得到的,它的数值越大,就越偏爱高风险。
研究人员想研究此年龄段中的经理所投保的人寿保险额与年均收入及风险偏好度之间的关系。
研究者预计,经理的年均收入和人寿保险额之间存在着二次关系,并有把握地认为风险偏好度对人寿保险额有线性效应,但对风险偏好度对人寿保险额是否有二次效应以及两个自变量是否对人寿保险额有交互效应,心中没底。
请你通过表中的数据来建立一个合适的回归模型,验证上面的看法,并给出进一步的分析。
序号
y
x1
x2
1
196
66.290
7
2
63
40.964
5
3
252
72.996
10
4
84
45.010
6
5
126
57.204
4
6
14
26.852
5
7
49
38.122
4
8
49
35.840
6
9
266
75.796
9
10
49
37.408
5
11
105
54.376
2
12
98
46.186
7
13
77
46.130
4
14
14
30.366
3
15
56
39.060
5
16
245
79.380
1
17
133
52.766
8
18
133
55.916
6
(表一)
二、符号说明与假设:
——人寿保险额
——经理的年平均收入
——风险偏好度
——回归系数(
=0、1、2、3,4)
——随机误差
——回归方程的决定系数
——统计量值
——与统计量对应的概率值
基本假设:
、风险偏好度对人寿保险额有二次效应;
、风险偏好度和经理年平均收入对人寿保险额有交互效应。
三、问题分析:
在现实生活中,35岁~44岁之间的经理很关心他们的人寿保险额跟风险偏好度和年平均收入有怎样的关系,本问题研究的是35岁~44岁经理的年平均收入与风险偏好度和人寿保险额之间的关系,通过调查发现人寿保险额受经理的年平均收入与风险偏好度的影响,依次来研究它们之间的关系。
基于上面的分析,我们利用x1和x2来建立y的预测模型:
四、模型建立
4.1基本模型І:
通过大概的分析并根据题意得y与x1和x2的关系,利用表一的数据分别作出了y与x1和x2的散点图(如下图所示)。
图一(y对x1的散点图)
图二(y对x2的散点图)
通过(图一)我们发现,随着x1的增长,y有明显向上弯曲增加的趋势,图中的曲线可以用二次函数模型
y=β0+β1x1+β2x12+ε
(1)
拟合的(其中ε是随机误差)。
而在图二中,当x2的增大时,y有明显增长趋势,图中的直线用线性模型
y=β0+β1x2+ε
(2)
拟合的(其中ε是随机误差)。
综合以上的分析,结合模型
(1)和
(2)建立如下模型:
y=β0+β1x1+β2x12+β3x22+ε(3)
(3)式右端的x1和x2称为回归变量(自变量),β0+β1x1+β2x12+β3x22是给定经理的年平均收入x1、风险偏好度x2时,人寿保险额y的平均值,其中的参数β0,β1,β2,β3称为回归系数,由表1的数据估计,影响y的其他因素作用都包含在随机误差ε中,如果模型选择得合适,ε应大致服从均值为零的正态分布。
模型求解:
直接利用MATLAB统计工具箱中的命令regress求解,使用格式为:
【b,bint,r,rint,stats】=regress(y,x,alpha)其中输入y为模型(3)中y的数据(n维向量,n=30),x为对应于回归系β=(β0,β1,β2,β3)的数据阵【1x1x2x22】(n×4矩阵,其中第1列为全1向量),alpha为置信水平α(缺省时α=0.05);输出b为β的估计值,常记做٨β,bint,为b的置信区间,r为残差向量y-x٨β,rint为r的置信区间,stats为回归模型的检验统计量,有三个值第一个是回归方程的决定系数R2(R是相关系数),第二个是F统计量值,第三个是与F统计量对应的概率值p。
得到模型(3)的回归系数估计值及其置信区间(置信水平α=0.05),的结果
见表2.:
参数
参数估计
参数置信区间
β0
-62.3486
[-73.5025-51.1947]
β1
0.8396
[0.39511.2840]
β2
5.6846
[5.26046.1089]
β3
0.0371
[0.03300.0412]
R2=1F=8.2737p=0
(表二)
结果分析;表2显示检查他们置信区间得到,β0,β1,β2,β3都未包含零点,表明回归变量x1,x2都是显著的。
表2的回归系数给出了模型(3)中β0,β1,β2,β3估计值,即β0=-62.3486,β1=0.8396,β2=5.6846,β3=0.0371。
因此,该模型还是可用的,为了更好地理解风险偏好度和经理年平均入对人寿保险额的关系,对此进行改进。
4.2模型改进II:
模型(3)中回归变量x1和x2对因变量y的影响是相互独立的,即经理的年平均收入x1和人寿保险额y之间存在二次关系,并风险偏好度与人寿保险额y有线性关系,
根据经验可以猜想,风险偏好度对人寿保险有二次关系,于是将模型(3),增加一项即:
y=β0+β1x1+β2x2+β3x22+β4x12+ε(5)
对y和x12散点图如下图所示:
(y和x12散点图)
下面让我们用表一的数据估计模型的系数,利用matlab的统计得到表三:
参数
参数估计
参数置信区间
β0
-60.9101
[-72.6072-49.2130]
β1
0.9303
[0.43891.4218]
β2
4.4529
[1.69107.2149]
β3
0.0359
[0.03100.0408]
β4
0.1159
[-0.14090.3727]
R2=1F=8.2737p<0.0033
(表三)
用模型(5)对人寿保险额做预测,经理的年平均收入x1和风险偏好度x2,表3的回归系数给出了模型(5)中的估计值β0,β1,β2,β3,即
-60.9101,
0.9303,
4.4529,
0.0359,β4=0.1159,则人寿保险额的估计值y=-60.9101+0.9303x1+4.4529x2+0.0359x22+0.1159x12,与模型(3)的结果相比,与表3检查它们的置信区间发现只有β4的置信区间包含零点,表明回归变量x12不是太显著的,因此,β4的估计值是不可靠的,要对模型(5)进行残差分析,首次回归所得图2.1
图2.1
图2.1个异常数据,剔除第3第5数据后再次回归,得到回归分析图2.2。
图2.2
再次踢出第五个数据再次得到回归分析图2.3
2.3
再次踢出第9,10数据后的回归分析图2.4
图2.4
结果如表四:
参数
参数估计
参数置信区间
β0
-63.2111
[-69.8785-56.5438]
β1
1.0998
[0.83671.3630]
β2
3.4542
[1.79415.1142]
β3
0.0340
[0.03110.0368]
β4
0.2450
[0.07590.4140]
R2=1F=2.7735p<0.0001
表(四)
在经过几组数据的踢出,使得模型的各估计值更为有了提升,无异常数据,该模基本可用。
所以通过模型二的建立,其各计值
-63.2111,
1.0998,
3.4542,
0.0340,β4=0.2450,则其预测方程为:
y=-63.2111+1.0998x1+3.4542x2+0.0340x22+0.2450x12
从中我们可知人寿保险额y与风险偏好度x1有二次关系,该模似乎可以使用了,但是为了得到人寿保险额y是否与风险偏好度x1和经理年收入x2有交互效应,我们将对模型(5)进行再次改进。
4.3模型Ш
为进一步的了解人寿保险额y与风险偏好度x1和经理的年平均收入x2是否有交互效应,不妨简单的用x1,x2的乘积表示风险偏好度x1和经理的年平均收入x2交互效应,于是将模型(5)进一步改进得到:
y=β0+β1x1+β2x2+β3x22+β4x12+β5x1x2+ε(6)
在这模型中,假设风险偏好度x1和经理的年平均收入有关,下面我们通过分析作出了y跟x1,x2乘积的散点图,见如下表六和表七所示:
(y1与x1x2散点图)
利用matlab统计工具箱中的命令求解,得到表(4)的回归系数估计值及其置信区间(置信水平a=0.05)结果见表(5):
参数
参数估计
参数置信区间
β0
-65.3853
[-78.7266-52.0440]
β1
1.0172
[0.52021.5141]
β2
5.2172
[2.27858.1559]
β3
0.0358
[0.03100.0406]
β4
0.1661
[-0.09560.4279]
β5
-0.0196
[-0.05010.0109]
R2=1F=7.1099p<0.0030
表(五)
用模型(5)对人寿保险额做预测,经理的年平均收入x1和风险偏好度x2,与模型(3)的结果相比,表3的回归系数给出了模型(5)中的估计值β0,β1,β2,β3,β4,
即β0=-65.3853,β1=1.0172,β2=5.2172,β3=0.0358,β4=0.1661,β5=-0.0196
则人寿保险额的预测方程为
y=-65.3853+1.0172x1+5.2172x2+0.0358x22+0.1661x12-0.0196x1x2
根据表(3)检查它们的置信区间发现有β4,β5的置信区间包含零点,表明回归变量x12,x1x2不是显著的,对此不能正确判断,需对模型(6)作残差分析,首次进行得到图3.1
图3.1
踢出第3,5个数据后的回归分析图3.2如下所示:
图3.2
再出第5个数据后的回归分析图3.3下所示:
图3.3
通过残差分析得到数据如表所示:
参数
参数估计
参数置信区间
β0
-64.7757
[-72.7253-56.8261
β1
1.1075
[0.83811.3768]
β2
3.8722
[1.79905.9454]
β3
0.0347
[0.03210.0374]
β4
0.2917
[0.09620.4871]
β5
-0.0160
[-0.03320.0011]
R2=0.0001F=2.0635p<0.0001
(表七)
通过这三次的残差回归分析,踢出几组数据后,各数据都能表示人寿保险额y与风险偏好度x1和经理年平均收入x2的关系,可通过残差回归分析检查得到,
最后的数据发现β5的置信区间包含零点,表明回归变量x1x2(对变量y的影响)不是太显著地,我们将变量x1x2从模型(6)中去掉。
五、结果分析:
模型(5):
表三显示,p远小于α,发现存在问题,通过残差回归分析,几次数据的踢出,得到的使数据更有说服力,模型从整体看上去还是可用的。
表明人寿保险额y与风险偏好度x1有二次关系;
所以,型(5)的预测方程为:
y=-63.2111+1.0998x1+3.4542x2+0.0340x22+0.2450x12
模型(6):
表七显示,发现β5的置信区间包含零点,并通过残差回归分析,得到最后的数据,还是包含零点,得到最后的结论是去除模型(6)的变量x1x2,
可知经理当中经理年平均收入x2和风险偏好度x两个自变量与人寿保险额y没有交互效应。
六、模型的评价
(1)本文的模型在建立的过程中充分考虑到经济收入方面重要相关因素,得出了对本题的最佳模型。
(2)充分利用MATLAB等软件进行画图求证,所以误差较小,数据准确合理。
本文在解决问题中使用的数据大部分为实验值,本身存在误差,我们没有使用实际数据进行检验。
(3)在应用过程中,结合问题实际背景,在由假设的经理的人寿保险额只与其年均收入和风险偏好度之间分别存在着二次效应和线性效应的前提下,我们利用混合线性回归模型
(4)建立起了这三变量之间的函数关系式,并通过对该模型进行改进,验证了经理的人寿保险额与其风险偏好度之间存在二次效应,经理的年均收入和风险偏好度对其人寿保险额不存在交互效应。
七、模型的改进与推广
1.该模型不仅可用于人寿保险额与风险偏好度和年平均收入,也可用于其它方面,比如说。
2.由于题目给出的统计数据不是很精确,如果我们能对统计的方法进行改进,估计时间可以更加精确。
3.这个模型比较接近现实,它很有实用价值,可以为以后其他新药的推广提供参考。
4.考虑到保险行业的特殊性,尽管结合调查数据,我们利用混合回归模型建立起了有关经理的人寿保险额与其年均收入和风险偏好度之间的函数关系式,然而调查数据量很少,且我们并不能肯定经理的风险偏好度与其平均收入之间没有相关性,所建立的模型也并不能准确的对结果进行预测。
八、参考文献
(1)数学模型(第三版).姜启源,谢金星,叶俊.北京,高等教育出版社,2012
(2)MATLAB7.X程序设计.王建卫,曲中水,凌滨.北京,中国水利水电出版社,2007
九、附录
模型I第一次分析:
①%未踢出前的一
y=[19663252841261449492664910598771456245133133]';
x0=[111111111111111111]';
x1=[66.29040.96472.99645.01057.20426.85238.12235.84075.79637.40854.37646.18646.13030.36639.06079.38052.76655.916]';
x2=[7510645469527435186]';
x3=[4394.361678.055328.422025.903272.30721.031453.291284.515745.031399.362956.752133.152127.98922.091525.686301.182784.253126.60]';
x4=[4925100361625163681254491692516436]';
x=[x0,x1,x2,x3,x4];
alpha=0.05;
[b,bint,r,rint,stats]=regress(y,x,alpha);
rcoplot(r,rint)(图略)
b=
-60.9101
0.9303
4.4529
0.0359
0.1159
bint=
-72.6072-49.2130
0.43891.4218
1.69107.2149
0.03100.0408
-0.14090.3727
r=
0.7270
0.4326
-2.2943
-0.5397
-3.3788
-1.1024
2.6367
-0.4088
0.8087
-0.2602
-0.1297
2.5586
-1.0201
-0.8249
0.6707
1.4165
1.8852
-1.1770
rint=
-2.56104.0149
-3.43794.3031
-4.1867-0.4018
-4.37443.2951
-6.2877-0.4699
-3.96951.7647
-0.84256.1158
-4.18583.3682
-2.26043.8777
-4.11213.5916
-2.95672.6972
-0.87885.9961
-4.77232.7321
-4.10822.4584
-3.18194.5233
-0.39123.2242
-1.44895.2193
-4.74342.3893
stats=
1.0e+003*
0.00108.273700.0033
②%踢出5数据后一
x4=[49253625163681254491692516436]';
y=[19663841449492664910598771456245133133]';
x3=[4394.361678.052025.90721.031453.291284.515745.031399.362956.752133.152127.98922.091525.686301.182784.253126.60]';
x1=[66.29040.96445.01026.85238.12235.84075.79637.40854.37646.18646.13030.36639.06079.38052.76655.916]';
x2=[7565469527435186]';
x0=[1111111111111111]';
x=[x0,x1,x2,x3,x4];
alpha=0.05;
[b,bint,r,rint,stats]=regress(y,x,alpha)
rcoplot(r,rint);
③%踢出3,5数据后一
x4=[492536253681254169256436]';
y=[1966384144926649105771456133133]';
x3=[4394.361678.052025.90721.031284.515745.031399.362956.752127.98922.091525.682784.253126.60]';
x1=[66.29040.96445.01026.85235.84075.79637.40854.37646.13030.36639.06052.76655.916]';
x2=[7565695243586]';
x0=[1111111111111]';
x=[x0,x1,x2,x3,x4];
alpha=0.05;
[b,bint,r,rint,stats]=regress(y,x,alpha)
rcoplot(r,rint)
模型II第一次回归分析:
①%踢出3,5,后的二
x4=[49253625163681254491692516436]';
y=[19663841449492664910598771456245133133]';
x3=[4394.361678.052025.90721.031453.291284.515745.031399.362956.752133.152127.98922.091525.686301.182784.253126.60]';
x1=[66.29040.96445.01026.85238.12235.84075.79637.40854.37646.18646.13030.36639.06079.38052.76655.916]';
x2=[7565469527435186]';
x0=[1111111111111111]';
x5=[464.0300204.8200270.0600134.2600152.4880215.0400682.1640187.0400108.7520323.3020184.520091.0980195.300079.3800422.1280335.4960]'
x=[x0,x1,x2,x3,x4,x5];
alpha=0.05;
[b,bint,r,rint,stats]=regress(y,x,alpha);
rcoplot(r,rint)
②%踢出5后的二
x4=[492536253681254491692516436]';
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人寿保险 购买 情况 回归 分析