基于逐步回归的脑卒中发病环境因素分析及干预模型.docx
- 文档编号:2904034
- 上传时间:2022-11-16
- 格式:DOCX
- 页数:24
- 大小:546.27KB
基于逐步回归的脑卒中发病环境因素分析及干预模型.docx
《基于逐步回归的脑卒中发病环境因素分析及干预模型.docx》由会员分享,可在线阅读,更多相关《基于逐步回归的脑卒中发病环境因素分析及干预模型.docx(24页珍藏版)》请在冰豆网上搜索。
基于逐步回归的脑卒中发病环境因素分析及干预模型
2012高教社杯全国大学生数学建模竞赛
承诺书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则。
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。
如有违反竞赛规则的行为,我们将受到严肃处理。
我们参赛选择的题号是(从A/B/C/D中选择一项填写):
C
我们的参赛报名号为(如果赛区设置报名号的话):
4052
所属学校(请填写完整的全名):
XXXXXX
参赛队员(打印并签名):
1.
2.(隐去论文作者相关信息等)
3.
指导教师或指导教师组负责人(打印并签名):
日期:
2012年9月9日
赛区评阅编号(由赛区组委会评阅前进行编号):
2012高教社杯全国大学生数学建模竞赛
编号专用页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用):
评
阅
人
评
分
备
注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
基于逐步回归的脑卒中发病环境因素分析及干预模型
摘要
本文通过建立合理的假设,对某地区2009-2010年脑卒中发病率与8种气象因素进行了相关分析,并经多元逐步回归建立了脑卒中发病率的预报模型进行了定量分析,得到了较为合理的结论。
考虑到发病率与气象因素的复杂关系,在逐步线性回归模型的基础上,引进广义线性回归模型(GLM)进行推广。
针对问题一,本文对性别、年龄段、职业和时间序列以及4年的平均发病例数进行统计和分析,在删除了一些缺失或失真数据的基础上,对数据分别进行整理分析。
最后,在性别方面,得到脑卒中发病率男性比女性的高。
从年龄结构看,发病人数主要集中在50~90这一年龄区间内,其所占比例达81.10%。
从职业结构看,农民的发病率最大。
从各年的平均发病人数看,在各年季节交替月份的患病人数较多。
针对问题二,考虑到气温、气压和相对湿度对发病率的影响不确定,本文首先建立了Pearson相关分析模型,通过r值的大小来判断发病率与各指标是否存在着某种相关。
经计算得出温度与发病率呈正相关,气压、相对湿度与发病率呈负相关,且各指标与发病率均呈弱相关,相关度并不显著。
其次,考虑到发病率有可能受到多个因素的共同影响,于是用逐步线性回归模型对各因素逐步分析删除,最后得出脑卒中月平均发病率与平均气压、最大气压、最小气压、平均温度、最高温度和最高相对湿度这五个因素的一个多元回归线性预报模型,并进行了一定的定量分析。
最后,考虑到逐步线性回归模型的各指标是相互独立性,而气压和温度之间存在相互作用,通过引入平均气压和平均温度交互项,对模型二进行了改进,得到了一个更优的模型。
通过对模型的定量分析,本文预报模型具有实际应用价值。
针对问题三,脑卒中高危人群的重要特征有:
偏瘫、失语、精神症状等,关键指标有:
高血压、吸烟醉酒、血脂异常、糖尿病等。
结合问题一、二的结论,分别针对高危人群提出预警和干预的建议方案。
从这两个方案中得知:
减少脑卒中发病率要从提高身体素质、疾病的认知和膳食均衡这三方面去考虑。
最后,考虑到逐步线性回归模型中脑卒中发病率与气象因素中的线性关系,而实际上,发病率与气象因素关系的复杂性线性关系并不足以充分刻画,本文在假设脑卒中发病例数与整个地区是一个小概率事件上,其实际分布接近于泊松分布,利用广义线性回归模型(GLM)进行推广,一定程度优化了逐步回归模型。
关键字:
脑卒中气象因素相关分析多元逐步回归GLM模型
一、问题重述
脑卒中(俗称脑中风)是目前威胁人类生命的严重疾病之一,它的发生是一个漫长的过程,一旦得病就很难逆转。
这种疾病的诱发已经被证实与环境因素,包括气温和湿度之间存在密切的关系。
对脑卒中的发病环境因素进行分析,其目的是为了进行疾病的风险评估,对脑卒中高危人群能够及时采取干预措施,也让尚未得病的健康人,或者亚健康人了解自己得脑卒中风险程度,进行自我保护。
同时,通过数据模型的建立,掌握疾病发病率的规律,对于卫生行政部门和医疗机构合理调配医务力量、改善就诊治疗环境、配置床位和医疗药物等都具有实际的指导意义。
数据(见Appendix-C1)来源于中国某城市各家医院2007年1月至2010年12月的脑卒中发病病例信息以及相应期间当地的逐日气象资料(Appendix-C2)。
请你们根据题目提供的数据,回答以下问题:
1.根据病人基本信息,对发病人群进行统计描述。
2.建立数学模型研究脑卒中发病率与气温、气压、相对湿度间的关系。
3.查阅和搜集文献中有关脑卒中高危人群的重要特征和关键指标,结合1、2中所得结论,对高危人群提出预警和干预的建议方案。
二、符号说明及名词定义
符号
符号说明
简单相关系数
脑卒中发病人数
回归分析解析变量(或指标)
回归方程的回归系数
残差
残差绝对值与实际值的百分比
各个月份残差绝对值
表示各月份的实际值
三、基本假设
1.假设4年中年与年间气象没有发生剧烈变化
2.假设发病人数不存在人口迁移的巨大变化
四、问题分析
4.1背景分析
脑卒中(Stroke)是脑中风的学名,是一种突然起病的脑血液循环障碍性疾病。
又叫脑血管意外。
是指在脑血管疾病的病人,因各种诱发因素引起脑内动脉狭窄,闭塞或破裂,而造成急性脑血液循环障碍,临床上表现为一过性或永久性脑功能障碍的症状和体征.脑卒中分为缺血性脑卒中和出血性脑卒中。
根据统计中国每年发生脑卒中病人达200万,发病率高达120/10万。
现幸存中风病人700万,其中450万病人不同程度丧失劳动力和生活不能自理。
致残率高达75%。
尽管该病与高血压、心脏病等主要危险因素有关,但其发病往往受季节气候变化及其它外界因素的影响。
气象因素的变化对脑血管病发病的影响,国内外均有报道。
多数研究指出,在冬季脑卒中的发病率有明显增加,发病率与温度有很大的关联,但也有研究指出,脑卒中发病率与季节没有明显的变化,这些日渐深入的研究结果不尽一致,主要是因为各地的地理气候特点差别较大以及社会因素、人种遗传等等方面的区别。
为了更好的预防这种疾病,本文对2007-2010年某地区脑卒中发病率与该地区相应的思念气象因素指标进行分析,初步验证了气象因素与脑卒中发病率之间的关系。
4.2问题一分析
根据附件1-4,本文以脑卒中发病人数,分别从发病时间、性别、年龄结构和职业进行数据整理分析,得到一些初步的结论,对脑卒中发病情况进行一些简单的分析与总结。
通过数据的初始处理发现题目所给的数据中存在空缺,对于数据的统计问题,数据的空缺是不可忽视的地方,要综合考虑空缺数据的作用以及给数据统计造成的影响大小,乔珠峰、田凤占和黄厚宽[1]等人指出:
如果缺失的数据占总数据量的比例较小,认为缺失数据对原始数据的处理影响较小,可以忽略不计,如果缺失数据在总数据量中所占比例较大可能对原始数据的处理造成很大的影响,不能直接忽略,需要通过填补来完善数据才能进行计算。
对每个部分共计多少数据,缺失多少数据,删除多少数据以及剩余多少完整数据进行研究,通过对数据的进一步处理,得到男女患病比例的扇形图,将年龄结构处理后的数据转化成柱状图,据图分析患病人群所处的年龄段,根据这一结果结合脑卒中的患病原因分析不同年龄段患病的原因;对于按月份划分的数据,做出各年中每月患病人数与年份患病总人数比值的折线图,通过图示结果分析患病人数与月份之间的关系,从而反映气候的变化对脑卒中病发的影响情况,以及对此应做出的相关防御措施。
对于职业这一类别的数据,通过统计缺失数据所占的比例比较大,如果要对数据进行填补将会耗费很大的人力物力,对此认为获取这类缺失数据造成的代价太大,此外由于职业之一类别的数据分析没能对解题带来较大的帮助,而且职业指标的概念比较模糊无法准确描述这类数据的处理对现实生活和相关研究有何积极作用,因此本文不再对这一类别的数据进行统计分析。
4.3问题二分析
本文通过统计2007-2010年间的脑卒中月平均发病人数,对应选取4年间的8个气象因子:
平均气压、最高气压、最低气压、平均温度、最高温度、最低温度、平均相对湿度以及最低相对湿度,试图建立月平均发病率与气象因子之间的数学模型。
通过查询资料得知发病率等于月发病人数与发病总人数的比值,但是使用发病率建立的模型所反映的变量之间的变化趋势不明显(无量纲化处理后的原因),故本文建立发病人数与气象因素之间的模型,再用发病人数除以总人数即可得到发病率与气象因子之见的数学模型。
首先建立基于Pearson简单相关分析的模型,分析脑卒中月均患病人数与气象指标的相关关系,然后本文利用逐步回归分析建立月发病率与多项气象因素之间的预测模型,通过t值检验,逐步剔除一些对因变量影响不大的指标,直到所有指标都通过t值检验才终止计算,得到最终脑卒中月发病数与气象因素的预报模型。
最后本文认为气压与温度之间存在一定的相互关系,在逐步回归模型的基础上通过引入交叉项对模型进行改进,进一步提高模型的拟合度,完善模型。
4.4问题三分析
通过查阅资料得到脑卒中高危人群的重要特征和关键指标,结合问题一和问题二得到的结论,分别对高危人群提出预警和干预的建议方案。
对预警方案从生活、医疗和就医三个方面提出建议;对干预方案从脑卒中高危人群和非高危人群两方面提出建议。
五、模型的建立与求解
5.1问题一模型的建立与求解
脑卒中是目前威胁人类健康的严重疾病之一,它的发生是一个漫长的过程,一旦得病就很难逆转。
每年都有很多人患上脑卒中,本文通过对往年患病人群的数据进行统计,按发病人群的性别、年龄、发病年份和病人的职业进行归类总结。
根据所得的结果分析脑卒中患病人群在年龄结构上的分布情况以及在不同职业、不同性别的分布情况。
5.1.1缺失数据的处理
通过初步分析,发现原始数据存在一些缺失,对于缺失的数据针对不同的情况有不同的处理方式。
2007-2010年间共61923例脑卒中发病数,其中缺失信息数据经过整理得到下表
表1:
缺失个数及其占总数据百分比
类别
性别
年龄
月份
缺失个数
12
151
38
所占百分比
0.0002%
0.24%
0.0006%
通过表1可以看到按性别、年龄和月份为类别的数据中,缺失数据的个数占总数的百分比都非常小,本文认为对总体统计处理所造成的影响很小,因此这三个类别的缺失数据可以采用直接删除数据,对剩余的数据进行统计分析。
5.1.2按不同类别统计数据
李翠花[2]曾总结了脑卒中的患病因素有高血压、心脏病、肥胖、糖尿病以及抽烟酗酒等
本文通过Excel对2007-2010年四年中脑卒中发病情况进行整理分析,分别从性别、年龄结构、发病时间和职业四个方面进行初步分析。
通过网上搜索资料得知脑卒中的发病与高血压、心脏病、肥胖、糖尿病和吸烟酗酒等有很大的关系,本文通过患病人群的性别分布、年龄结构以及患病人群的从事职业的统计结果分别分析脑卒中病因与相关统计结果的关系。
1)按性别统计
对于2007-2010年的数据,本文通过统计4年中男性患者的总人数和女性患者的总人数,作出患病人群的性别比例,结果如下图
图1:
患病人群男女比例
根据图1得知男性患脑卒中的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 逐步回归 脑卒中 发病 环境 因素 分析 干预 模型