高教社杯全国大学生数学建模竞赛CUMCM国家一等奖优秀论文C题目论文.docx
- 文档编号:24781956
- 上传时间:2023-06-01
- 格式:DOCX
- 页数:38
- 大小:60.84KB
高教社杯全国大学生数学建模竞赛CUMCM国家一等奖优秀论文C题目论文.docx
《高教社杯全国大学生数学建模竞赛CUMCM国家一等奖优秀论文C题目论文.docx》由会员分享,可在线阅读,更多相关《高教社杯全国大学生数学建模竞赛CUMCM国家一等奖优秀论文C题目论文.docx(38页珍藏版)》请在冰豆网上搜索。
高教社杯全国大学生数学建模竞赛CUMCM国家一等奖优秀论文C题目论文
2012高教社杯全国大学生数学建模竞赛
承诺书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。
如有违反竞赛规则的行为,我们将受到严肃处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D中选择一项填写):
C
我们的参赛报名号为(如果赛区设置报名号的话):
所属学校(请填写完整的全名):
(隐去论文作者相关信息等)
日期:
2012年9月10日
赛区评阅编号(由赛区组委会评阅前进行编号):
2012高教社杯全国大学生数学建模竞赛
编号专用页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用):
评
阅
人
评
分
备
注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
脑卒中发病环境因素分析及干预
摘要:
脑卒中逐渐威胁人们的生活,本文主要针对脑卒中发病病例信息和受病环境因素进行统计分析,从实际数据结果加深对脑卒中的认识,旨在对脑卒中加以预防。
针对问题一,先主要借助于EXCEL编程及筛选功能、MATLAB辅助编程对附件数据进行错误修复及标准化处理,得到2007~2010年期间有效数据的发病年、月、日,然后在EXCEL中分别按性别、年龄、职业、时间(包括年、月、日)四个字段对发病人数进行统计,并以图、表的形式予以展示,最后总结出脑卒中患者男女性别比为:
1、集中患病年龄段为71~80岁、高危职业为农民、存在一定季节性等结论,该问属于一般的数据统计分析模型。
针对问题二,先对患者按照天来统计四年每天的发病人数(共1461条数据),再将气象数据与发病人数按天进行关联构成新的源数据,同时计算每天的气压差、温差,最后以发病率为因变量,以平均气压、最高气压、最低气压、气压差、平均温度、最高温度、最低温度、温度差、平均湿度、最低湿度10个特征为自变量进行多元线性回归,其步骤是先画因变量与自变量的散点图观测它们的关系,再利用SPSS软件统计所有变量之间的相关性,最后进行多元逐步回归分析。
结果表明:
①发病率与这10个指标的相关性并不大,但整体上与最低气压、最高温度和温差呈正相关、与平均湿度和气压差成负相关;②发病率与平均湿度直接线性相关,逐步回归的模型为
,且模型检验为F=、Sig.=,表明该模型通过显着性检验;③再次以平均湿度为因变量,以气压和温度为自变量进行逐步回归发现,平均湿度受温差、平均气压影响,这间接地对脑卒中发病率产生影响。
针对问题三,通过查阅资料文献得到脑卒中高危人群的重要特征和关键指标、主要诱发因素,并结合问题一和问题二中的相关结论对脑卒中高危人群进行了预警和干预建议。
最后,本文对模型进行了检验及评价分析,用2007~2010年的发病数据进行回代检验,两者绝对距离小于1的比例为86%。
同时,本文的分析可以推广应用到其它疾病、农作物收成等受环境、气候影响的分析及预警评估中。
关键词:
脑卒中,环境因素,统计分析,多元线性回归,逐步回归,显着性检验,预警,回代检验
一、
问题重述
随着社会的发展,人们生活水平不断提高,但与此同时,伴随着城市化进程加快,人口密度加大,生活节奏加快和膳食结构改变等不良现象,一些严重威胁人们身体健康的疾病发生,心脑血管疾病以其高死亡率而越来越引起人们的关注。
其中脑卒中(俗称脑中风,包括脑出血、蛛网膜下腔出血和脑梗塞,脑出血和蛛网膜下腔出血均属心脑血管疾病)是目前威胁人类生命的严重疾病之一,目前对脑卒中尚无特效治疗方法或令人满意的治疗效果,因此积极预防尤为重要。
随着人们对预防疾病和保证健康生活方式的重视,气候变化对人类健康的影响也倍受关注,国内外许多研究表明气象要素的变化对心脑血管疾病有着重要影响。
因此研究气象要素与心脑血管疾病之间的关系对于防病和治病具有重要的现实意义。
脑卒中的发生是一个漫长的过程,一旦得病就很难逆转。
对脑卒中的发病环境因素进行分析,其目的是为了进行疾病的风险评估,对脑卒中高危人群能够及时采取干预措施,也让尚未得病的健康人,或者亚健康人了解自己得脑卒中风险程度,进行自我保护。
同时,通过数据模型的建立,掌握疾病发病率的规律,对于卫生行政部门和医疗机构合理调配医务力量、改善就诊治疗环境、配置床位和医疗药物等都具有实际的指导意义。
数据(见Appendix-C1)来源于中国某城市各家医院2007年1月至2010年12月的脑卒中发病病例信息以及相应期间当地的逐日气象资料(Appendix-C2)。
请建立数学模型,解决如下问题:
问题一:
根据病人基本信息,对发病人群进行统计描述。
问题二:
建立数学模型研究脑卒中发病率与气温、气压、相对湿度间的关系。
问题三:
查阅和搜集文献中有关脑卒中高危人群的重要特征和关键指标,结合问题一、问题二中所得结论,对高危人群提出预警和干预的建议方案。
二、问题分析
本文主要目标是要分析脑卒中受发病环境因素的影响关系以及对应的预防措施,其总体研究方法是通过对现有数据进行统计规律分析,找出脑卒中的发病率与环境因素(温度、湿度、大气压)的关系描述,并通过查询资料文献了解脑卒中高危人群的重要特征及常见的预防脑卒中的预防措施,最后再结合第一问和第二问分析的结果对高危人群提出预警和干预的建议方案,旨在提高对脑卒中的防护能力。
鉴于此目的,针对本文具体3个问题,可以进行如下分析:
针对问题一的分析
本问题主要根据附件(Appendix-C1)中四个文件中的脑卒中发病病例信息进行相关统计分析,这些病例信息指标主要有性别、年龄、职业、发病时间、诊断时间,为了对发病人群进行统计描述,本文主要从以下几点进行考虑:
1.按性别统计,包括总人数、主要集中年龄段、高危职业名称、发病与诊断时间的间隔(判断该病的潜伏性);
2.按年龄段统计,包括该年龄段内的性别、人数、比例、高危职业、发病与诊断时间的间隔;
3.按职业统计,包括该职业内的发病人的性别、集中年龄段、发病与诊断时间的间隔;
4.分别按发病年、月统计(发病年月和诊断年月基本一致),包括性别、年龄段、高危职业等。
但是从附件数据中发现,在“Timeofincidence(发病时间)”和“Reporttime(诊断报告时间)”中存在不同的时间格式以及错误(如:
####或空格),因此在对数据进行统计分析前,需要首先对数据进行修复,根据一定修复原则将一些明显的错误信息(如发病时间为5008/7/31、诊断报告时间为27/09/2008情况下,很明显5008应该是2008)。
同时,从附件数据中易发现,部分诊断时间没有数据,而且诊断时间比较混乱,错误比较多,因此本文将不对诊断报告时间进行分析,进而也将不统计发病与诊断时间的间隔。
最后在修复完成后的基础上按上述思想进行脑卒中的发病信息统计,其统计的工具主要是EXCEL,利用EXCEL丰富的公式编辑、筛选、绘图、统计等功能进行处理。
针对问题二的分析
本问题欲研究脑卒中发病率与气温、气压、相对湿度间的关系,主要需要注意以下几点:
1.在第一问已修复的数据基础上进行发病率统计,主要统计方法是通过EXCEL的筛选功能和编写程序统计出在2007~2010年期间每一天的发病人数,进而可以计算出按天及按月的发病率;
2.对附件(Appendix-C2)中数据文件进行整理及统计计算,先按天统计2007~2010年期间每一天的气象信息(温度、湿度、大气压),并计算出每一天的温度差、气压差,再按月分别统计这四年中的8种指标(平均气压、最高气压、最低气压、平均温度、最高温度、最低温度、平均湿度、最低湿度)每月的各个平均值、最大值、最小值;
3.将1和2统计或计算的数据进行一一关联,构造后续分析的数组。
从上面的统计数据可以看出,该问是一个多元统计问题[1],即分析脑卒中发病率与温度、湿度、大气压的各种指标的关系,主要分析思想如下:
1.先整体按天(2007~2012年共1461天)分析,分析过程为:
①在EXCEL中画出发病率与各个统计指标的散点图,从直观上寻求发病率与它们是否有明显的规律(如线性相关);②利用SPSS统计软件对所有数据进行相关性分析,分析两两之间的相关性;③利用SPSS软件进行多元线性回归,分析回归结果是否通过显着性检验;④由于某些变量之间存在非常大的互相关(如温度之间的三个指标互相关系数都比较大),因此需要对多个变量进行筛选,可用的方法为多元线性逐步回归法(可以借助于SPSS统计软件中的逐步回归选项或MATLAB中的stepwise逐步回归工具箱);⑤如果不存在前面操作没有求出发病率与温度、湿度、大气压的相关表达式,则继续按后续方法进行分析处理;
2.然后按照每月或季节的数据进行类似分析;
3.按照温度、湿度、大气压三类进行单因素相关性分析,先选择其中两个特征变化很小或在一个指定范围内变化的数据,对发病率与第三个指标进行相关性分析,通过此方法进行单因素分析。
整个过程需要做大量的统计分析,包括绘图及数据归纳整理,主要工具有EXCEL、SPSS、MATLAB。
针对问题三的分析
本问题首先要通过资料文献了解脑卒中高危人群的重要特征和关键指标、脑卒中的主要诱发因素、常见的预防措施、已有的某些地区对脑卒中发病的统计信息和规律,根据这些信息最大化地提取关于脑卒中发病的指标,再结合问题一、问题二中所得结论,可以根据所查到的关键指标、气象信息、时间序列进行预测模型的建立,如多指标影响因素的多元线性或非线性回归、神经网络预测模型、时间序列预测等等,最后对高危人群提出预警和干预的建议方案。
三、模型假设及符号说明
基本假设
1.假设附件中的数据除空格、R###等本身有误外其它数据是合理可靠的。
2.假设附件数据中每一位病人都属于不同的人。
3.假设除环境因素(温度、湿度、大气压)外,影响脑卒中发病的其他因素保持不变。
4.假设当地人口不发生较大的变动,死亡率与出生率相近。
5.假设2007~2010数据四年间,没有发生重大自然灾害。
6.假设当地医疗环境相当,数据代表整个城市数据,数据具有代表性。
符号说明
:
某天(月或其它统计范围)的年发病率
:
某天(月或其它统计范围)的发病人数
:
某年的总发病人数
:
自变数个数
:
因变数
…
:
自变数
:
各个自变数
对依变数
的各自效应;
:
自效应的集合
基本定义
发病率:
式
(1)
四、模型建立及求解
针对问题一的模型建立及求解
由问题分析可知,这属于多信息变量的统计描述模型,该问题主要是对脑卒中发病者信息进行统计描述,其方法是分别对脑卒中患者病历信息——性别、年龄、职业、发病时间进行统计,全部操作在EXCEL中进行。
4.1.1附件数据的修复处理
由于附件中的患者病例信息有许多格式错误及信息不完整,在进行统计描述前,有必要对数据做修复处理,本文的修复过程及方法如下:
1.年龄(Age)字段中存在大于110岁(如799)、0岁的信息,本文处理方法为将区间[1110]之间的数据作为有效值,其余的全视为该患者年龄信息缺失。
2.职业(Occupation)字段中存在1-8之外的数据(如9、工等异常),可能是数据录入错误,也可能是还有其它类的职业没在附件中说明,本文处理方法为将1-8之外的数据视为其他职业段。
3.发病时间(Timeofincidence)字段存在日期格式错误(如15-06-20082007/1/1)不统一,需要对时间数据进行修复及标准化处理,处理原则有以下几点:
①类似“2009-0-24”的数据丢失了月份信息,此类数据认为是错误数据,不统计在2007~2010期间内;
②类似“发病时间为5008/7/31、诊断报告时间为27/09/2008”存在明显错误的数据,5008应该修复成2008;
③类似“31/12/2009”的数据不是EXCEL标准的时间格式,为了便于在EXCEL中快速按年、月、日进行统计分析,有必要对非标准的日期数据进行标准化处理,其方法可以通过在一单元格中进行编写公式进行字符串处理,假设“31/12/2009”所在的单元格为“D2”,则计算标准化的日期格式(2009/12/31)的公式为“=DATE(RIGHT(D2,4),MID(D2,4,2),LEFT(D2,2))”;
④类似“发病时间为20110/05/09、诊断报告时间为2010-08-08”的数据,直接视为无效数据;
⑤类似“2009/0/24”的数据也视为无效数据。
4.1.2脑卒中患者信息统计分析
通过上述数据修复过程后,将得到标准格式的脑卒中患者信息数据,现按照模型分析的思路对脑卒中病例信息进行统计描述,其核心方法是在EXCEL中利用“COUNTIF”函数对某条件进行筛选后统计患者人数、及“COUNTIFS”函数对多重条件进行筛选后统计患者人数,具体操作界面截图见附录B-1。
4.1.2.1按性别统计
对男女性别分别进行筛选,以年为单位,将四年的数据信息进行统计,2007~2010年按性别的脑卒中发病人数统计如表1所示,2007~2010年男女患病人数统计图如图1所示。
表12007~2010年按性别的脑卒中发病人数统计表
性别
年统计人数
附件总数据
2007-2010年总
2007
2008
2009
2010
男
33385
33367
7302
10384
5198
10483
女
28526
28506
5940
8659
4805
9102
丢失信息
12
12
0
12
0
0
男女比
:
1
:
1
:
1
:
1
:
1
:
1
图12007~2010年男女患病人数统计图
从表1及图1可以看出,2007年男女患者之比达:
1,男性比女性更容易患脑卒中这类疾病,可能原因有以下几点:
一是男性高血压多于女性;二是男性吸烟与饮酒者多于女性;三是男性从事体力劳动较多,突然用力可能诱发中风。
4.1.2.2按职业统计
按职业字段进行筛选得到2007~2010年各职业患病人数统计数据如表2所示。
表22007~2010年各职业患病人数统计表
2007~2010年按职业统计数据
职业
发病人数
性别
编号
名称
男
女
1
农民
29750
14644
15084
2
工人
4856
3108
1745
3
退休人员
6646
4126
2517
4
教师
216
163
53
5
渔民
66
43
23
6
医务人员
90
65
25
7
职工
735
513
220
8
离退人员
1751
1181
570
其它或缺失
其它或缺失
17775
9524
8268
从表中看出农民患病人数为29750,属于较多人群,为高危职业,而医务人员等明显较低,这与工作强度相关。
图22007~2010年各职业患病人数统计图
可以得出结论:
经济收入较高的人群较收入低的人群脑卒中发病率低,户外重体力劳动者发病率较高。
4.1.2.3按年龄统计
针对职业统计中,退休人员所占比例较大说明与年龄有关,对年龄进行筛选,将年龄分为各个阶段,统计出每年中不同年龄段的患病人数,以2007-2008年为例进行如表3所示的描述,各年详细数据见附录A-1。
表32007-2008年各年龄段内患病人数统计表
2007
2008
患病人数
男
女
患病人数
男
女
1--10
17
10
7
50
15
35
11--20
7
4
3
14
9
5
21--30
35
16
19
57
32
25
31--40
155
96
59
235
173
62
41--50
614
374
240
865
566
298
51--60
1861
1135
726
2547
1514
1033
61--70
3069
1784
1285
4669
2803
1864
71--80
4842
2678
2164
6648
3496
3147
81--90
2309
1051
1258
3549
1609
1936
91--100
170
57
113
249
82
167
101--110
3
3
0
4
2
2
其他
126
76
50
25
12
13
图32007~2010年各年龄阶段的患病人数图
由图3可见,患病人数随年龄的增加而增加,上升速度以50到60上升较快,61岁以上的人群脑卒中的高发群体,集中年龄段在71-80岁之间,说明脑卒中以老年人居多,且脑卒中患者呈年轻化的趋势。
进一步按照各年龄段,对男女患者发病人数的进行区分,可得图4所示。
图42007~2010四年期间各年龄阶段男女患病人数图
可见,男女高峰年龄段一致;男性在41~71岁之间,患病人数明显高于女性;71岁以后患病明显回落,且低于女性发病人数,可知男性发病早于女性,同时这现象可能是由于高龄组死亡率持续增高所致。
但无论男女,构成随着年龄增加而增加,这与其在年龄发病相符。
4.1.2.4按时间统计
按年份对发病人数进行统计,得到发病人数统计图如图5所示。
图5脑卒中患者按年的统计人数分布
从上图可以看出,附件总数据为61923条,但2007~2010间有效的数据为61885条,本文做的统计描述均是针对2007~2010期间内。
按月份对发病人数进行统计,得到发病人数统计表如表4所示。
表42007~2010年各月患病人数统计表
月份
07年发病人数
08年发病人数
09年发病人数
10年发病人数
2007-2010年总发病人数
1
935
1827
872
1760
5394
2
732
1961
848
1487
5028
3
1019
1918
830
1724
5491
4
1069
1758
860
1699
5386
5
1072
1776
876
1882
5606
6
1032
1517
793
1610
4952
7
1014
1500
931
1757
5202
8
1197
1366
934
1680
5177
9
1221
1272
829
1632
4954
10
1374
1461
759
1718
5312
11
1208
1378
664
1565
4815
12
1369
1321
807
1071
4568
图62007-2010年总发病人数随月份的变化曲线
从2007~2010年逐年脑卒中发病人数的月分布发现,该病以春节多发,高峰出现在3~5月,1月为次高峰,6~9月发病较为平缓,12月出现低谷期。
由此可见发病存在一定的季节差异,脑卒中春季高于其他季节,而夏、秋、冬三季发病差异不大。
利用EXCEL中的“COUNTIFS”函数对脑卒中病例数据进行多重筛选统计患者数量,得到2007~2010四年每天的发病人数,其曲线如图7所示。
图72007-2010年总发病人数随天的变化曲线
根据式
(1)求出2007~2010四年内每天的发病率,其发病率随时间的变化曲线如图8所示。
图82007-2010年发病率随天的变化曲线
从图7和图8可以看出,2007~2010四年内每天发病人数变化不大,每天的发病率基本保持不变。
但是如果按天进行统计分析,每天的随机误差容易对结果造成影响,再每月的均值作为统计对象进行分析,四年内每月的发病率百分比曲线如图9所示。
图92007-2010年发病率随月的变化曲线
从图9可以看出,月发病率随时间呈周期性波动,具有一定的季节性。
4.1.2.5重要结论
(1)脑卒中的发病有年集中趋势,更呈增长趋势;
(2)发病存在时间差异,春节为高发季,1月为高峰月;
(3)患者人数男性多于女性,性别比重为:
1;
(4)工作性质对脑卒中发病有直接影响,农民为高危职业;
(5)脑卒中发病处于老年阶段,集中年龄段为71~80,且逐年呈年轻化发展。
针对问题二的模型建立及求解
由问题分析可知,问题二属于一个多元统计分析模型,目标是研究因变量发病率与自变量温度(包括平均温度、最高温度、最低温度、温度差)、湿度(包括平均湿度、最低湿度)、气压(平均气压、最高气压、最低气压、气压差)之间的关系,本文主要从多元线性或非线性回归模型上进行分析。
4.2.1数据归纳与统计
附件(Appendix-C2)中的数据已经给出了2007-2010年每天对应的气象数据,可以在这基础上对气象数据进行进一步细化:
(1)计算每天的气压差与温差,最终得到2007~2010年期间每一天的气象特征信息——平均气压、最高气压、最低气压、气压差、平均温度、最高温度、最低温度、温度差、平均湿度、最低湿度等10个特征变量;
(2)按月份统计所有数据中每月的最大值及最小值情况。
最后将第一问进行统计出的发病率情况与气象数据信息进行一一关联,得到最终待分析的数据集,其数据形式如表5所示。
表5数据归纳统计形式
按天统计
时间
发病人数
发病率
发病率千分比
平均气压
最高气压
最低气压
平均温度
最高温度
最低温度
平均湿度
最低湿度
气压差
温度差
2007/1/1
98
86
71
2007/1/2
32
6
84
73
2007/1/3
33
5
86
77
2007/1/4
36
82
78
2007/1/5
34
1029
5
84
76
4.2.2多元回归分析过程
多元回归分析包括多元线性回归及多元非线性回归,判断方法主要通过绘制因变量与各个自变量之间的散点图,首先直观分析因变量与自变量的关系,如果从散点图可以看出明显的线性关系,那么可以考虑通过多元线性回归进行分析;如果从散点图并不能发现明显的线性规律,可能是呈非线性,也可能是多个自变量之间的耦合关系的影响,需要进一步分析才能决定。
4.2.2.1多元线性回归数学模型
若依变数Y同时受到m个自变数X1、X2、…、Xm的影响,且这m个自变数皆与Y成线性关系,则这m+1个变数的关系就形成m元线性回归。
因此,一个m元线性回归总体的线性模型为:
式
(2)
其中,
~N(0,
)。
相应
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 高教 全国大学生 数学 建模 竞赛 CUMCM 国家 一等奖 优秀论文 题目 论文