数学建模++医学肾炎化验分析报告模型.docx
- 文档编号:23575629
- 上传时间:2023-05-18
- 格式:DOCX
- 页数:33
- 大小:112.62KB
数学建模++医学肾炎化验分析报告模型.docx
《数学建模++医学肾炎化验分析报告模型.docx》由会员分享,可在线阅读,更多相关《数学建模++医学肾炎化验分析报告模型.docx(33页珍藏版)》请在冰豆网上搜索。
数学建模++医学肾炎化验分析报告模型
2008年中央民族大学数学建模选拔赛
医
学
肾
炎
化
验
分
析
模
型
参赛队员:
姓名:
李元学院:
信息工程学院专业:
自动化年级:
06级
姓名:
张义学院:
理学院专业:
信息与计算科学年级:
06级
姓名:
许经超学院:
理学院专业:
信息与计算科学年级:
06级
医学肾炎化验分析模型
摘要
此数学模型的建立主要是为了解决这样的问题,通过检测人体内相关微量元素的含量来判定一个人是否患肾炎。
因而在此数学模型中,自变量为体内若干种微量元素的含量,因变量作为判定一个人是否患病的主要数据,做如下设定,当被确诊为患病时,设为1,被确诊为健康时,设为0.我们通过对数据的基本分析和判别,试图通过线性回归模型解决这个问题,经过查阅相关资料,了解到logistic模型被广泛应用于病理学研究中作为研究模型,于是利用excel中的回归工具建立logistic回归模型,计算出该线性方程的常量和系数从而完成模型的初步建立。
然后利用回归统计表、方差分析表中、回归参数表等中的数据进行分析,来衡量线性回归的拟合度,以及线性方程中各参数的显著性,发现其回归程度较好,又通过将表1和表2中已确诊的数据代入,对60例受检者的数据进行判别,若大于0.5则判定为患病,若小于0.5则判定为健康。
对应的logit(p/(1-p))为正数时候患病,为负数时为健康。
发现该模型在本题判断中的正确率高达93.33%,预测能力显著。
诊断待测病人,将表3中的数据代入计算其患病概率,判别标准同上所述,得出受检者中有15人健康,15人患病的结论。
回归参数表中回归系数的统计量的线性系数显著性t值,表征了该系数的显著性水平,也表征了该项因素对于因变量判定的影响程度。
因此以此为衡量的标准来筛选7项相关因素,找到系数显著性最小三种元素,分别为Na,Zn,K;我们又用排列组合的方法分别删除其中的一种、两种和三种元素,分别计算此时代入前60组数据时的准确度,通过比较从而确定主要影响元素。
保留了Ca,Cu,Fe,Mg四种元素,除去非主因素的干扰,用同样的方法重新计算该模型各系数的数值,在保证较高准确率的前提下,最终达到了简化检测过程的目的。
利用排除非显著性元素后的Logistic模型,将表3中的数据代入计算其患病概率,判别标准同上所述,得出受检者中有16人健康,14人患病的结论。
关键词:
logistic回归模型主因素筛选显著性检验
一、问题的提出与分析
提出问题:
病理检验的一些指标是医生诊断病人病症的主要依据。
诊断人员是否患肾炎时通常要化验人体内各种元素含量。
表1列出了60个病理检验结果,其中1-30号病例是已经确诊为肾炎病人的化验结果;31-60号病例是已经确定为健康人的结果。
表2给出了另外一些就诊人员的化验结果。
我们的工作是:
1.根据表1中的数据,提出一种或多种简便的判别方法,判别属于患者或健康人的方法,并检验提出方法的正确性。
2.按照1提出的方法,对表2中的30名就诊人员的化验结果进行判别,判定他们是肾炎病人还是健康人。
3.根据表1的数据特征,确定哪些指标是影响人们患肾炎的关键或主要因素,是否可以减少化验的某些指标。
4.根据3的结果,重复2的工作。
分析问题
根据以上均值分析可知,就诊者是否患肾炎可能取决于其体内各元素含量数值上的增减或各元素含量占元素总含量的比例失衡。
而在初步的数据分析下,肾炎产生的主要原因还无法得到确定,这无疑给以后数学模型的建立和求解带来了不便。
另外,对于题目给出的化验结果,在一般情况下,都希望能对它们进行数据的规范化处理,以避免含量差别很大的两种元素在改变一个单位含量时对是否患病的结果产生的影响程度相差过大。
以下7张图是健康人和病人体内元素含量的坐标图,以及存有相关数据的表格,通过这些图我们可以发现,体内元素的含量与病人的患病诊断具有一定的线性对应关系,因此我们设想,可以用线性回归的方法来构建模型,同时,我们通过查阅资料也得知,在临床上也的确经常使用这种模型去解决问题。
我们看到,7种微量元素的数值,可以作为7个自变量,而是否患病的判别概率,作为因变量。
此数学模型的建立主要是为了解决这样的问题,通过检测人体内相关微量元素的含量来判定一个人是否患肾炎。
因而在此数学模型中,自变量为体内若干种微量元素的含量,因变量作为判定一个人是否患病的主要数据,做如下设定,当被确诊为患病时,设为1,被确诊为健康时,设为2.这样就建立了一个多元方程,因此我们选择多元统计分析中利用excel中的回归工具建立logistic回归模型,计算出该线性方程的常量和系数,从而完成模型的初步建立。
回归分析工具是通过对一组观察值使用“最小平方法”进行直线拟合,以分析一个几个自变量对单个因变量的影响方向与影响程度的方法。
它是Excel中数据分析工具的一个内容。
然后利用回归统计表、方差分析表中、回归参数表等中的数据进行分析,来衡量线性回归的拟合度,以及线性方程中各参数的显著性。
同时,将表1和表2中已确诊的数据代入,检测本模型在进行诊断时的正确率。
诊断待测病人,将表3中的数据代入计算其患病概率,若大于0.5则判定为患病,若小于0.5则判定为健康。
同时,我们也看到,在图中的一些点的规律性并不明显,因此我们猜测,可以在构建的方程中忽略一些因素的影响,这就为我们提出简化模型提供了思路。
回归参数表中回归系数的t统计量的p值,表征了该系数的显著性水平,也表征了该项因素对于因变量判定的影响程度。
因此以此为衡量的标准来筛选7项相关因素,保留其中的主因项,去除非主因素的干扰,重新构建模型,以达到简化模型和提高精度的目的。
二、基本假设
(1)假设表中给出化验数据科学可信。
确诊病例确诊情况(患病、健康)准确无误。
(2)假设各位被测患者无其他疾病,不会干扰被测数值。
(3)假设医生不会仅仅依靠化验结果对患病情况作出最终判断,化验仅仅作为医生诊断的一种辅助手段,所以化验结果单方面的现实结果可以跟实际有一定程度的偏差。
三、符号说明
Logit(p),p的Logistic变换
i=1,2,3,4,5,6,7线性方程中的变量
i=1,2,3,4,5,6,7y与
的复相关系数
i=1,2,3,4,5,6,7线性方程中
的系数
F检验统计量
回归方程的显著性检验中的显著性水平
根据分子自由度1和分母自由度n-2找出的临界值,由查表得出
四模型的建立与求解
4.1.模型的建立
从上述对数据的分析中,我们可以看到要建立的模型的因变量只有两个值,分别为患病和健康,由此可以考虑应用BinaryLogistic模型。
我们把Y=0定义为该受检者健康,Y=1定义为该受检者患病,以p作为受检者患病的概率,并把p看做自变量Xi的线性函数,即
(k=7)
在此假设下,由于p的值一定在区间[0,1]内,而且当p接近于0或1时,自变量即使有很大变化p的值也不可能变化很大,所以对上式直接用最小二乘法进行估计时行不通的。
从数学上看,函数p对Xi的变化在p=0或p=1附近是不敏感的、缓慢的,且非线性程度较高。
于是要寻求一个p的函数θ(p),使得它在p=0或p=1附近时变化幅度较大,
而函数的形式又不是很复杂。
因此,我们引入p的Logistic变换(或称为p的Logit变换),
即
,
当P在(0,1)变化时,logit(p)就在全体实数上变化。
我们有下面的变换公式:
等价于:
在拟合Logistic回归模型时,我们要建立因变量概率pi关于自变量的关系式,自变量都必须是数值型的。
拟合Logistic回归模型采用最大似然估计法。
4.2.问题的求解
4.2.1对模型的线性回归及对第一个问题的求解
4.2.1.1模型的线性回归
将数据导入Excel软件中,利用软件的“回归”函数,可以方便地得到线性回归模型的相关信息。
在进行回归时,选取置信度为95%。
于是可以得到该线性回归的回归统计、方差分析与回归参数,具体数值见下表。
回归统计
MultipleR
0.820977
RSquare
0.674003
AdjustedRSquare
0.629258
标准误差
0.307012
观测值
59
表4.2.1.1回归统计
一个要素或变量同时与几个要素或变量之间的相关关系。
复相关系数是度量复相关程度的指标,它可利用单相关系数和偏相关系数求得。
设因变量为Y,自变量为X1,X2,……Xk,则Y与X1,X2,……Xk的复相关系数记为Ry·12……k,其计算式为Ry·12……k=
复相关系数越大,表明要素或变量之间的线性相关程度越密切。
从表中可以看出,该回归模型复相关系数R的值达到了0.820977,这说明七种元素的含量与人的患病呈高度相关性。
df
SS
MS
F
SignificanceF
回归分析
7
9.938688
1.419813
15.06331
1.75794E-10
残差
51
4.807074
0.094256
总计
58
14.74576
表4.2.1.2方差分析
从图表中我们看到,F统计量的概率P值达到了0.000000000175794,远小于显著水平0.05,说明方程回归效果显著,方程中至少有一个回归系数显著不为零。
Coefficients
标准误差
tStat
P-value
Lower95%
Upper95%
下限95.0%
上限95%
Intercept
0.892219
0.184417
4.838054
1.25E-05
0.521987
1.262451
0.521987
1.262451
166
-0.00036
0.00101
-0.36083
0.71972
-0.00239
0.001663
-0.00239
0.001663
15.8
0.016483
0.004182
3.941917
0.000247
0.008089
0.024878
0.008089
0.024878
24.5
-0.00162
0.000866
-1.86433
0.068035
-0.00335
0.000124
-0.00335
0.000124
700
-0.0003
6.32E-05
-4.73058
1.81E-05
-0.00043
-0.00017
-0.00043
-0.00017
112
-0.00094
0.000604
-1.56472
0.123832
-0.00216
0.000267
-0.00216
0.000267
179
-6.5E-05
0.00031
-0.20962
0.834799
-0.00069
0.000557
-0.00069
0.000557
513
0.000301
0.000222
1.359492
0.179972
-0.00014
0.000746
-0.00014
0.000746
表4.2.1.3回归参数表
4.2.1.2回归方程的显著性检验
回归方程的检验
假设H0代表线性关系不显著
计算检验统计量F
通过查F分布表,F(1,5)=6.61,F=15.06331,F>F(1,5),所以该线性模型线性显著,可以应用于对问题的分析。
表中可以找到线性回归模型中线性函数的各项系数值,由此可以得到
中,
b0=0.892219,b1=-0.00036,b2=0.016483,b3=-0.00162,b4=-0.0003,
b5=-0.00094,b6=-6.5E-05,b7=0.000301。
在以上假设下,若概率p大于0,则代表受检者健康未患病,反之,则受检者极有可能患病。
对应每个受检者的各种元素含量,在Excel软件中利用上述公式计算出其患病概率p,可以看到,Logistic模型下计算出来的p的计算公式对前面给出的六十组数据的判断正确率达到了93.33%。
(具体结果见附录)
4.2.2模型在实际检测中的应用及对第二个问题的解决
有了上一节中的公式,我们可以将这个模型计算出来的p应用于实际病例的判别。
只要给出某一个受检者体内各种元素的含量,就能应用此计算公式算出其患病几率,我们以0为参照,对有无患病的判断标准如上节所述,则可在Excel中计算出待判定的30组受检者患病的p值。
具体数据如下。
病例号
Zn
Cu
Fe
Ca
Mg
K
Na
p
Logit(p)
是否患病
61
58.2
5.42
29.7
323
138
179
513
0.8
1.6
1
62
106
1.87
40.5
542
177
184
427
0.6
0.4
1
63
152
0.8
12.5
1332
176
128
646
0.5
-0
0
64
85.5
1.7
3.99
503
62.3
238
763
0.9
2.1
1
65
144
0.7
15.1
547
79.7
71
219
0.6
0.6
1
66
85.7
1.09
4.2
790
170
45.8
258
0.5
0.2
1
67
144
0.3
9.11
417
552
49.5
142
0.2
-1
0
68
170
4.16
9.32
943
260
155
681
0.6
0.2
1
69
176
0.57
27.3
318
133
99.4
319
0.7
0.7
1
70
192
7.06
32.9
1969
343
103
553
0.1
-2
0
71
188
8.28
22.6
1208
231
1314
1372
0.7
0.7
1
72
153
5.87
34.8
328
163
264
673
0.8
1.5
1
73
143
2.84
15.7
265
123
73
348
0.8
1.2
1
74
213
19.1
36.2
2220
249
62
466
0.3
-1
0
75
192
20.1
23.8
1606
156
40
168
0.5
0.1
1
76
171
10.5
30.5
672
145
47
331
0.7
0.9
1
77
162
13.2
19.8
1521
166
36.2
133
0.4
-0
0
78
203
13
90.8
1544
162
98.9
395
0.4
-0
0
79
164
20.1
28.9
1062
161
47.3
135
0.7
0.8
1
80
167
13.1
14.1
2278
212
36.5
96.5
0.2
-2
0
81
164
12.9
18.6
2993
197
65.5
238
0
-7
0
82
167
15
27
2056
260
44.8
72
0.2
-1
0
83
158
14.4
37
1025
101
180
900
0.9
1.9
1
84
133
22.8
31.3
1633
401
228
289
0.4
-1
0
85
169
8
30.8
1068
99.1
53
817
0.7
1.1
1
86
247
17.3
8.65
2554
241
77.5
374
0.2
-1
0
87
185
3.9
31.3
1211
190
134
650
0.5
-0
0
88
209
6.43
86.9
2157
288
74
220
-0
###
0
89
182
6.49
61.7
3870
432
143
368
-1
###
0
90
235
15.6
23.4
1806
166
68.9
188
0.4
-0
0
表4.2.2.1对待测受检者是否患病的判定结果
于是我们可以判定,在待判定的30位受检者中,有15位患有肾炎。
患病
健康
总共
总共
15
15
30
百分比
50%
50%
100%
表4.2.2.2判定结果
4.2.3对主要影响元素的判定及第三个问题的解决
从表4.2.1.3中,七种元素的回归系数显著性由高到低顺序为Ca,Cu,Fe,Mg,Na,Zn,K。
由此我们假设回归系数显著性较小的几种元素对是否患肾炎的影响有限,可以忽略不计,并加以检验,以期能够得到一个更为简化的判定方法。
在Mg、Na、Zn、K几种回归系数显著性较低的元素中,我们将各种元素进行组合排除。
将Mg、Na、Zn、K分别去掉,比较去掉后该回归的各个参量的值,以标准误差和正确率作为评判假设是否合理的依据。
再将Mg、Na去除,重新建立回归模型,以相同标准进行评判。
同理,分别把Mg、Zn,Mg、K,Na、Zn,Na、K,Zn、K等作为一组,进行评判。
最后依照相同的方法每三个、每四个进行分组,均依上述标准评判,具体分组不再赘述。
下面仅就回归后标准误差最小的两组给出分析结果。
假定一:
我们假设K和Mg含量的差异对患病无影响,按照上面的p值计算公式带入其余5中元素含量,对已知60位受检者的健康状况进行分析,结果如下表。
病例号
Zn
Cu
Fe
Ca
Na
是否健康
p
Logit(p)
判定结果
1
166
15.8
24.5
700
513
1
0.85222
1.7520974
1
2
185
15.7
31.5
701
427
1
0.80426
1.4131575
1
3
193
9.8
25.9
541
642
1
0.83486
1.6205005
1
4
159
14.2
39.7
896
726
1
0.78407
1.2895389
1
5
226
16.2
23.8
606
218
1
0.78408
1.2896171
1
6
171
9.29
9.29
307
257
1
0.87136
1.9130538
1
7
201
13.3
26.6
551
141
1
0.7584
1.1439461
1
8
147
14.5
30
659
680
1
0.88959
2.0865774
1
9
172
8.85
7.86
551
318
1
0.79393
1.3487722
1
10
156
11.5
32.5
639
552
1
0.81547
1.4859242
1
11
132
15.9
17.7
578
1372
1
1.12931
#NUM!
1
12
182
11.3
11.3
767
672
1
0.81714
1.4971173
1
13
186
9.26
37.1
958
347
1
0.5943
0.3817673
1
14
162
8.23
27.1
625
465
1
0.76215
1.1644899
1
15
150
6.63
21
627
639
1
0.79916
1.3810815
1
16
159
10.7
11.7
612
390
1
0.8154
1.4855163
1
17
117
16.1
7.04
988
572
1
0.83427
1.6161859
1
18
181
10.1
4.04
1437
542
1
0.54599
0.1844798
1
19
146
20.7
23.8
1232
1092
1
0.87582
1.9534244
1
20
42.3
10.3
9.7
629
888
1
1.00173
#NUM!
1
21
28.2
12.4
53.1
370
852
1
1.04099
#NUM!
1
22
154
13.8
53.3
621
723
1
0.85355
1.7627133
1
23
179
12.2
17.9
1139
218
1
0.58237
0.3325132
1
24
13.5
3.36
16.8
135
182
1
0.92908
2.5726635
1
25
175
5.84
24.9
807
126
1
0.58238
0.3325558
1
26
113
15.8
47.3
626
627
1
0.89729
2.1674353
1
27
50.5
11.6
6.3
608
139
1
0.85758
1.7953126
1
28
78.6
14.6
9.7
421
464
1
1.01355
#NUM!
1
29
90
3.27
8.17
622
852
1
0.86965
1.8978274
1
30
178
28.8
32.4
992
169
1
0.82405
1.5440012
1
31
213
19.1
36.2
2220
168
0
0.21972
-1.267284
0
32
170
13.9
29.8
1285
330
0
0.56213
0.249811
1
33
162
13.2
19.8
1521
133
0
0.44809
-0.208407
0
34
203
13
90.8
1544
394
0
0.33102
-0.703586
0
35
167
13.1
14.1
2278
134
0
0.1835
-1.492832
0
36
164
12.9
18.6
2993
94.5
0
-0.0908
#NUM!
0
37
167
15
27
2056
237
0
0.28753
-0.907415
0
38
158
14.4
37
1025
72.5
0
0.59789
0.3966623
1
39
133
22.8
31
1633
899
0
0.71224
0.9062911
1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学 建模 医学 肾炎 化验 分析 报告 模型