肾炎的诊断 数学建模.docx
- 文档编号:7927599
- 上传时间:2023-01-27
- 格式:DOCX
- 页数:54
- 大小:94.57KB
肾炎的诊断 数学建模.docx
《肾炎的诊断 数学建模.docx》由会员分享,可在线阅读,更多相关《肾炎的诊断 数学建模.docx(54页珍藏版)》请在冰豆网上搜索。
肾炎的诊断数学建模
肾炎的诊断
摘要
本文研究的问题是通过检测人体内各种元素的含量,来诊断就诊人员是否患有肾炎。
我们首先将健康的和患病的人群的体内的相关元素的平均值用
计算出来,发现体内的元素含量的确和患病有必然的联系。
我们再利用Excel软件中的logistic模型对样本做了具体的分析。
(logistic模型被广泛应用于病理学中,被作为病理学研究的常用模型)发现各元素的含量与是否患有肾炎之间的确有一定关联,属于线性回归问题。
接着,计算出该线性方程的常量和系数从而完成模型的初步建立。
对于问题一,我们取1-60号为样本,建立线性回归模型,
以各元素的含量
为自变量,是否患有肾炎为因变量,用
表示,当
时,表示患有肾炎;当
时,表示健康。
然后利用回归统计表、方差分析表、回归参数表中的数据进行分析,来衡量线性回归的拟合度,以及线性方程中各参数的显著性,发现其回归程度较好。
对60例受检者的数据进行判别,若p大于0.5则判定为患病,若小于0.5则判定为健康。
结果正确率为93.33%。
对于问题二,我们利用问题一中建立的优化模型进行检验,将待诊断的30个病例中各元素的含量代入模型一中,计算出对应的p值,然后和0.5进行比较,通过对数据分析处理:
检验出61、62、64、65、66、68、69、71、72、73、75、76、79、83、85号就诊人员患有肾炎;63、67、70、74、77、78、80、81、82、84、86、87、88、89、90号就诊人员是健康的。
对于问题三,由问题一知,这七种元素的回归系数显著性由高到低顺序依次为Ca,Cu,Fe,Mg,Na,Zn,K。
所以,我们认为回归系数显著性较小的几种元素对是否患肾炎的影响有限,可以忽略不计,并加以检验,以期能够得到一个更为简化的判定方法。
Mg、Na、Zn、K这4种元素所对应的回归系数显著性是最低的四个,分别为:
-1.60239、1.380585、-0.3334、-0.21503。
我们将这几种元素进行组合剔除,共有15种组合方式,比较去掉后该回归的各个参量的值,以标准误差和正确率作为评判假设是否合理的依据。
从中找出在尽量减少元素检验的前提下相对来说较优的模型。
而保留下来的那些自变量对应的指标,即是影响人们患肾炎的关键因素,通过剔除法,得出Fe元素,Ca元素,Cu元素,Mg元素为影响人体患病的主要因素。
结果正确率为93.33%,可见模型较优。
对于问题四,我们通过问题三得到的最优回归模型进行检验,将待诊断的30个病例中各元素的含量代入模型三中,计算出对应的p的值,然后和0.5进行比较,通过对数据分析处理:
检验出61、62、64、65、66、69、72、73、75、76、77、79、83、85号就诊人员患有肾炎;63、67、68、70、71、74、78、80、81、82、84、86、87、88、89、90号就诊人员是健康的。
对于问题五,我们通过对问题二中所判定的结果与问题四中所判定的结果,进一步对比分析,问题二中所判定的结果与问题四中的判定结果对病例号为68、71、77的3名就诊人员所判定的结果有所不同。
之所以会出现这种结果,我们认为由于每个人的体重不同,或者是因为样本的选取的分布不均匀和样本的容量较小问题等。
关键词:
多元线性回归最优化主要因子显著性检验
1问题重述
人们到医院就诊时,通常要化验一些指标来协助医生的诊断。
诊断就诊人员是否患肾炎时通常要化验人体内各种元素含量。
表B.1是确诊病例的化验结果,其中1-30号病例是已经确诊为肾炎病人的化验结果;31-60号病例是已经确诊为健康人的结果。
表B.2是就诊人员的化验结果。
我们的问题是:
1.根据表B.1(见附录)中的数据,提出一种或多种简便的判别方法,判别属于患者或健康人的方法,并检验你提出方法的正确性。
2.按照1提出的方法,判断表B.2(见附录)中的30名就诊人员的化验结果进行判别,判定他(她)们是肾炎病人还是健康人。
3.能否根据表B.1的数据特征,确定哪些指标是影响人们患肾炎的关键或主要因素,以便减少化验的指标。
4.根据3的结果,重复2的工作。
5.对2和4的结果作进一步的分析。
2问题分析
2.1问题一的分析
问题一要求我们提出简便的方法,判别就诊人员是患者还是健康人。
我们首先将健康的和患病的人群的体内的相关元素的平均值用
计算出来,见表一,
表1体内元素均值
Zn
Cu
Fe
Ca
Mg
K
Na
患病人体内每项元素平均值
143.1033
12.3343
23.0667
698.1667
113.3933
201.1333
526.8333
正常人体内每项元素平均值
186.6
21.92366
62.0116
2511.1333
295.1366
90.37
367.21
发现患病和健康人群体内的元素含量的均值相差很大。
所以体内元素的确和患病有必然的联系。
又因logistic回归分析,主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。
我们根据
建立的logistic回归模型来判断得病与健康的情况,由已确诊的病例中分析得知,人体是否患病与人体内某些元素的含量呈相应的回归关系,由模型来判别病例。
对于这种方法的正确性,我们利用回归统计表、方差分析表,回归参数表中的数据进行分析,来衡量线性回归的拟合度,以及线性方程中各参数的显著性,发现其回归程度较好。
2.2问题二的分析
问题二要求我们利用问题一中提出的方法,对表B.2中的30个病例进行判别。
我们分别将各元素的含量输入到在问题一建立的模型中,求出对应的p的值,然后和0.5进行比较,判别出那些是患者,哪些是健康人。
2.3问题三的分析
问题三要求我们根据表B.1的数据特征,确定影响人们患病的主要因素,以便减少化验因素。
由问题一的结果得知,回归系数显著性由高到低顺序依次为Ca,Cu,Fe,Mg,Na,Zn,K。
我们通过剔除模型中那些对因变量作用不显著的自变量,得到最优化模型,那些保留下来的自变量,即是影响人体患病的关键因素。
2.4问题四的分析
问题四要求我们利用问题三中得到的优化模型,即剔除掉那些非关键因素后的模型,再次,对表B.2中的30个病例进行判别。
我们分别将各元素的含量输入到问题一建立的模型中,求出对应的p的值,然后和0.5进行比较,判别出那些是患者,哪些是健康人。
2.5问题五的分析
问题五要求对问题二、问题四得出的结果,进行比较分析。
我们通过问题二、问题四得出的结果对比后发现,只有3个样本有差异,之所以会出现这种结果,我们认为由于每个人的体重不同,或者是因为样本的选取的分布不均匀和样本的容量较小问题等。
因此,这3个样本的需要进一步的检验,才能确定是否患病。
3模型假设
1.假设问题所提供的60组数据是从大量的数据中随机抽取的,相互间没有任何必要的联系.
2.假设是否患有肾炎只与题目中给出的那几种元素的含量有关,与其他因素无关.
3.假设题目中所给的数据是真实可信的,且化验过程中没有出现错误。
4.假设题目中所给的样本只患肾炎或者是健康体,没有患其他的疾病。
5.假设人体内的各个元素是相互独立的,没有相互间的影响.
6.假设人的体重是近似相等的,这样就不存在了元素的含量与体重的关系.
4符号说明
:
(i=1,2,…7)分别表示人体内各元素的含量;
:
表示患肾炎;
表示健康;
:
(i=1,2,…7)表示线性方程中
的系数;
(i=1,2,…7,表示对应的元素;
表示患肾炎,
表示健康)表示患病与健康人群的体内对应的各种元素的均值.
Logit(p):
p的Logistic变换
:
方程的拟合优度。
:
表示总离差的平方和;
:
表示回归平方和:
:
表示残差平方和;
:
表示误判率;
:
表示从总体中抽取的一个样本;
:
显著性水平为
和分子自由度
、分母自由度
的临界值;
:
为在
中
的偏回归平方和
5模型的建立与求解
5.1问题一的建模与求解
5.1.1建立模型
logistic模型被广泛应用于病理学中,被作为病理学研究的常用模型,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等由于模型只有两个变量,分别为患病和健康,由此可以考虑应用多元Logistic(BinaryLogistic)模型。
我们把y=1定义为该受检者患病,y=0定义为该受检者健康,为此,我们建立了如下模型:
注意,p=0或1时,此式失效,因为当p接近于0或1时,自变量即使有很大变化,p的值也不可能变化很大,且非线性程度较高。
于是,我们引入p的Logistic变换,即
,
所以,原模型可以表示为:
拟合Logistic回归模型采用最大似然估计法。
将数据导入EXCEL软件中,利用回归函数,选取的置信度为95%。
得到了回归统计表、方差分析表、回归参数表。
回归统计
MultipleR
0.823779
RSquare
0.678612
AdjustedRSquare
0.635348
标准误差
0.30448
观测值
60
MultiPleR(复相关系数R):
是R²的平方根,又称为相关系数,用来衡量x和y之间相关程度的大小。
本例中R为0.823779,表示二者之间的关系是高度正相关。
说明七种元素的含量与人的患病成高度相关性。
方差分析
df
SS
MS
F
SignificanceF
回归分析
7
10.17918
1.454168
15.68543
7.37E-11
残差
52
4.820825
0.092708
总计
59
15
SignificanceF是在显著性水平下的F的临界值,本题是7.37E-11远小于显著水平0.05。
说明,回归效果显著。
回归参数表
Coefficients
标准误差
tStat
P-value
Lower95%
Upper95%
Intercept
0.89113
0.182874
4.872914
1.07E-05
0.524166
1.258094
Zn
-0.00033
0.000998
-0.3334
0.740174
-0.00234
0.00167
Cu
0.016659
0.004122
4.041661
0.000176
0.008388
0.02493
Fe
-0.00162
0.000859
-1.89095
0.064208
-0.00335
9.94E-05
Ca
-0.0003
6.25E-05
-4.81066
1.33E-05
-0.00043
-0.00018
Mg
-0.00096
0.000598
-1.60239
0.115128
-0.00216
0.000242
K
-6.6E-05
0.000307
-0.21503
0.830582
-0.00068
0.00055
Na
0.000303
0.00022
1.380585
0.173312
-0.00014
0.000744
由回归参数表得知,
的
——
的值分别为:
0.89113、-0.00033、0.016659、-0.00162、-0.0003、-0.00096、-6.6E-05、0.000303。
5.1.2模型检验
由方差分析表得知,检验统计量F=15.68543,而F(1,5)=6.61,所以F>F(1,5),所以该线性模型线性显著,可以用于实际问题的分析。
将60份样本数据带入该模型中,得出,32、38、39、60与实际的结果不符。
准确率为93.33%。
具体数据见附录一。
5.2问题二的求解
将该问的61-90号的数据带入问题一的模型中,检验出61、62、64、65、66、68、69、71、72、73、75、76、79、83、85号就诊人员患有肾炎;63、67、70、74、77、78、80、81、82、84、86、87、88、89、90号就诊人员是健康的。
具体的数据见表,具体的参数见附录二。
表
病例号
Zn
Cu
Fe
Ca
Mg
K
Na
p
预测
61
58.2
5.42
29.7
323
138
179
513
1.121371
1
62
106
1.87
40.5
542
177
184
427
0.867396
1
63
152
0.8
12.5
1332
176
128
646
0.578849
0
64
85.5
1.7
3.99
503
62.3
238
762.6
1.182914
1
65
144
0.7
15.1
547
79.7
71
218.5
0.874646
1
66
85.7
1.09
4.2
790
170
45.8
257.9
0.794899
1
67
144
0.3
9.11
417
552
49.5
141.5
0.132043
0
68
170
4.16
9.32
943
260
155
680.8
0.536868
1
69
176
0.57
27.3
318
133
99.4
318.8
0.799626
1
70
192
7.06
32.9
1969
343
103
553
0.056686
0
71
188
8.28
22.6
1208
231
1314
1372
0.965527
1
72
153
5.87
34.8
328
163
264
672.5
0.925532
1
73
143
2.84
15.7
265
123
73
347.5
0.910426
1
74
213
19.1
36.2
2220
249
62
465.8
0.122725
0
75
192
20.1
23.8
1606
156
40
168
0.436117
1
76
171
10.5
30.5
672
145
47
330.5
0.726337
1
77
162
13.2
19.8
1521
166
36.2
133
0.471537
0
78
203
13
90.8
1544
162
98.9
394.5
0.42041
0
79
164
20.1
28.9
1062
161
47.3
134.5
0.627853
1
80
167
13.1
14.1
2278
212
36.5
96.5
0.183741
0
81
164
12.9
18.6
2993
197
65.5
237.8
0.054398
0
82
167
15
27
2056
260
44.8
72
0.168871
0
83
158
14.4
37
1025
101
180
899.5
0.874728
1
84
133
22.8
31.3
1633
401
228
289
0.252186
0
85
169
8
30.8
1068
99.1
53
817
0.762631
1
86
247
17.3
8.65
2554
241
77.5
373.5
-0.03478
0
87
185
3.9
31.3
1211
190
134
649.8
0.527449
0
88
209
6.43
86.9
2157
288
74
219.8
-0.01804
0
89
182
6.49
61.7
3870
432
143
367.5
-0.58938
0
90
235
15.6
23.4
1806
166
68.9
188
0.266429
0
5.3问题三的求解
由问题一知,这七种元素的回归系数显著性由高到低顺序依次Ca、Cu、Fe、Mg、Na、Zn、K。
所以,我们认为回归系数显著性较小的几种元素对是否患肾炎的影响有限,可以忽略不计,并加以检验,以期能够得到一个更为简化的判定方法。
Mg、Na、Zn、K这4种元素所对应的回归系数显著性是最低的四个,分别为:
-1.60239、1.380585、-0.3334、-0.21503。
我们将这几种元素进行组合剔除,共有15种组合方式,剔除一种时以K为例,得出的数据见附录三,准确率为93.33%。
剔除两种元素时发现,剔除K、Zn时的正确率最高为93.33%,具体的数据见附录四。
剔除3种元素是发现剔除K、Na、Zn时的正确率为93.33%。
具体的数据见附录五。
剔除四种元素K、Na、Zn、Mg时的正确率为91.67%。
具体的数据见附录六。
综合考虑,比较后发现,剔除3种元素K、Na、Zn时,该回归较优。
模型的参数
——
的值分别为:
0.967488、0、0.018919、-0.00165、-0.00034、-0.00086、0、0。
而保留下来的那些自变量对应的指标,即是影响人们患肾炎的关键因素,通过剔除法,得出Fe元素,Ca元素,Cu元素,Mg元素为影响人体患病的主要因素。
结果正确率为93.33%。
5.4问题四的求解
只分析,Fe元素,Ca元素,Cu元素,Mg元素为影响人体患病的主要因素。
根据问题三的结论,将待检测的30组数据带入,问题三的模型中,检验出61、62、64、65、66、69、72、73、75、76、77、79、83、85号就诊人员患有肾炎;63、67、68、70、71、74、78、80、81、82、84、86、87、88、89、90号就诊人员是健康的。
具体的数据见表
表
病例号
Cu
Fe
Ca
Mg
p
预测
61
5.42
29.7
323
138
0.8931
1
62
1.87
40.5
542
177
0.731772
1
63
0.8
12.5
1332
176
0.495499
0
64
1.7
3.99
503
62.3
0.976506
1
65
0.7
15.1
547
79.7
0.924225
1
66
1.09
4.2
790
170
0.664011
1
67
0.3
9.11
417
552
-0.03612
0
68
4.16
9.32
943
260
0.447268
0
69
0.57
27.3
318
133
0.879623
1
70
7.06
32.9
1969
343
-0.00328
0
71
8.28
22.6
1208
231
0.455871
0
72
5.87
34.8
328
163
0.842333
1
73
2.84
15.7
265
123
0.925355
1
74
19.1
36.2
2220
249
0.185055
0
75
20.1
23.8
1606
156
0.560343
1
76
10.5
30.5
672
145
0.804221
1
77
13.2
19.8
1521
166
0.527437
1
78
13
90.8
1544
162
0.5421
0
79
20.1
28.9
1062
161
0.707395
1
80
13.1
14.1
2278
212
0.211051
0
81
12.9
18.6
2993
197
0.036684
0
82
15
27
2056
260
0.186185
0
83
14.4
37
1025
101
0.81662
1
84
22.8
31.3
1633
401
0.052041
0
85
8
30.8
1068
99.1
0.774074
1
86
17.3
8.65
2554
241
0.091104
0
87
3.9
31.3
1211
190
0.520489
0
88
6.43
86.9
2157
288
0.06574
0
89
6.49
61.7
3870
432
-0.73517
0
90
15.6
23.4
1806
166
0.458467
0
5.5问题五的求解
我们通过对问题二中所判定的结果与问题四中所判定的结果,进一步对比分析,问题二中所判定的结果与问题四中的判定结果对病例号为68、71、77的3名就诊人员所判定的结果有所不同。
之所以会出现这种结果,我们认为由于每个人的体重不同,或者是因为样本的选取的分布不均匀和样本的容量较小问题等。
6模型的评价与推广
本文研究的问题是通过检测人体内各种元素的含量,来诊断就诊人员是否患有肾炎。
我们再利用Excel软件中的logistic模型对样本做了具体的分析。
(logistic模型被广泛应用于病理学中,被作为病理学研究的常用模型)发现各元素的含量与是否患有肾炎之间的确有一定关联,属于线性回归问题。
接着,计算出该线性方程的常量和系数从而完成模型的初步建立。
优点:
方法简洁,便于操作,即直接通过EXCEL软件的回归分析工具就可得到结果;通过数据的对比,鉴定结果基本一致,从而为补充和证明,预测结果真实可靠;Ca,Cu,Fe,Mg四种元素作为主要因素,减少了化验指标,为医学鉴定带来了方便且正确率较高……
缺点:
模型的预测结果仍然存在一定差异,这可能是由于样本容量太小,不能充分反映各个指标对肾炎的影响,单纯地检测微量元素比较片面,即使某些指标异常也可能是其它疾病引起的,从而导致误诊。
而现实
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 肾炎的诊断 数学建模 肾炎 诊断 数学 建模