最新多因素分析1Word文档格式.docx
- 文档编号:21043963
- 上传时间:2023-01-27
- 格式:DOCX
- 页数:15
- 大小:61.80KB
最新多因素分析1Word文档格式.docx
《最新多因素分析1Word文档格式.docx》由会员分享,可在线阅读,更多相关《最新多因素分析1Word文档格式.docx(15页珍藏版)》请在冰豆网上搜索。
3、为探讨影响差等生学习成绩的因素,某儿科医生调查了某学校六年级各班倒数第五名以内学生的平均成绩(y),并测定了智商(X1)、血清铁(X2)、血清酮(X3)、日均热卡(X4)、日均食入蛋白量(X5)、头围(X6)和月人均收入(X7)
2、判别分析(discriminantanalysis)
根据已掌握的一批分类明确的样品,制定出一个分类标准用以判断以后新样品的归类。
在医学研究中经常遇到根据某病人的各种症状、体征、化验结果等来判定病人患的什么疾病,如:
根据骨科的X光片的各种特征判断病人属于何种骨瘤?
体育选材中根据运动员的体形、运动成绩、生理指标、心理素质指标、遗传因素判断是否选入运动队继续培养等。
判别分析在医学领域的主要用途是:
1、疾病诊断:
用判别分析的方法诊断疾病又称为计量诊断。
包括临床诊断、X线诊断、心电图诊断、超声波诊断、脑电图诊断等。
2、疾病预报:
流行病预报、某些疾病(心肌梗死、中风)的早期预报。
3、预后估计:
某些疗法的疗效估计,某些恶性肿瘤患者的生存期估计等。
4、疾病的病因学估计:
研究引起疾病的原因,并分析其主要影响因素。
判别分析:
要求Y变量二分类或多分类的属性变量。
分别用Fisher和Bayes准则进行计算。
同时根据样本中个体的症状、体征选用多元逐步判别分析的方法,来判断病人患的什么疾病。
其判别函数为:
Z=b1x1+b2x2+b3x3…..+bkxk
对判别函数在实际应用中的判别能力要进行检验。
判别临界值:
且:
所以:
若Y>
Y0判为A类;
若Y<
Y0判为B类。
可以计算各指标的贡献率,进行回代检验其符合率。
1、有健康人10名,心肌梗死病人6名,分别进行心电图检查得到三个指标X1、X2、X3。
建立这两类人的判别式,以次判别新的就诊患者是否为心肌梗死病人。
2、对正常人和白血病人进行血清学方面的研究,用高分辨核磁共振谱仪分析α峰形,以α峰的高度(X1)和峰腰(X2)的宽度作为观察指标,采集了13名白血病人和11名献血员作为健康人的血清的α峰形。
3、现有已知分类的健康人11人,硬化症患者7人,冠心病患者5人,这23人的心电图的5个指标测量数据,建立判别方程。
3、logistic回归分析
多元线性回归要求y是呈正态分布的连续型随机变量。
医学中常见这样的试验:
动物服药后是生(假设其值为1)还是死(假设其值为0),或是发病
(1)还是未发病(0)等。
当因变量取值为(0,1),自变量可能是分类变量,也可能是连续变量时,用线性回归分析的方法进行处理是不合适的,应选用Logistic回归。
Logistic回归属于概率型回归,用来分析某类事件发生的概率与自变量之间的关系。
适用于因变量为二值变量(或多分类)的情形。
基本概念:
因变量的预测值在0~1之间。
如根据冠心病病人的饮食特点、吸烟史、生活的方式、得病的类型等数据资料,建立一个logistic回归方程来预测病人的冠心病的可能性。
数学模型:
y=
式中:
是在条件
下,某事件发生的概率,
是该事件不发生的概率。
其中,
m是自变量的个数。
a是截距,bi是待估计的参数。
Logistic回归方程的曲线为S型,预测值最大值趋近1,最小值趋近0。
logistic回归方程的另一种表达形式:
通过变换可以得出P与多元变量Xi间的数学表达式:
1、某医生研究哪些指标可以判断糖尿病患者是否动脉硬化,将临床症状颈总动脉中层厚度imt≥0.8mm或有斑块定义为动脉硬化,记为因变量type=1,非硬化imt<
0.8mm且无斑块,记为因变量type=0。
选择自变量为年龄(age)、尿白蛋白(ALB)、体重指数(BMI)、胰岛素敏感指数(ISI)、收缩压(SBP)、甘油三脂(TG)、胆固醇(CHO)、糖尿病病程(DURA)。
2、某医院为研究医院内尿路感染的主要危险因素,回顾调查了某年三个月份在住院期间实施保留导尿的200名患者,分别记录了
危险因素变量名定义
性别X1女=0,男=1
年龄(岁)X2<
30=0,30~=1,50~=2,70~=3
插管前住院时间(天)X3<
3=0,3~=1,10~=2,20~=3
导尿方式X4闭式=0,开放式=1
导尿期间无抗生素持续冲洗X5否=0,是=1
留置导尿时间X6<
感染前有无输血史X7无=0,有=1
感染前有无应用免疫抑制剂X8无=0,用=1
插插管前血浆肌酐水平X9<
80=0,80~=1,170~=2
有无糖尿病X10否=0,是=1
尿路感染Y未感染=1,感染=0
分析可能在医院内尿路感染的危险因素。
4、比例风险模型-COX回归
常用统计描述和统计推断的方法有:
分位数、中数生存期、平均数、生存函数古迹、判断生存时间分布、非参数检验、寿命表法、log-rank检验(对数秩检验)等。
这些方法已经系统地应用在医学的医疗评价和预后的因素分析中。
医学临床生存资料有别于其他资料,特别是医学临床随访资料很难用一般统计方法来处理多种因素对生存时间序列的影响。
资料的特点是:
1、危险度的变化规律种类多且难以确定。
2、资料中存在失访(截尾)数据。
3、同是考虑多个变量(连续的或离散的)影响难以控制。
非参数可以解决前两个问题,参数法可以解决后两个问题。
所以实际应用中有很大的局限性。
Logistic模型中对任一个观察对象的失效处理都是相同的,无论失效发生在随访期的开始或结束,所以当分析变量与失效的关系时且需要考虑失效时间的作用时,logistic回归模型就不完全适用了。
而任一变量对失效的作用完全独立于随访期的长短,直接影响结论的可靠性和稳定性。
1972年英国生物统计学家D.R.Cox提出半参数的比例风险模型Cox回归模型(Coxregressionmodel),1975年由油料新的补充。
Cox模型是将生存时间和因素间的关系用回归方式来表示,主要解决多因素(如年龄、职业、吸烟、饮酒、病情、治疗方法等)对生存期(恢复期)的影响。
对于每一个研究的病人除去要考察的因素外,必须有生存时间变量(t)和结局变量(d)。
风险函数为:
为风险函数,又称风险率或瞬间死亡率。
为基准风险函数,是与时间有关的任意函数。
1、某省肿瘤医院调查1991-1994年间经手术治疗的66例大肠癌患者的资料,对可能影响大肠癌术后的临床病理因素进行分析,以探讨这些因素病理因素对大肠癌术后的综合影响。
性别Z1女=0,男=1
年龄(岁)Z2<
40=1,40~59=2,60~=3
组织学分类Z3乳头状腺癌=0,管状腺癌=1
肿瘤大小(cm)Z4≥6=0,其它=1
Dure’s分期Z5A=1,B=2,C=3,D=4
细胞增殖抗原(PCNA)Z6<
55%=0,≥55%=1
淋巴管侵润Z7无=0,有=1
血管侵润Z8无=0,用=1
手术到观察结束Y实际天数
结束时是否死亡D生存=0,死亡=1
2、研究天花粉注射治疗绒癌疗效的试验,将16只体表接种成功的裸鼠分为4组,其中一组作为对照,其余三组分别注射天花粉、甲药和乙药,得到如下数据:
试作Cox分析。
带瘤天数X1天数
瘤体大小X2
天花粉治疗X3无=0,有=1
甲药治疗X4无=0,有=1
乙药治疗X5无=0,有=1
维生素X6不用=0,用=1
生存天数day实际天数
结局D生存=0,死亡=1
附例题:
文件名“sars’
建立永久数据集
libnamel'
d:
'
;
dataa;
setl.sars3;
run;
读出数据集,选择确诊和发烧病人
seta1;
ifgroup=2thedelete;
逐步判别分析:
procstepdiscmethod=stepwisesle=0.05sls=0.05;
classgroup;
varcpnbentbh1n12h5n1binfabinfbbinfb2b
mpnbpiv1bpiv3brsvnabrsvnbbsars1bsars1mtbsars2bsars3b;
quit;
将逐步判别筛选出的变量作回代:
procdiscrim;
varh5n1bentbinfb2bsars2bsars3bmpnbsars1b;
*varinfb2bcpnbh5n1bpiv3brsvnbbsars3b;
quit;
计算疑似与发烧病人的逐步logistic回归:
datab;
ifgroup=1thedelete;
datab1;
setb;
ifgroup=2thengroupn=1;
ifgroup=3thengroupn=0;
proclogisticdescending;
modelgroupn=cpnbentbh1n12h5n1binfabinfbbinfb2b
mpnbpiv1bpiv3brsvnabrsvnbbsars1bsars1mtbsars2bsars3b/selection=stepwise
clodds=plsle=0.15sls=0.15;
/*modelgroupn=cpnbentbh1n12h5n1binfabinfbbinfb2b
*modelgroupn=cpnbentbh1n12h5n1binfabinfbbinfb2b
mpnbpiv1bpiv3brsvnabrsvnbb/selection=stepwiseclodds=pl
sle=0.15sls=0.15;
*/
计算确诊和发烧病人的logistics回归分析:
datac;
ifgroup=3thendelete;
setc;
ifgroup=1thengroupn=1;
ifgroup=2thengroupn=0;
1
BACKGROUND
274.5
140.5
4
SAMPLE1
疑似
296
1.078324
196
1.395018
2
5
SAMPLE2
209
1.487544
3
6
SAMPLE3
206
0.750455
195
1.3879
7
SAMPLE4
230
0.837887
223.5
1.590747
8
SAMPLE5
240.5
0.876138
245.5
1.747331
9
SAMPLE6
251
0.91439
178
1.266904
10
SAMPLE7
224.5
0.817851
369.5
2.629893
11
SAMPLE8
确诊
390
1.420765
1.786477
12
SAMPLE9
219.5
0.799636
364
2.590747
13
SAMPLE10
228
0.830601
293
2.085409
Logistics(B类与C类病人拟和)
ClassificationTable
Predicted
TYPE
%
Observed
Step1
45
40
52.9
22
106
82.8
OverallPercentage
70.9
Step2
49
36
57.6
23
105
82.0
72.3
Step3
52
33
61.2
74.2
Step4
58
27
68.2
19
109
85.2
78.4
aThecutvalueis.500
VariablesintheEquation
B
S.E.
Wald
df
Sig.
Exp(B)
INFB2B
-3.673
.582
39.835
.000
.025
Constant
4.451
.665
44.859
85.732
INFBB
-.775
.258
9.056
.003
.461
-3.733
.601
38.555
.024
5.804
.840
47.784
331.537
-1.153
.308
13.998
.316
-4.084
.638
40.996
.017
PIV1B
2.589
.693
13.938
13.315
3.239
1.041
9.686
.002
25.504
-1.236
.321
14.869
.290
-4.524
.698
42.031
.011
2.961
.733
16.330
19.315
RSVNAB
2.355
.716
10.812
.001
10.541
.974
1.245
.612
.434
2.648
aVariable(s)enteredonstep1:
INFB2B.
bVariable(s)enteredonstep2:
INFBB.
cVariable(s)enteredonstep3:
PIV1B.
dVariable(s)enteredonstep4:
RSVNAB.
Logistics(疑似与发烧病人拟和)包括SARS病毒
PercentageCorrect
30
73.2
88
92.6
86.8
87.8
92
96.8
94.1
38
92.7
93
97.9
96.3
37
90.2
91
95.8
Step5
95.6
Step6
97.6
94
98.9
98.5
-8.810
1.529
33.179
10.449
1.746
35.812
34524.092
H5N1B
8.792
2.241
15.387
6582.400
-12.319
2.360
27.254
6.168
2.104
8.596
477.220
8.121
2.415
11.307
3364.195
-13.139
2.863
21.065
PIV3B
5.558
2.055
7.312
.007
259.262
1.774
2.559
.480
.488
5.893
9.657
2.923
10.914
15629.817
INFAB
-5.854
2.685
4.753
.029
-12.086
2.825
18.302
6.063
2.285
7.044
.008
429.842
5.142
3.422
2.259
.133
171.122
9.79
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 因素 分析