logistic回归分析.pptx
- 文档编号:1892476
- 上传时间:2022-10-25
- 格式:PPTX
- 页数:32
- 大小:425.17KB
logistic回归分析.pptx
《logistic回归分析.pptx》由会员分享,可在线阅读,更多相关《logistic回归分析.pptx(32页珍藏版)》请在冰豆网上搜索。
Logistic回归分析一、基本概念和原理一、基本概念和原理LogisticLogistic回归模型是一种概率模型,适合于病例对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分类的或多项分类。
可用影响结果变量发生的因素为自变量与因变量,建立回归方程。
LogisticLogistic回归是研究观察结果(回归是研究观察结果(yy)为分类变量与)为分类变量与多个影响因素(多个影响因素(XX)之间回归关系的多变量统计方法。
)之间回归关系的多变量统计方法。
设资料中有一个因变量y、p个自变量x1,x2,xp,对每个实验对象共有n次观测结果,可将原始资料列成表1形式。
LogisticLogistic回归模型的数据结构表1LogisticLogistic回归模型的数据结构实验对象yX1X2X3.XP1y1a11a12a13a1p2y2a21a22a23a2p3y3a31a32a33a3pnynan1an2an3anp其中:
y取值是二值或多项分类Logistic回归分类按照反应变量类型二分类反应变量的logistic回归多分类有序反应变量的logistic回归多分类无序反应变量的logistic回归按照研究设计类型非条件logistic回归(研究对象未经匹配)条件logistic回归(研究对象经过匹配),在m个自变量的作用下阳性结果发生的概率记作个自变量的作用下阳性结果发生的概率记作:
Logistic回归模型它与自变量它与自变量xx11,x,x22,x,xpp之间的之间的LogisticLogistic回回归模型为:
归模型为:
模模型型参参数数的的意意义义常数项常数项表示暴露剂量为表示暴露剂量为00时个体时个体发病与不发病概率之比的自然对数。
发病与不发病概率之比的自然对数。
回归系数回归系数表示自变量表示自变量改变一个单位时改变一个单位时logitlogitPP的改变量。
的改变量。
流行病学衡量危险因素作用大小的流行病学衡量危险因素作用大小的比数比例比数比例指标。
指标。
计算公式为:
计算公式为:
优势比优势比OROR(oddsratio)(oddsratio)与与logisticP的关系的关系:
例1为了探讨糖尿病与血压、血脂等因素的关系,某研究者对56例糖尿病病人和65例对照者进行病例-对照研究,收集了性别、年龄、学历、体重指数、家族史、吸烟、血压、总胆固醇、甘油三酯、高密度脂蛋白、低密度脂蛋白11个因素的资料。
性别年龄学历体重指数家族史吸烟血压总胆固醇甘油三脂hdlldl糖尿病160221114.301.501.242.300148321114.601.321.152.300263211124.601.151.152.300168322114.151.431.073.210145212113.421.22.632.300145332114.16.96.982.650159211114.321.021.053.490168331113.801.422.86.850263221113.871.552.44.810表8糖尿病影响因素赋值说明因素变量名赋值说明性别X1男=1,女=2年龄X2学历X3小学以下=1,小学=2,初中=3,高中=4,大专及以上=5体重指数X424=1,241危险在其他因素保持不变的情况下,年龄增加1岁,糖尿病发生的优势增加至1.089(or值)倍。
在其他因素保持不变的情况下,hdl增加1个单位,糖尿病发生的优势减少至0.401(or值)倍。
Logistic回归模型的拟合优度检验拟合优度检验是通过回归方程预测值与实际预测值的吻合程度,说明回归方程的拟合优度Hosmer-Lemeshow检验按预测概率大小,将所观测的样本10等分,然后根据每一组因变量实际观测值与回归观测值,计算卡方拟合统计量0.05拟合优度比较好Cox&SnellR2系数该系数与线性回归分析中的决定系数R2有相似之处,也是回归方程对因变量变异解释程度的反映。
L0为截距方程的似然函数值,L为当前拟合方程的似然函数值。
NagelkerkeR2系数NagelkerkeR2系数是对Cox&SnellR2的修正,取值范围在01之间,该系数越接近于1,说明方程的拟合优度越高。
Logistic回归模型的预测准确度越小越好19逐步Logistic回归分析(11)向前法)向前法(forwardselection)(forwardselection)开始方程中没有变量,自变量由少到多一个一个引入回归方程。
按自变量对因变量的贡献(P值的大小)由小到大依次挑选,变量入选的条件是其P值小于规定进入方程的P界值Enter,缺省值P(0.05)。
20
(2)后退法(backwardselection)开始变量都在方程中,然后按自变量因变量的贡献(P值的大小)由大到小依次剔除,变量剔除的条件是其P值大于规定的剔除标准Remove,缺省值p(0.10)。
21(3)逐步回归法逐步引入-剔除法(stepwiseselection)前进前进逐步引入-剔除法是在前进法的思想下,考虑剔除变量,因此有两个p界值Enter,Remove。
22无论是条件还是非条件Logistic回归,在多变量分析时均可以采用逐步回归方法,实现的方法是:
在model后加选项:
/selection=forward、backward或stepwise再给出SLE,SLS的界值。
调试法:
P从大到小取值0.5,0.1,0.05,一般实际用时,SLE,SLS应多次选取调整23二分类二分类LogisticLogistic回归回归methodmethod中文名称中文名称剔除依据剔除依据EnterEnter全部进入全部进入Forward:
conditionalForward:
conditional向前逐步向前逐步条件参数估计似然比条件参数估计似然比Forward:
LRForward:
LR向前逐步向前逐步最大偏似然估计似然比最大偏似然估计似然比Forward:
WaldForward:
Wald向前逐步向前逐步WaldWald统计量统计量Backward:
conditionalBackward:
conditional向后逐步向后逐步条件参数估计似然比条件参数估计似然比Backward:
LRBackward:
LR向后逐步向后逐步最大偏似然估计似然比最大偏似然估计似然比Backward:
WaldBackward:
Wald向后逐步向后逐步WaldWald统计量统计量25二分类二分类LogisticLogistic回归回归多重比较的方法多重比较的方法Indicator第一类或最后一类为参照类,每一类与第一类或最后一类为参照类,每一类与参照类比较参照类比较Simple-除参照类外,每一类与参照类比较除参照类外,每一类与参照类比较Difference-除第一类外,每一类与其前各类的平均除第一类外,每一类与其前各类的平均效应比较,有称反效应比较,有称反HelmertHelmertHelmert-除最后一类外,每一类与其后各类的平均除最后一类外,每一类与其后各类的平均Repeated相邻两类比较,除第一类外,每类与其前一相邻两类比较,除第一类外,每类与其前一比较比较Polynominal正交多名义分类比较,该法假设每一分正交多名义分类比较,该法假设每一分类都有相等的空间,仅适于数值变量类都有相等的空间,仅适于数值变量Deviation除参照类外,每一类与总效应比较除参照类外,每一类与总效应比较28解释当bi0时,对应的优势比(oddsratio,记为ORi):
ORi=exp(bi)1,说明该因素是危险因素;当bi0时,对应的优势比ORi=exp(bi)1,说明该因素是保护因素。
本研究中年龄、体重指数、家族史、吸烟、血压为糖尿病发生的危险因素;高密度脂蛋白为糖尿病发生的保护因素。
在其他因素保持不变的情况下,年龄每增加一岁,糖尿病发生的优势增至1.088倍;在其他因素保持不变的条件下,体重指数在24-26之间者与小于24相比,糖尿病发生的优势增至7.830倍,体重指数在26以上者与小于24相比,糖尿病发生的优势增至22.29倍.课后应用思考题:
课后应用思考题:
课后应用思考题:
课后应用思考题:
为了分析影响为了分析影响为了分析影响为了分析影响医院抢救急性心肌梗死(医院抢救急性心肌梗死(医院抢救急性心肌梗死(医院抢救急性心肌梗死(AMIAMIAMIAMI)患者能否成)患者能否成)患者能否成)患者能否成功的因素,某医院收集了功的因素,某医院收集了功的因素,某医院收集了功的因素,某医院收集了5555年中所有的年中所有的年中所有的年中所有的AMIAMIAMIAMI患者的抢救病史患者的抢救病史患者的抢救病史患者的抢救病史(有关因素很多,由于篇幅有限,本例仅列出(有关因素很多,由于篇幅有限,本例仅列出(有关因素很多,由于篇幅有限,本例仅列出(有关因素很多,由于篇幅有限,本例仅列出3333个),共个),共个),共个),共200200200200例见下表。
其中例见下表。
其中例见下表。
其中例见下表。
其中P=0P=0P=0P=0表示抢救成功,表示抢救成功,表示抢救成功,表示抢救成功,P=1P=1P=1P=1表示抢救未成功而死表示抢救未成功而死表示抢救未成功而死表示抢救未成功而死亡;亡;亡;亡;X1=1X1=1X1=1X1=1表示抢救前已发生休克,表示抢救前已发生休克,表示抢救前已发生休克,表示抢救前已发生休克,X1=0X1=0X1=0X1=0表示抢救前未发生休表示抢救前未发生休表示抢救前未发生休表示抢救前未发生休克;克;克;克;X2=1X2=1X2=1X2=1表示抢救前已发生心衰,表示抢救前已发生心衰,表示抢救前已发生心衰,表示抢救前已发生心衰,X2=0X2=0X2=0X2=0表示抢救前未发生表示抢救前未发生表示抢救前未发生表示抢救前未发生心衰;心衰;心衰;心衰;X3=1X3=1X3=1X3=1表示患者从开始表示患者从开始表示患者从开始表示患者从开始AMIAMIAMIAMI症状到抢救时已超过症状到抢救时已超过症状到抢救时已超过症状到抢救时已超过12121212小时,小时,小时,小时,X3=0X3=0X3=0X3=0表示患者从开始表示患者从开始表示患者从开始表示患者从开始AMIAMIAMIAMI症状到抢救时未超过症状到抢救时未超过症状到抢救时未超过症状到抢救时未超过12121212小时。
小时。
小时。
小时。
请问最好采用哪种分析方法?
为什么?
请问最好采用哪种分析方法?
为什么?
请问最好采用哪种分析方法?
为什么?
请问最好采用哪种分析方法?
为什么?
分析结果有哪些?
分析结果有哪些?
分析结果有哪些?
分析结果有哪些?
AMIAMI患者的抢救危险因素资料患者的抢救危险因素资料患者的抢救危险因素资料患者的抢救危险因素资料P=0(在医院抢救成功)P=1(在医院抢救未成功而死亡)X1X2X3NX1X2X3N00035000400134001100101701040111901115100171006101610191106110611161116练习:
探讨肾细胞癌转移有关的因素研究中,收集了26例行根治性肾切除术患者的肾癌标本资料(教材表18-19),有关变量说明如下,试进行logistic回归分析。
X1:
确诊时患者的年龄(岁)。
X2:
肾细胞癌血管内皮生长因子,其阳性表达由低到高共3个等级,分别赋值1、2、3。
X3:
肾细胞癌组织内微血管数。
X4:
肾细胞癌细胞核组织学分级,由低到高共4级,分别赋值1、2、3、4。
X5:
肾细胞癌分期,由低到高共4期,分别赋值1、2、3、4。
Y:
肾细胞癌转移情况,有转移1,无转移0。
iX1X2X3X4X5YiX1X2X3X4X5Y159243.42101431147.8210236157.21101536331.63113612190.02101642166.22104583128.04311714
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- logistic 回归 分析