讲座logistic20140331.ppt
- 文档编号:2760763
- 上传时间:2022-11-12
- 格式:PPT
- 页数:57
- 大小:532.50KB
讲座logistic20140331.ppt
《讲座logistic20140331.ppt》由会员分享,可在线阅读,更多相关《讲座logistic20140331.ppt(57页珍藏版)》请在冰豆网上搜索。
Logistic回归分析回归分析管理定量分析管理定量分析-芦文丽芦文丽概述概述1967年年TrueltJ,ConnifieldJ和和KannelW在在JournalofChronicDisease上上发表表了冠心病危了冠心病危险因素的研究,将因素的研究,将Logistic回回归用于医学研究。
用于医学研究。
TruettJ,CornfieldJ,KannelW:
AmultivariateanalysisoftheriskofcoronaryheartdiseaseinFramingham.JChronicDis1967;20(7):
511-524n一元直一元直线回回归模型模型y=a+bx+en多元直多元直线回回归模型模型y=a+b1x1+b2x2+bkxk+e直直线回回归分析的适用分析的适用环境:
境:
n线性(线性(linear):
linear):
反应变量反应变量YY的总体平均值与自变量的总体平均值与自变量XX呈线性关系呈线性关系判断:
散点图;残差图判断:
散点图;残差图n独立(独立(independent)independent)任意两个观察值互相独立任意两个观察值互相独立判断:
专业知识判断:
专业知识n正态性(正态性(normalnormal)假定线性模型的误差项服从正态分布)假定线性模型的误差项服从正态分布判断:
残差直方图判断:
残差直方图n等方差性(等方差性(equalvariance)equalvariance):
在:
在XX的取值范围内,不论的取值范围内,不论XX取什么值,取什么值,YY都具有相同都具有相同的方差的方差判断:
判断:
XX与与YY,残差的散点图,残差的散点图LogisticLogistic回归分析回归分析n概率型非概率型非线性回性回归n研究研究二分二分类观察察结果与一些影响因素之果与一些影响因素之间关系的关系的一种多一种多变量分析方法。
量分析方法。
nlogistic回回归的主要用途:
的主要用途:
n一是一是寻找危找危险因素因素n二是二是预测,根据建立的,根据建立的logistic回回归模型,模型,预测在不同的自在不同的自变量情量情况下,况下,发生某病或某种情况的概率有多大。
生某病或某种情况的概率有多大。
n三是判三是判别,实际上跟上跟预测类似,根据似,根据logistic模型,判断某人属于模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下某病或属于某种情况的概率有多大,也就是看一下这个人有多大个人有多大的可能性是属于某病患者。
的可能性是属于某病患者。
logisticlogistic回归与多重回归与多重线性回归线性回归nlogistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于他们的因变量不同,n这两种回归可以归于同一个家族,即广义线性模型(generalizedlinearmodel)。
这一家族中的模型形式基本上都差不多,不同的就是因变量不同,如果是连续的,就是多重线性回归,如果是二项分布,就是logistic回归,如果是poisson分布,就是poisson回归,如果是负二项分布,就是负二项回归nlogistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。
所以实际中最为常用的就是二分类的logistic回归。
LogisticLogistic回归分析在流行病学研究中的应用回归分析在流行病学研究中的应用n疾病病因和危险因素探讨疾病病因和危险因素探讨-病例对照研究病例对照研究n实验研究中药物或毒物的实验研究中药物或毒物的剂量反应关系剂量反应关系n临床试验评价临床试验评价n疾病预后因素分析疾病预后因素分析n膳食因素与膳食因素与22型糖尿病关系的型糖尿病关系的logisticlogistic回归分析回归分析n大学生高血压相关因素的大学生高血压相关因素的LogisticLogistic回归分析回归分析n产后抑郁症影响因素的病例对照研产后抑郁症影响因素的病例对照研究究n产褥期抑郁及其影响因素的产褥期抑郁及其影响因素的LogisticLogistic回归分析回归分析n产褥期抑郁及其影响因素的产褥期抑郁及其影响因素的LogisticLogistic回归分析回归分析n天津市婴幼儿孤独症患病率与危险天津市婴幼儿孤独症患病率与危险因素因素n。
孙振球主编.医学统计学人民卫生出版社.LogisticLogistic回归模型回归模型影响影响YY的取值的的取值的mm个自变量,个自变量,XX11,XX22XmXm。
PP表示表示mm个自变个自变量的作用下阳性结果发生的概率,则量的作用下阳性结果发生的概率,则LogisticLogistic回归模型表示回归模型表示为为称为P的logit变换。
LogisticLogistic回归模型回归模型-参数的含义参数的含义影响影响YY的取值的的取值的mm个自变量,个自变量,XX11,XX22XmXm。
PP表表示示mm个自变量的作用下阳性结果发生的概率,则个自变量的作用下阳性结果发生的概率,则LogisticLogistic回归模型表示为回归模型表示为0表示暴露剂量为0时个体发病与不发病概率之比的自然对数。
流行病学中的一些基本概念:
流行病学中的一些基本概念:
相相对危危险度度(relativerisk):
RR=P1/P2比数比数Odds=P/(1-P)比数比比数比OR=P/(1-P)/P/(1-P)在患病率在患病率较小情况下,小情况下,ORRRnLogistic回归中的常数项(回归中的常数项(b0)表示,在不接触任何潜在危险保护表示,在不接触任何潜在危险保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。
因素条件下,效应指标发生与不发生事件的概率之比的对数值。
nLogistic回归中的回归系数回归中的回归系数(bi)表示,某一因素改变一个单位时,表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即效应指标发生与不发生事件的概率之比的对数变化值,即OR的对数的对数值。
值。
Logistic回归系数的意义n分析因素分析因素xi为二分类变量时,存在(暴露)为二分类变量时,存在(暴露)xi,不存在(未暴不存在(未暴露)露)xi,则,则Logistic回归中回归中xi的系数的系数bi就是暴露与非暴露优势比就是暴露与非暴露优势比的对数值即的对数值即OR=exp(bi)=e(bi)医学研究中疾病的复杂性医学研究中疾病的复杂性n一种疾病可能有多种致病因素或与多种危一种疾病可能有多种致病因素或与多种危险因素有关因素有关n疾病疾病转归的影响因素也可能多种多的影响因素也可能多种多样n临床治床治疗结局的局的综合性合性解决解决办法:
法:
n固定其他因素,研究有影响的一两个因素(配比);固定其他因素,研究有影响的一两个因素(配比);n分分层分析:
按分析:
按12个因素个因素组成的成的层进行行层内分析和内分析和综合。
合。
n统计模型模型实例分析实例分析n为了探讨冠心病发生的有关危险因素,对26例冠心病病人和28例对照者进行病例-对照研究,各因素的说明见表1,资料见数据库data1,试用logistic逐步回归分析方法筛选危险因素。
Logistic回归分析的一般步骤n变量的量的编码n哑变量的量的设置和引入置和引入n各个自各个自变量的量的单因素分析因素分析n变量的量的筛选n交互作用的引入交互作用的引入n建立多个模型建立多个模型n选择较优的模型的模型n模型模型应用条件的用条件的评价价n输出出结果的解果的解释1.1.变量的编码变量的编码n变量的量的编码要易于要易于识别n注意注意编码的等的等级关系关系n改改变分分类变量的量的编码,其分析的意,其分析的意义并不改并不改变。
n牢牢记编码使用使用变量数量数值标识(valuelabels)记录编码内容内容变量的编码n变量名变量标识变量值值标识SEX性别1男2女EDU教育程度0文盲1小学2初中及以上2.2.哑变量的设置和引入哑变量的设置和引入n哑变量,又称量,又称指示指示变量量。
n有利于有利于检验等等级变量各个等量各个等级间的的变化是否相同。
化是否相同。
n一个一个k分分类的分的分类变量,可以用量,可以用k-1个个哑变量来表示。
量来表示。
n哑变量的设置教育程度X1X2X3文盲:
0000小学:
1100初中:
2010高中:
3001教育程度教育程度:
文盲,小学,初中,高中以上:
文盲,小学,初中,高中以上教育程度X1X2X3文盲:
0100小学:
1010初中:
2001高中:
3000以高中作为参照以高中作为参照SPSSSPSS提供的方法提供的方法nIndicator:
默默认。
以第。
以第1或最后或最后1类作作对照,其他每照,其他每类与与对照比照比较;nSample:
以第以第1或最后或最后1类作作对照,其他每照,其他每类与与对照比照比较,但反映平均效,但反映平均效应。
nDifference:
除第除第1类外各分外各分类与其前各与其前各类平均效平均效应比比较;nHelmert:
除最后除最后1类外各分外各分类与其前各与其前各类平均效平均效应比比较;nRepeated:
除第除第1类外各分外各分类与其前一与其前一类比比较;nPolynomial:
假假设类间距相等,用于数距相等,用于数值型型变量。
量。
nDeviation:
以第以第1或最后或最后1类作作对照,其余每照,其余每类与与总效效应比比较。
3.自变量的单因素分析n了解自了解自变量与因量与因变量的分布量的分布n检验是否符合建立模型的是否符合建立模型的应用条件用条件偏离偏离应用条件用条件时,进行数据行数据变换n各个自各个自变量两量两组间的比的比较计数数资料料计量量资料料n双双变量分析量分析4.变量的筛选n变量量筛选的原的原则专业上考上考虑测量上考量上考虑共共线性性问题:
计算相关矩算相关矩阵,相关系数,相关系数0.8-0.9,则选其一。
其一。
缺失数据少、缺失数据少、测量量误差低的差低的优先先选择经验上考上考虑双双变量分析中有量分析中有显著性的自著性的自变量(量(P.15)选择那些改那些改变主效主效应的自的自变量量变量的筛选n变量量筛选的可用方法的可用方法逐步逐步logistic回回归:
自:
自动选择有有显著性的自著性的自变量,不量,不仅用于自用于自变量的剔量的剔选,也用于交互作用,也用于交互作用项是否是否显著的判断。
著的判断。
前前进法:
逐个引入模型外的法:
逐个引入模型外的变量量后退法:
放入所有后退法:
放入所有变量,再逐个量,再逐个筛选理理论上看,前上看,前进法法选择变量的量的经验公式缺乏公式缺乏总体概念,当用于因素分析体概念,当用于因素分析时,建,建议用后用后退法。
当退法。
当变量量间有完全相关性有完全相关性时,后退法无法使用,可用前,后退法无法使用,可用前进法。
法。
5.5.交互作用的引入交互作用的引入n交互作用的定交互作用的定义当自当自变量和因量和因变量的关系随第三个量的关系随第三个变量的量的变化而改化而改变时,则存存在交互作用在交互作用n交互作用交互作用项的引入的引入基于基于临床床实际认为对结果有重要影响果有重要影响基于模型基于模型应用条件的分析用条件的分析引入两个自引入两个自变量的乘量的乘积项n交互作用的交互作用的检验n交互作用的解交互作用的解释6.建立多个模型n饱和模型和模型n自定自定义的模型的模型从从饱和模型中和模型中选择自自变量量再建立模型再建立模型饱和模型(saturatedmodel)是指各观测变量之间均容许相关的最复杂模型,自由度为0.饱和模型其实是人为设定的约束条件最少的模型,纯粹按照数据的相互关系来构建最优的模型,所以,它是数学上最优的模型,一种理想的状态。
7.选择较优的模型n模型模型拟合合优度度检验AIC(Akaikeinformationcriterion):
):
同一同一资料的多个模型的比料的多个模型的比较,此,此值越小,模型越合适。
越小,模型越合适。
SC(Schwartz
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 讲座 logistic20140331