10章Logit回归要点.docx
- 文档编号:4834520
- 上传时间:2022-12-10
- 格式:DOCX
- 页数:50
- 大小:854.21KB
10章Logit回归要点.docx
《10章Logit回归要点.docx》由会员分享,可在线阅读,更多相关《10章Logit回归要点.docx(50页珍藏版)》请在冰豆网上搜索。
10章Logit回归要点
2011・6・23通知:
考试时间改为,2011・6・29下午2:
30,A405教室
参考资料
1、陈峰等,医用多元统计分析方法,中国统计出版社,2000年12月第1版
2、张尧庭,定性数据的统计分析,广西师范大学出版社,佃91年11月第1版
3、阮敬,SAS统计分析一从入门到精通,人民邮电出版社,2009年4月第1版,39.00元
类型
分类(因变量)
例
宀日.疋量
连续/计量
利润
离散/计数
人口
定性(名义)
二分类
性别
多分类(无序)
职业
多分类(有序)
学历
亠、变量的分类
变量的分类
'宀日’连续/计量例如,身高
疋量<
i离散/计数例如,人数
■=有序例如,学历
定性Lv'二分类例如,性别
名义彳
、‘〔多分类例如,职业
注:
计量指标与计数指标一般好区别。
特殊情形下不好区别,如年龄
类型
分类(因变量)
例
方法
分布
备注
宀日.疋量
连续/计量
利润
普通回归
正态
可运算
离散/计数
人口
普通或Log回归
Poiison分布
可运算
定性(名义)
二分类
性别
Logit回归
二项分布
不可运算
多分类
无序
职业
基准一类别Logit回归
r多项分布
不可运算
有序
学历
累积Logit回归
Poiison分布
不可运算
因变量y
自变量xjlix
方法
分布
定量(连续,离散)
定量琏续,离散),定性
普通回归模型:
二分类
连续,定性(二分类,多分类)
Logit模型
二项分布
SAS中可非线性
多分类
多分类(有序)
Logit模型
Poiison分布
SAS中可非线性
多分类(无序)
Logit模型
多项分布
定量,定性
定量,定性
?
】、两分类变量的logistic回归
1、logit变换
考虑上市公司中企业类型(ST与非ST)与财务指标的关系。
常常需要研究事件A发生的概率p大小与某些因素有关。
例如,讨论某特定人群(例如糖尿病患者)中患动脉硬化的概率与年龄的关系。
显然人群中只有两种状态“动脉硬化”和“非动脉硬化”(简称为“患病”和“不患病”),人群
的状态记为y,则“患病”和“不患病”对应着y的两个取值:
y=1,y=0。
用事件表示即
{y=1}—“患病”=“动脉硬化”,{y=0}—“不患病”=“非动脉硬化”
若患病率记为p,则显然
pfyn_p{y=1丄1一p
讨论患病率p与年龄X的关系,显然,患病率随着年龄X的增加而增长。
例,观察了123位糖尿病患者,记录了他们的年龄x以及是否患动脉硬化y。
数据格式见下表,详细数据见附录一2。
表1、糖尿病原始数据(注:
此为简表,详见附录3数据)
编号动脉硬化分类年龄
nyx
1032
123
1
78
符号说明
符号解释注
1——动脉硬化
0——动脉非硬化
编号
是否动脉硬化
年龄
根据这些数据如何分析是否患病y与年龄X的关系?
能否建立y关于x的回归方程?
不行。
因为y的取值并无实际意义。
将数据分组,得到各组的患病率p(见表2),能否建立p关于x的回归方程?
(如何将表1的原始数据整理成表2的分组数据?
详见附录1)。
表2糖尿病分组数据
分组
组号
频数ni
患病频数n⑴
患病频率pin⑴;ni
组中值xi
35以下
1
2
0
0.000
32.5
36—40
2
7
1
0.143
37.5
41—45
3
12
3
0.250
42.5
46—50
4
11
6
0.545
47.5
51—55
5
12
9
0.750
52.5
56—60
6
15
12
0.800
57.5
61—65
7
24
20
0.833
62.5
66—70
8
23
22
0.957
67.5
71—75
9
14
14
1.000
72.5
76以上
10
3
3
1.000
77.5
合计
123
90
0.732
假设能建立P关于
x的回归模型:
P_「0[gx-:
根据表2数据,得如下(普通)回归结果
N=1O
RegressianSummaryforDependentVariable:
p(S|pread9lheet1)
R=.95721507R2=.91626069AdjustedF?
2=.90679327
尸(1.0)=57.535p<.DODD1StdJErrorofestimate..11443
Beta
StdlErr.of曰曰
R
StdErr.ofB
tCB)
P-Iew&I
Iniorcept
-O.&6©
0,143
462
0,002
X
0.957
0.102
0.024
0.003
0.000
得到P关于x的回归方程
P--0.6690.024x
此回归方程是否真实地描述了p与x的关系?
答案是否定的。
原因如下:
第一,当x=75时,p=1.131,而患病率p只能在[0,1]区间内取值,所以p不可能是x的线性函数。
因为二次函数和多项式函数的值域都会超过[0,1]区间,所以p也不可能是x的二次函数或多项式函数。
第二,观察表3和上图可发现,p对x的散点图呈“S”形。
在p=0和p=1附近时,即使x变动很大,p的变动幅度却很小,在p=0.5附近的变动幅度却很大。
又如,多数自然灾害(如地震)发生的概率很小,对其正确预报的概率p更小,接近
于0,即使能找到一些影响p的前兆因素,也不可能将p值提高很多。
从数学上看,p是x的非线性程度较高的函数。
于是,希望寻找一个p的函数f(P),应具有以下两个特征:
(1)函数f(p)在p=0和p=1附近时,变化率较大;
(2)函数f(p)形式不太复杂。
下面寻找函数f(p)。
函数f(p)在p附近的变化率(速度),就是其导数型他。
要希
dp
望df(p)在p=0和p=1附近有较大的值,则自然要考虑函数
dp
1
P(1-p)
此函数的特征是:
当p>0时,f(p)「:
;p>1时,f(pn:
:
。
这符合要求的特征
(1)。
因为要求变化率df(p)在P=0和p=1附近有较大的值,故df(p)应与——1——成正比,记为
df(P)1
OC
dpP(1-P)
将上式取成等式,并作分解
df(p)111
‘‘-"4^”‘
dpP(1-P)P1-P
这是一个简单的微分方程。
容易验证,满足此微分方程的函数(微分方程的解)是
P
f(p)=InInp-1n1-p
(1)
1-p
这是一个并不复杂的对数函数,符合要求的特征
(2)。
故f(p)Jn丄就是要寻找的函数。
1-P
(1)式称为logit变换(logittransformation)。
或许此名称就是“logit'(取对数)之意。
1970年Cox首先研究了logit变换。
从_:
:
变到:
:
。
患病概率p与年龄x不是线性关系,In—与x可以是线性关系,这就克服
1-p
了前面提出的两点困难。
设
p
In0"工必■:
1-p
上式称作P关于x的logit回归模型。
下式称作p关于x的logit回归方程:
p
Ino:
:
Sx
1-p
【注】验证f(p)=In是微分方程的解。
因为—(Inx)=(Inxj=2,所以
1-pdxx
11111
1=
p1-pp1-pP(1-p)
2、例
回到上例。
求患病概率p关于年龄x的logit回归方程:
In—=1x,其中P二P{y=1}
1-P
原假设:
H。
:
口1=0,患病率与年龄无关定性分析:
根据本例的实际背景,可以有如下判断。
回归系数
符号
备注
a
1
+
年龄x是连续定量变量,a1的符号有意义:
患病率与年龄成正比
在statistica中实现logit回归的步骤如下
将表1中的数据复制到statistica中,建立数据文件。
文件格式如下
操作如下。
StatisticsAdvancedLinear/NonlinearModel[NonlinearEstimationQuickLogitregrqssioh
Inputfile|若为原始数据选codesandnocounts在Variables|中选自变量x、因变量y。
若为分组数据选codesandcounts在|Variabled中选自、因变量和频数
OkIQk|Summary(本例为原始数据,故选“nocounts”。
得如下结果
因此,logit回归方程为
InL二:
ojx二-7.5660.158x,其中P=P{y=1}
1-p
0)。
对于检
此结果与定性分析的判断相符。
结果表明:
年龄x的系数检验显著(不为验的问题
拒绝H0
H。
:
口1=0,患病率与年龄无关,
故,患病率与年龄有关:
年龄越大,患病的可能性越大。
logit回归方程可写成如下形式
:
0:
1X.7.566"0.158x
_e即口e
P二,即P二75660.158x
1*e1*e
在同一坐标系中,画出上述logit回归方程的图像和患病频率的散点图。
z,x
由上图可知,logit回归方程与实际患病频率拟合得相当好。
由logit回归方程
Z5660.158Xe
In〔p/(1-P)丨=-7.566■0.158x,或P7.5660.158x
1+e
可进行预测了。
例如将年龄x=60代入上式,得p=0.871,既对于60岁的糖尿病患者,患动脉硬化的概率为0.871。
下面讨论参数%=0.158的统计意义。
3、(二分类)logit回归方程的一般形式
如果影响In—的因素有X!
,X2,ll1,Xp,则多元logit线性回归方程为
1-P
InP0:
1X1:
2X2川:
pXp1-P
「0-:
1X^/2X^■:
kXk
1十0°0屯1X1乜X2十I4UXk
多元logit线性回归方程还有以下等价形式
e
p=
=1
p_1.e«0"1;2x2】・itkXk)
若将In丄看成是因变量,则logit线性回归模型与多元线性回归模型的形式是一致
1-p
的,且有很多共性。
不同的是:
1、logistic回归模型中因变量是二分类的,而且非连续,其误差的分布不再是正态分布,而是二项分布,且所有的分析均建立在二项分布的基础上。
2、由于上述原因,logit回归系数的估计不能再用最小二乘法,而要用极大似然估计法回归模型和回归系数的检验也不是F检验和t检验,而要用Wald检验、似然比检验等。
4、优势
ln°:
0》.二必=-7.5660.158x
1-p
首先看看一P—的统计意乂。
P:
y=1=p是患病的概率,P、y=0$=1-p是不患病的概1-P
率,则就是患病概率与不患病概率之比,称
1-P
P
1-P
为优势(oddS,记为
OD=odds—
1-P
因此,优势OD的统计意义是:
“患病概率”相对于“不患病概率”的倍数。
当OD>1时,“患病概率”大于“不患病概率”;
当OD:
:
:
1时,“患病概率”小于“不患病概率”;当OD=1时,“患病概率”等于“不患病概率”。
因此,多元logit线性回归模型可写为
lnOD「°:
必:
2X2川:
pXp
因P越大,则1-P越小,又Inx是单调函数,故p与OD成正比,OD与InOD成正比
p二ODInOD
InOD越大,则OD越大,则P〈y=1二P““患病”,p越大。
当:
i0时,p与Xi成正比;当:
「:
:
0时,p与Xi成反比。
回到动脉硬化的例子。
模型为
p
InInOD=:
0“场x二-7.5660.158x
1-p
0-1X_7.5660.158X
OD二ee
x=60时,ODxa二e^5660.15860=6.78,“患病”概率是“不患病”概率的6.78倍,或“患病”概率比“不患病”概率高5.78倍。
(odds-可能的机会,成败的可能性,优势,不均,不平等,几率,差别)
6、回归系数的解释与优势比
讨论logit回归模型
p
InInOD=:
0:
「x
1-P
—=OD心-1x
1-p
中,回归系数:
1的统计意义。
当x=xo时,患病的概率记为P0,优势记为OD0;
当x=x01(即x增加1个单位)时,患病的概率记为P1,优势记为OD1则
In二InOD0-■■0'-片沧
1-P0
In乩=InODr=:
0:
[(Xo1)
1-P1
OD1
In=InODr-InOD0
ODo
=•〉i(Xo■1)-:
•ogXo
=〉o*1X0*i—〉o—1X0
即:
1的统计意义是:
自变量增加1个单位,优势OD1与ODo之比的自然对数增(减):
•1
个单位。
(.0时为增,冷:
:
o时为减)
喘,
6、小结
公式
意义
模型
InP二
InOD—oJx,或ODFo:
1X
1-P
OD二p.1_P
事件Cy=1发生的概率是不发生的OD倍
优势
p=OD1-p
:
-1o,x,InOR;:
1o,x,InOR
OR=OD1/OD°
'x增加1个单位,优势增减e^-1倍
1儿力比
OD1©ODo
e1,优势增加;e",优势减小
系数
OD1
In
X增加1个单位,优势比的自然对数增(减)■■1个单位
ODo
三、多分类有序变量的logistic回归
设因变量y为有k个等级的有序变量:
y=12H|,k。
x^(x1^|,xh)为自变量。
记y的
等级为i的概率为P(y=ix)=口,i-1,2^1,k。
则等级小于等于i的概率为
P(y叮x)二P(y=1x)P(y=2x)川P(y=ix)
二PlP2川Pi
称P(y列x)为等级小于等于i的累积概率(cumulativeprobability)。
作logit变换:
P(y>i|x)
叽巳心小巴卡鳥卜)
有序变量的logistic回归模型定义为
h
logitP(yix)-「i
吃恥,i=12川,k—1
i=1
等价于
P(ySx)二
1+expl-ctj+迟Pixi
Iy丿
实际上是将k个等级人为地分为两类:
",2,川,门和,在这两类定义的logit表示:
属于后k-1个等级的累积概率与前i个等级的累积概率的比数之对数,故该模型称为累积比数模型(cumulativeoddsmodel。
X是解释变量均为0时,
■j与i无关,故:
有序变量的累积比数模型有k-1h个参数,:
-和'■j为待估参数(i=1,Hl,k-1,j=1,lil,h),对于任一i,logit(P(y>i|x))是自变量的线性函数。
在某一固定的i下,两类不同概率之比的对数值。
由于回归系数
%“2€川£叭
根据有序变量的logistic回归模型,可得每类结果的概率:
P(y=ix)=P(y⑺x)-P(乞i一1x)八氷u空:
J
1
_(h
1expi「二:
■:
ixi
在此,:
'0定义为定义为F。
当其他变量不变时,为的两个不同取值水平为a,b,其比数比为:
OR=exp:
j(b-a)
可见OR值与:
i无关,回归系数[表示自变量为每改变一个单位,y值提高一个及一个以上个等级之比数比的对数值。
若xj为0-1变量,则e'j恰好是该变量的OR值。
累积比数模型中,假设自变量的回归系数[与j无关。
注意,这里对比的两类是“前i个等级”与“后k-i个等级”,即「1,2,川,门和UVIHk,其余的解释与两类结果的logistic回归一致。
变量的筛选、建模策略等亦相似。
当k=2时,累计比数模型就退化为普通的二类结果的logistic回归。
累积比数模型中,假设自变量的回归系数1与j无关。
如在两种治疗方案(分别记为
y=0,1,2,3)。
x=0,1)的评估中,因变量为:
无效,有效,显效,治愈四个等级(分别记为按有序分类将其分为两类,有三种分法:
第1种:
{0},{1,2,3}
第2种:
{0,1},{2,3}
第3种:
{0,1,2},{3}
按照累积比数模型的假定:
无论对哪种分法,治疗方案的效应是相同的。
模型为:
文化程度,结果见下表。
试分析两者间的关系
表3儿童智商与母亲学历分组数据
c
合计
智商y
0小学
1初中
2高中专
3大专
仁中下
22
57
11
1
91
2二中等
81
236
112
4
433
3二中上
30
135
105
10
280
4二上等
3
26
17
7
:
53:
合计
136
454
245
22
这里,儿童智商是多分类定性有序变量,宜建立累积比数logistic回归。
影响因素母亲
文化程度亦是多分类定性有序变量,可直接进入方程。
变量
回归系数
标准误差
Z
P
x
0.6373
0.0934
6.824
0.00
:
-1
-1.4578
0.1454
常数项
:
'2
1.2254
0.1358
:
'3
3.5630
0.1935
回归模型见表
logitP(yix)--二0.6373x
这里:
i=1,2,3,—1.4578,:
-2=1.2254,:
3=3.5630。
1
y=1的概率为:
P(y胡x)1.45780.637371096
1+e
11
y=2的概率为:
P(y-2X)1.22540.63731.457806373_0.5333
1+e1+e
11
y=3的概率为:
P(y=3X)二…-0.3062
1+e1+e
1
y=4的概率为:
P(^4x)=1356300637^0.0509
1+e
实际上,x=1时,y=1,2,3,4的观察频率为:
57454=0.1256,236454=0.5198,
13545^0.2974,2645^0.0573。
理论概率与实际频率很接近。
【例】王静龙p.174
某校女教师抱怨,在过去一年里,升职的比例较男教师明显偏低,有歧视女教师的倾向。
下表是学校的有关数据。
试分析有无歧视女教师的倾向。
表4教师晋升分组数据
性别s
0-女,1-男
晋升y
0-否,1-是
工龄g
学历c
0
1
2
3
0
0
(5年及以下)1
198
207
189
189
0
0
(6至15年)2
179
236
163
137
0
0
(16至30年)3
193
184
147
91
0
0
(30年以上)4
186
151
83
41
0
1
1
3
5
7
12
0
1
2
5
10
10
14
0
1
3
9
13
15
15
0
1
4
14
16
16
11
1
0
1
49
97
142
185
1
0
2
96
140
182
176
1
0
3
141
183
170
137
1
0
4
179
157
117
101
1
1
1
1
2
6
13
1
1
2
3
7
13
20
1
1
3
7
14
20
25
1
1
4
15
20
23
31
指标说明
符号
指标
类型
取值
s
性别
定性二分类无序
0,1—女,男
y
晋升
定性二分类
0,1—未升职,升职
g
工龄
定量连续
分4组一1,2,3,4
按定性有序多分类处理
c
文化
定性多分类有序
0,1,2,3—专科,本科,硕士,博士
f
频数
定量,离散
具有某些特征的人数
表3—教师晋升复合分组数据的格式,软件是无法识别的,必须将表3转换成软件能
识别的下述形式,见下面的表4。
表5教师晋升分组数据(软件识别格式!
)(注:
此为简表,详见附录3数据)
n
s
y
g
c
f
1
0
0
1
0
198
r64
r1
1
4
3
31
设升职的概率为p,即P「y=1;=p,影响p的因素有:
S—性别,工龄一G,学历一
C。
显然,性别是二分类变量;工龄本质上是连续变量,因进行了分组,故将工龄转换为定性有序变量;学历是定性有序变量。
则设logistic模型为
In「=":
S:
GC,其中P'y=1,p
1-p
原假设:
H°s:
。
=0,晋升与性别无关
Hog:
,晋升与工龄无关
Hoc:
Y=0,晋升与学历无关
定性分析:
根据本例的实际背景,可以有如下判断。
回归系数
符号
备注
a
X
性别是定性无序变量,
a的符号无意义。
但a是否等于0有意义
P彳
+
工龄是定量变量,
0的符号有意义:
晋升与工龄成正比
+
学历是定性有序变量,
丁的符号有意义:
晋升与学历成止比
将表4中的数据复制到statistica中,建立数据文件,格式如下图
在statistica中实现logit回归的步骤如下:
StatisticSAdvancedLinear/NonlinearModel〔NonlinearEstimationQuickLogi!
regrqssioh
Input'file原始数据选codesandnocounts在[Variables]中选定自、因变量
分组
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 10 Logit 回归 要点