SPSS实验8二项Logistic回归分析.docx
- 文档编号:12870315
- 上传时间:2023-04-22
- 格式:DOCX
- 页数:27
- 大小:25.21KB
SPSS实验8二项Logistic回归分析.docx
《SPSS实验8二项Logistic回归分析.docx》由会员分享,可在线阅读,更多相关《SPSS实验8二项Logistic回归分析.docx(27页珍藏版)》请在冰豆网上搜索。
SPSS实验8二项Logistic回归分析
SPSS作业8:
二项Logistic回归分析
为研究和预测某商品消费特点和趋势,收集到以往胡消费数据。
数据项包括是否购买,性别,年龄和收入水平。
这里采用Logistic回归的方法,是否购买作为被解释变量(0/1二值变量),其余各变量为解释变量,且其中性别和收入水平为品质变量,年龄为定距变量。
变量选择采用Enter方法,性别以男为参照类,收入以低收入为参照类。
(一)基本操作:
(1)选择菜单Analyze-Regression-BinaryLogistic;
(2)选择是否购买作为被解释变量到Dependent框中,选其余各变量为解释变量到Covariates框中,采用Enter方法,结果如下:
消费的二项Logistic分析结果
(一)(强制进入策略)
CategoricalVariablesCodings
^
Frequency
Parametercoding
(1)
(2)
收入
低收入
[
132
.000
.000
中收入
144
.000
高收入
155
、
.000
性别
男
191
.000
女
240
《
分析:
上表显示了对品质变量产生虚拟变量的情况,产生的虚拟变量命名为原变量名(编码)。
可以看到,对收入生成了两个虚拟变量名为Income
(1)和Income
(2),分别表示是否中收入和是否高收入,两变量均为0时表示低收入;对性别生成了一个虚拟变量名为Gedder
(1),表示是否女,取值为0时表示为男。
消费的二项Logistic分析结果
(二)(强制进入策略)
Block0:
BeginningBlock
ClassificationTablea,b
Observed
Predicted
~
是否购买
PercentageCorrect
不购买
购买
Step0
是否购买
】
不购买
269
0
购买
162
0
.0
)
OverallPercentage
a.Constantisincludedinthemodel.
b.Thecutvalueis.500
—
分析:
上表显示了Logistic分析初始阶段(第零步)方程中只有常数项时的错判矩阵。
可以看到:
269人中实际没购买且模型预测正确,正确率为100%;162人中实际购买了但模型均预测错误,正确率为0%。
模型总的预测正确率为%。
消费的二项Logistic分析结果(三)(强制进入策略)
VariablesintheEquation
B
.
Wald
]
df
Sig.
Exp(B)
Step0
Constant
.099
1
.000
.602
(
分析:
上表显示了方程中只有常数项时的回归系数方面的指标,各数据项的含义依次为回归系数,回归系数标准误差,Wald检验统计量的观测值,自由度,Wald检验统计量的概率p值,发生比。
由于此时模型中未包含任何解释变量,因此该表没有实际意义。
消费的二项Logistic分析结果(四)(强制进入策略)
VariablesnotintheEquation
Score
df
-
Sig.
Step0
Variables
age
1
.260
gender
(1)
》
1
.031
income
2
.005
income
(1)
^
1
.087
income
(2)
1
.001
OverallStatistics
、
4
.001
分析:
上表显示了待进入方程的各个变量的情况,各数据项的含义依次为Score检验统计量的观测值,自由度和概率p值。
可以看到,如果下一步Age进入方程,则Score检验统计量的观测值为,概率p值为。
如果显著性水平a为,由于Age的概率p值大于显著性水平a,所以是不能进入方程的。
但在这里,由于解释变量的筛选策略为Enter,所以这些变量也被强行进入方程。
消费的二项Logistic分析结果(五)(强制进入策略)
Block1:
Method=Enter
OmnibusTestsofModelCoefficients
—
Chi-square
df
Sig.
Step1
Step
4
.001
Block
'
4
.001
Model
4
.001
分析:
上表显示了Logistic分析第一步时回归方程显著性检验的总体情况,各数据项的含义依次为似然比卡方的观测值,自由度和概率p值。
可以看到,在本步所选变量均进入方程(Method=Enter)。
与前一步相比,似然比卡方检验的观测值,概率p值为。
如果显著性水平a为,由于概率p值小于显著性水平a,应拒绝零假设,认为所有回归系数不同时为0,解释变量的全体与LogitP之间的线性关系显著,采用该模型是合理的。
在这里分别输出了三行似然比卡方值。
其中,Step行是本步与前一步相比的似然卡方比;Block行是本块(Block)与前一块相比的似然卡方比;Model行是本模型与前一模型相比的似然卡方比。
在本例中,由于没有设置解释变量块,且解释变量是一次性强制进入模型,所以三行结果都相同。
|
消费的二项Logistic分析结果(六)(强制进入策略)
ModelSummary
Step
-2Loglikelihood
Cox&SnellRSquare
NagelkerkeRSquare
1
552.208a
.042
[
.057
a.Estimationterminatedatiterationnumber4becauseparameterestimateschangedbylessthan.001.
分析:
上表显示了当前模型拟合优度方面的指标,各数据项的含义依次为-2倍的对数似然函数值,Cox&SnellR^2。
-2倍的对数似然函数值越小则模型的拟合优度越高。
这里该值较大,所以模型的拟合优度并不理想。
从NagelkerkeR^2也可以看到其值接近零,因此拟合优度比较低。
消费的二项Logistic分析结果(七)(强制进入策略)
ClassificationTablea
Observed
Predicted
/
是否购买
PercentageCorrect
不购买
购买
Step1
是否购买
~
不购买
236
33
购买
131
31
…
OverallPercentage
a.Thecutvalueis.500
分析:
上表显示了当前所得模型的错判矩阵。
可以看到,脚注中的TheCutvalueis.500意味着:
如果预测概率值大于,则认为被解释变量的分类预测值为1,如果小于,则认为被解释变量的分类预测值为0.;在实际没购买的269人中,模型正确识别了236人,识别错误了131人,正确率为%。
模型总的预测正确率为%。
与前一步相比,对未购买的预测准确度下降了,对购买的预测准确度上升了,但总体预测精度仍下降了。
因此模型预测效果并不十分理想。
#
消费的二项Logistic分析结果(八)(强制进入策略)
VariablesintheEquation
B
.
Wald
df
Sig.
Exp(B)
!
Step1a
age
.025
.018
1
.160
gender
(1)
.511
。
.209
1
.015
income
2
》
.002
income
(1)
.101
.263
.146
1
.703
%
income
(2)
.787
.253
1
.002
Constant
.754
'
1
.005
.121
a.Variable(s)enteredonstep1:
age,gender,income.
分析:
上表显示了当前所得模型中各个回归系数方面的指标。
可以看出,如果显著性水平a为,由于Age的Wald检验概率p值大于显著性水平a,不应拒绝零假设,认为该回归系数与0无显著差异,它与LogitP的线性关系是不显著的,不应保留在方程中。
由于方程中包含了不显著的解释变量,因此该模型是不可用的,应重新建模。
;
下面是对模型做进一步分析,解释变量的筛选采用基于极大似然估计的逐步筛选策略(Forward:
LR),分析的具体操作以及结果如下:
(二)基本操作:
(1)选择菜单Analyze-Regression-BinaryLogistic;
(2)选择是否购买作为被解释变量到Dependent框中,选其余各变量为解释变量到Covariates框中,采用Forward:
LR方法,在Option框中对模型做近一步分析,结果如下:
消费的二项Logistic分析结果
(一)(逐步筛选策略)
Block1:
Method=ForwardStepwise(LikelihoodRatio)
OmnibusTestsofModelCoefficients
Chi-square
!
df
Sig.
Step1
Step
2
.005
Block
2
\
.005
Model
2
.005
Step2
Step
1
.015
Block
3
.001
Model
3
.001
]
消费的二项Logistic分析结果
(二)(逐步筛选策略)
ModelifTermRemoved
Variable
ModelLogLikelihood
Changein-2LogLikelihood
df
Sig.oftheChange
Step1
income
】
2
.005
Step2
gender
1
.015
income
@
2
.003
分析:
上面第一个表显示了变量逐步筛选过程中对数似然比卡方检验的结果,用于回归方程的显著性检验。
这里略去了第零步分析的结果。
结果上面的两个表共同分析。
在Step1中,模型中包含常数项和INCOME。
如果此时剔除INCOME将使-2LL减少,即是INCOME进入模型引起的,即为零模型的对数似然比;在Step2中,模型中包含常数项,INCOME,GENDER。
此时剔除GENDER,即-2LL将减少,即是在Step1基础上GENDER所引起的,即为Step1模型的对数似然比,此时-2*+2*=,即INCOME引起的。
其他同理。
可以看到,如果显著性水平a为,由于各步的概率p值均小于显著性水平a,因此此时模型中的解释变量全体与LogitP的线性关系是显著,模型合理。
消费的二项Logistic分析结果(三)(逐步筛选策略)
VariablesintheEquation
…
B
.
Wald
df
Sig.
Exp(B)
%EXP(B)
Lower
Upper
Step1a
income
》
2
.005
income
(1)
.006
.259
.001
1
)
.982
.606
income
(2)
.672
.247
1
.006
>
Constant
.187
1
.000
.467
)
Step2b
gender
(1)
.504
.209
1
.016
:
income
2
.003
income
(1)
.096
.263
.134
1
.714
.658
\
income
(2)
.761
.251
1
.002
Constant
"
.240
1
.000
.329
a.Variable(s)enteredonstep1:
income.
`
b.Variable(s)enteredonstep2:
gender.
分析:
上表显示了解释变量筛选的过程和各解释变量的回归系数检验结果。
可以看到,最终的模型(第二步)中包含了性别和收入变量,各自回归系数显著性检验的Wald观测值对应的概率p值都小于显著性水平a,因此均拒绝零假设,意味它们与LogitP的线性关系是显著,应保留在方程中。
表中的第七,第八列分别是发生比的95%的置信区间。
>
最终年龄变量没有引入方程,因为如果引入则相应的Score检验的概率p值大于显著性水平a,不应拒绝零假设,它与LogitP的线性关系不显著,不应进入方程。
具体结果如下:
消费的二项Logistic分析结果(四)(逐步筛选策略)
VariablesnotintheEquation
Score
df
Sig.
Step1
】
Variables
age
1
.174
gender
(1)
1
.015
OverallStatistics
2
.020
Step2
Variables
age
1
.159
OverallStatistics
1
.159
消费的二项Logistic分析结果(五)(逐步筛选策略)
ModelSummary
Step
-2Loglikelihood
Cox&SnellRSquare
!
NagelkerkeRSquare
1
560.107a
.024
.033
2
.037
.051
a.Estimationterminatedatiterationnumber3becauseparameterestimateschangedbylessthan.001.
b.Estimationterminatedatiterationnumber4becauseparameterestimateschangedbylessthan.001.
!
分析:
上表显示了模型拟合优度方面的测度指标。
最终模型的-2倍的对数似然函数值为,仍然较高,说明模型的拟合优度不甚理想。
同时,NagelkerkeR^2距1较远,也说明了模型的拟合优度不高。
消费的二项Logistic分析结果(六)(逐步筛选策略)
HosmerandLemeshowTest
Step
Chi-square
df
Sig.
1
。
.000
1
2
4
.063
消费的二项Logistic分析结果(七)(逐步筛选策略)
ContingencyTableforHosmerandLemeshowTest
,
是否购买=不购买
是否购买=购买
Total
Observed
Expected
Observed
Expected
}
Step1
1
90
42
132
2
98
—
46
144
3
81
74
155
Step2
[
1
35
8
43
2
58
15
[
73
3
55
34
89
4
~
40
31
71
5
37
38
75
6
44
36
80
分析:
上面是Hosmer-Lemeshow检验的结果。
最终模型中,Hosmer-Lemeshow统计量的观测值为,概率p值为,大于显著性水平a,因此不应拒绝零假设,认为该组的划分与被解释变量的取值不相关,说明模型的拟合优度较低。
它与NagelkerkeR^2分析的结果是一致的。
.
消费的二项Logistic分析结果(八)(逐步筛选策略)
ClassificationTablea
Observed
Predicted
是否购买
PercentageCorrect
不购买
购买
Step1
是否购买
不购买
269
0
购买
162
0
.0
OverallPercentage
Step2
}
是否购买
不购买
225
44
购买
126
36
OverallPercentage
a.Thecutvalueis.500
Step number:
2
【
Observed Groups and Predicted Probabilities
160 ┼ ┼
│ │
│ │
F │ │
R 120 ┼ ┼
E │ │
Q │ │
U │ 1 │
E 80 ┼ 1 1 1 ┼
`
N │ 1 1 1 1 1 │
C │ 0 0 1 1 1 │
Y │ 0 0 1 1 1 │
40 ┼ 0 0 0 0 0 0 ┼
│ 0 0 0 0 0 0 │
│ 0 0 0 0 0 0 │
│ 0 0 0 0 0 0 │
Predicted ─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼──────────
Prob:
0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1
Group:
00000000000000000000000000000000000000000000000000
@
Predicted Probability is of Membership for 购买
The Cut Value is .50
Symbols:
0 - 不购买
1 - 购买
Each Symbol Represents 10 Cases.
图:
消费的二项Logistic分析预测分类图
分析:
上表显示了各模型的错判矩阵。
第一个模型的总体正确率为%,对不购买人群预测的准确率极高,但对购买人群预测的准确率极低;第二个模型的总体正确率为%,对不购买人群预测的准确率下降了,但对购买人群预测的准确率提高了。
从应用角度看第二个模型较第一个模型的应用性略强一些。
在上图中,符号0表示实际未购买,1表示实际购买,一个符号代表10个样本。
预测概率值大于的样本属于购买类,小于的属于未购买类。
可以看
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 实验 Logistic 回归 分析