SPSS实验8 二项Logistic回归分析教学文稿.docx
- 文档编号:11310877
- 上传时间:2023-02-26
- 格式:DOCX
- 页数:28
- 大小:28.30KB
SPSS实验8 二项Logistic回归分析教学文稿.docx
《SPSS实验8 二项Logistic回归分析教学文稿.docx》由会员分享,可在线阅读,更多相关《SPSS实验8 二项Logistic回归分析教学文稿.docx(28页珍藏版)》请在冰豆网上搜索。
SPSS实验8二项Logistic回归分析教学文稿
Logistic回归分析作业8:
二项SPSS
回归的方法,是否购为研究和预测某商品消费特点和趋势,收集到以往胡消费数据。
数据项包括是否购买,性别,年龄和收入水平。
这里采用Logistic方法,性别以Enter二值变量)买作为被解释变量(0/1,其余各变量为解释变量,且其中性别和收入水平为品质变量,年龄为定距变量。
变量选择采用男为参照类,收入以低收入为参照类。
(一)基本操作:
BinaryLogistic;-Regression-
(1)选择菜单Analyze方法,结果如下:
框中,采用Enter2)选择是否购买作为被解释变量到Dependent框中,选其余各变量为解释变量到Covariates(
消费的二项Logistic分析结果
(一)(强制进入策略)
CategoricalVariablesCodings
Parametercoding
(1)
(2)Frequency
收入低收入.000132.000
中收入.0001441.000
高收入1.000
155.000
性别男.000191
女1.000240
分析:
上表显示了对品质变量产生虚拟变量的情况,产生的虚拟变量命名为原变量名(编码)。
可以看到,对收入生成了两个虚拟变量名为Income
(1)0,表示是否女,取值为)1(Gedder时表示低收入;对性别生成了一个虚拟变量名为0,分别表示是否中收入和是否高收入,两变量均为)2(Income和
时表示为男。
分析结果
(二)(强制进入策略)消费的二项LogisticBlock0:
BeginningBlock
a,bClassificationTablePredicted
是否购买Percentage
购买不购买Correct
Observed
不购买是否购买100.0
Step0
2690
购买.0162
0
62.4
OverallPercentage
a.Constantisincludedinthemodel.
b.Thecutvalueis.500
分析:
上表显示了Logistic分析初始阶段(第零步)方程中只有常数项时的错判矩阵。
可以看到:
269人中实际没购买且模型预测正确,正确率为100%;162人中实际购买了但模型均预测错误,正确率为0%。
模型总的预测正确率为62.4%。
消费的二项Logistic分析结果(三)(强制进入策略)
VariablesintheEquation
B
S.E.
Wald
df
Sig.
Exp(B)
VariablesintheEquationExp(B)
Sig.
S.E.
Walddf
B
.602
.099
1
-.507
26.002
Step0
Constant
.000
检验统计量的观测值,自由Wald分析:
上表显示了方程中只有常数项时的回归系数方面的指标,各数据项的含义依次为回归系数,回归系数标准误差,值,发生比。
由于此时模型中未包含任何解释变量,因此该表没有实际意义。
检验统计量的概率p度,Wald
消费的二项Logistic分析结果(四)(强制进入策略)
VariablesnotintheEquation
Scoredf
Sig.
.260age1Step0
1.268Variables
.0314.667gender
(1)1
.005income10.6402
.0871income
(1)2.935
.0011income
(2)
10.640
.001
4
OverallStatistics
18.273
分析:
上表显示了待进入方程的各个变量的情况,各数据项的含义依次为Score检验统计量的观测值,自由度和概率p值。
可以看到,如果下一步Age进入方程,则Score检验统计量的观测值为1.268,概率p值为0.26。
如果显著性水平a为0.05,由于Age的概率p值大于显著性水平a,所以是不能进入方程的。
但在这里,由于解释变量的筛选策略为Enter,所以这些变量也被强行进入方程。
消费的二项Logistic分析结果(五)(强制进入策略)Block1:
Method=Enter
OmnibusTestsofModelCoefficientsSig.
df
Chi-square
.001Step1
4Step18.441
.001Block418.441
.001
Model
18.441
4
分析:
上表显示了Logistic分析第一步时回归方程显著性检验的总体情况,各数据项的含义依次为似然比卡方的观测值,自由度和概率p值。
可以看到,在本步所选变量均进入方程(Method=Enter)。
与前一步相比,似然比卡方检验的观测值18.441,概率p值为0.001。
如果显著性水平a为0.05,由于概率p值小于显著性水平a,应拒绝零假设,认为所有回归系数不同时为0,解释变量的全体与LogitP之间的线性关系显著,采用该模型是合理的。
在这里分别输出了三行似然比卡方值。
其中,Step行是本步与前一步相比的似然卡方比;Block行是本块(Block)与前一块相比的似然卡方比;Model行是本模型与前一模型相比的似然卡方比。
在本例中,由于没有设置解释变量块,且解释变量是一次性强制进入模型,所以三行结果都相同。
消费的二项Logistic分析结果(六)(强制进入策略)
ModelSummary
Cox&SnellR
NagelkerkeR
Square
Square
Step-2Loglikelihood
a.057
1
552.208.042
a.Estimationterminatedatiterationnumber4because
parameterestimateschangedbylessthan.001.
倍的对数似然函数值越小则模型的-2倍的对数似然函数值,Cox&SnellR^2。
上表显示了当前模型拟合优度方面的指标,各数据项的含义依次为分析:
-2也可以看到其值接近零,因此拟合优度比较低。
拟合优度越高。
这里该值较大,所以模型的拟合优度并不理想。
从NagelkerkeR^2
消费的二项Logistic分析结果(七)(强制进入策略)
aClassificationTablePredicted
是否购买Percentage
购买不购买Correct
Observed
不购买是否购买87.7Step1
23633
购买19.1131
31
61.9
OverallPercentage
a.Thecutvalueis.500
分析:
上表显示了当前所得模型的错判矩阵。
可以看到,脚注中的TheCutvalueis.500意味着:
如果预测概率值大于0.5,则认为被解释变量的分类预测值为1,如果小于0.5,则认为被解释变量的分类预测值为0.;在实际没购买的269人中,模型正确识别了236人,识别错误了131人,正确率为19.1%。
模型总的预测正确率为61.9%。
与前一步相比,对未购买的预测准确度下降了,对购买的预测准确度上升了,但总体预测精度仍下降了。
因此模型预测效果并不十分理想。
消费的二项Logistic分析结果(八)(强制进入策略)
VariablesintheEquation
B
S.E.
Wald
df
Sig.
Exp(B)
aageStep1gender
(1)incomeincome
(1)income
(2)Constant
.025.511.101.787-2.112
.018.209.263.253.754
1.9745.95412.305.1469.6767.843
112111
.160.015.002.703.002.005
1.0261.6671.106
2.196.121
a.Variable(s)enteredonstep1:
age,gender,income.
分析:
上表显示了当前所得模型中各个回归系数方面的指标。
可以看出,如果显著性水平a为0.05,由于Age的Wald检验概率p值大于显著性水平a,不应拒绝零假设,认为该回归系数与0无显著差异,它与LogitP的线性关系是不显著的,不应保留在方程中。
由于方程中包含了不显著的解释变量,因此该模型是不可用的,应重新建模。
下面是对模型做进一步分析,解释变量的筛选采用基于极大似然估计的逐步筛选策略(Forward:
LR),分析的具体操作以及结果如下:
(二)基本操作:
(1)选择菜单Analyze-Regression-BinaryLogistic;
(2)选择是否购买作为被解释变量到Dependent框中,选其余各变量为解释变量到Covariates框中,采用Forward:
LR方法,在Option框中对模型做近一步分析,结果如下:
消费的二项Logistic分析结果
(一)(逐步筛选策略)
Block1:
Method=ForwardStepwise(LikelihoodRatio)
OmnibusTestsofModelCoefficients
Sig.
Chi-square
df
.00510.543StepStep1
2
.005Block10.5432
.00510.543Model
2
.015Step25.9171Step
Block.00116.4593
Model
3
16.459
.001
消费的二项Logistic分析结果
(二)(逐步筛选策略)
ModelifTermRemoved
ModelLog
Changein-2Log
Sig.ofthe
Change
Likelihood
df
Likelihood
Variable
.0052income-285.32510.543Step1
.015gender1-280.0535.917Step2
.003
-282.976
income
11.761
2
分析:
上面第一个表显示了变量逐步筛选过程中对数似然比卡方检验的结果,用于回归方程的显著性检验。
这里略去了第零步分析的结果。
结果上面的两个表共同分析。
在Step1中,模型中包含常数项和INCOME。
如果此时剔除INCOME将使-2LL减少10.543,即10.543是INCOME进入模型引起的,-285.325即为零模型的对数似然比;在Step2中,模型中包含常数项,INCOME,GENDER。
此时剔除GENDER,即-2LL将减少5.917,即5.917是在Step1基础上GENDER所引起的,-280.053即为Step1模型的对数似然比,此时-2*285.325+2*280.053=10.543,即INCOME引起的。
其他同理。
可以看到,如果显著性水平a为0.05,由于各步的概率p值均小于显著性水平a,因此此时模型中的解释变量全体与LogitP的线性关系是显著,模型合理。
消费的二项Logistic分析结果(三)(逐步筛选策略)
VariablesintheEquationVariablesnotintheEquation是否购买不购买2690100.0
Step1
ageStep1
Variables购买OverallPercentage
B
S.E.Score
Walddf1.848162
dfSig.10
Sig..174.062.4
Exp(B)
95.0%C.I.forEXP(B)
Lower
Upper
aStep1incomeincome
(1)income
(2)Constant
bStep2gender
(1)incomeincome
(1)income
(2)Constantgender
(1)OverallStatistics
Step2VariablesageOverallStatisticsContingencyTableforHosmerandLemeshowTest是否购买Observed1Step1是否购买不购买Step2购买OverallPercentagea.Thecutvalueis.500
是否购年龄买410470411139032032
.006.672-.762.504.096.761-1.113=不购买Expected90性别222222
.259.247.187.209.263.251.240是否购买Observed90.000收入
10.512.0017.42416.6345.82411.669.1349.14721.4325.8657.8241.9841.984=购买Expected42225126111111
211112111121142.00044361000100
.005.982.006.000.016.003.714.002.000.015.020.159.159Total
13283.622.260.649464140443540
1.0061.958.4671.6561.1012.139.3292222222
.6061.2081.099.6581.3073333333
1.6703.1742.4931.8433.502
a.Variable(s)enteredonstep1:
income.
b.Variable(s)enteredonstep2:
gender.3370332210
3320145221
分析:
上表显示了解释变量筛选的过程和各解释变量的回归系数检验结果。
可以看到,最终的模型(第二步)中包含了性别和收入变量,各自回归系数显著性检验的Wald观测值对应的概率p值都小于显著性水平a,因此均拒绝零假设,意味它们与LogitP的线性关系是显著,应保留在方程中。
表中的第七,第八列分别是发生比的95%的置信区间。
最终年龄变量没有引入方程,因为如果引入则相应的Score检验的概率p值大于显著性水平a,不应拒绝零假设,它与LogitP的线性关系不显著,不应进入方程。
具体结果如下:
消费的二项Logistic分析结果(四)(逐步筛选策略)
消费的二项Logistic分析结果(五)(逐步筛选策略)
ModelSummary
Cox&SnellR
NagelkerkeR
Square
Square
-2Loglikelihood
Step
a.0331560.107.024
b.051
554.190.037
2
a.Estimationterminatedatiterationnumber3because
parameterestimateschangedbylessthan.001.
b.Estimationterminatedatiterationnumber4because
parameterestimateschangedbylessthan.001.
,仍然较高,说明模型的拟合优度不甚理想。
同时,554.190倍的对数似然函数值为-2上表显示了模型拟合优度方面的测度指标。
最终模型的分析:
1较远,也说明了模型的拟合优度不高。
NagelkerkeR^2距
分析结果(六)(逐步筛选策略)消费的二项LogisticHosmerandLemeshowTest
StepChi-square
df
Sig.
1.000.00011
.063
4
2
8.943
消费的二项Logistic分析结果(七)(逐步筛选策略)
1449846.000298.00046
15574.0003
8181.00074
4310.6378Step232.363351
2731519.3985853.602
3348931.36357.63755
43126.6027144.39840
5
75
30.965
38
44.035
37
ContingencyTableforHosmerandLemeshowTest购买=是否购买是否购买=不购买Expected
Observed
Total
Expected
Observed
13242Step1
9090.000142.000
14498.0004646.000982
15581.000743
8174.000
43835Step232.36310.6371
21519.3985853.60273
35531.363348957.637
44026.602317144.398
530.9653744.0357538
6
44
43.035
80
36
36.965
分析:
上面是Hosmer-Lemeshow检验的结果。
最终模型中,Hosmer-Lemeshow统计量的观测值为8.943,概率p值为0.063,大于显著性水平a,因此不应拒绝零假设,认为该组的划分与被解释变量的取值不相关,说明模型的拟合优度较低。
它与NagelkerkeR^2分析的结果是一致的。
消费的二项Logistic分析结果(八)(逐步筛选策略)
aClassificationTablePredicted
是否购买Percentage
Observed
不购买购买Correct
Stepnumber:
2
ObservedGroupsandPredictedProbabilities
160┼┼
││
│││F│
┼┼R120
│E│
││Q
│1U│
┼┼E80111
││N11111
││C00111
│00111│Y
40┼000000┼
│000000│
│000000│
│000000│
Predicted─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼──────────
Prob:
0.1.2.3.4.5.6.7.8.91
Group:
0000000000000000000000000000000000000000000000000011111111111111111111111111111111111111111111111111
PredictedProbabilityisofMembershipfor购买
TheCutValueis.50
Symbols:
0-不购买
1-购买
EachSymbolRepresents10Cases.图:
消费的二项Logistic分析预测分类图
分析:
上表显示了各模型的错判矩阵。
第一个模型的总体正确率为62.4%,对不购买人群预测的准确率极高,但对购买人群预测的准确率极低;第二个模型的总体正确率为60.6%,对不购买人群预测的准确率下降了,但对购买人群预测的准确率提高了。
从应用角度看第二个模型较第一个模型的应用性略强一些。
在上图中,符号0表示实际未购买,1表示实际购买,一个符号代表10个样本。
预测概率值大于0.5的样本属于购买类,小于0.5的属于未购买类。
可以看出:
在模型预测出的购买类中,仍有40个左右(4个0,精确值为44)实际未购买;同样,在模型预测出的未购买类中,仍有110个左右(11个1,精确值为126)实际购买了。
模型的预测效果并不很理想。
通过以上的分析知道,该模型的预测效果不很理想。
也就是说,仅通过性别和收入来预测是否购买商品是不全面的,还应考虑其他因素。
但是该模型仍可以用于分析是否购买和收入之间的关系。
由上面的分析结果,可以写出Logistic回归方程:
LogitP=-1.11+0.504gender
(1)
LogitP=-1.11+0.504gender
(1)+0.096income
(1)
)2(+0.761income)1(1.11+0.504gender-LogitP=
上面的第一个式子反映了女性与男性在购买上的差异。
女性较男性使LogitP平均增长0.504个单位。
结合发生比可知,女性的购买发生比是男性的1.656倍,因此女性更倾向购买该商品。
进一步分析,上面的第二个式子反映了女性顾客群中中等收入较低等收入在购买上的差异。
对于女性顾客群,中等收入较低等收入使LogitP平均增长0.096个单位。
结合发生比可知,女性顾客群中,中等收入的购买发生比是低等收入的1.101倍(有95%的把握在0.658至1.67之间),略高一些,但差异并不十分明显。
而通过上面的第三个式子可知,对于女性顾客群,高等收入较低等收入使LogitP平均增长0.761个单位。
结合发生比可知,女性顾客群中,高等收入的购买发生比是低等收入的2.139倍(有95%的把握在1.099至2.4
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS实验8 二项Logistic回归分析教学文稿 SPSS 实验 Logistic 回归 分析 教学 文稿