书签分享收藏举报版权申诉 / 28

立即下载加入VIP,免费下载

当前位置：首页 > 医药卫生 > 预防医学 > SPSS实验8 二项Logistic回归分析教学文稿.docx

SPSS实验8 二项Logistic回归分析教学文稿.docx

文档编号：11310877
上传时间：2023-02-26
格式：DOCX
页数：28
大小：28.30KB

《SPSS实验8 二项Logistic回归分析教学文稿.docx》由会员分享，可在线阅读，更多相关《SPSS实验8 二项Logistic回归分析教学文稿.docx（28页珍藏版）》请在冰豆网上搜索。

SPSS实验8 二项Logistic回归分析教学文稿.docx

SPSS实验8二项Logistic回归分析教学文稿

Logistic回归分析作业8：

二项SPSS

回归的方法，是否购为研究和预测某商品消费特点和趋势，收集到以往胡消费数据。

数据项包括是否购买，性别，年龄和收入水平。

这里采用Logistic方法，性别以Enter二值变量）买作为被解释变量（0/1，其余各变量为解释变量，且其中性别和收入水平为品质变量，年龄为定距变量。

变量选择采用男为参照类，收入以低收入为参照类。

（一）基本操作：

BinaryLogistic;－Regression－

（1）选择菜单Analyze方法，结果如下：

框中，采用Enter2）选择是否购买作为被解释变量到Dependent框中，选其余各变量为解释变量到Covariates（

消费的二项Logistic分析结果

（一）（强制进入策略）

CategoricalVariablesCodings

Parametercoding

（1）

（2）Frequency

收入低收入.000132.000

中收入.0001441.000

高收入1.000

155.000

性别男.000191

女1.000240

分析：

上表显示了对品质变量产生虚拟变量的情况，产生的虚拟变量命名为原变量名（编码）。

可以看到，对收入生成了两个虚拟变量名为Income

（1）0，表示是否女，取值为）1（Gedder时表示低收入；对性别生成了一个虚拟变量名为0，分别表示是否中收入和是否高收入，两变量均为）2（Income和

时表示为男。

分析结果

（二）（强制进入策略）消费的二项LogisticBlock0:

BeginningBlock

a,bClassificationTablePredicted

是否购买Percentage

购买不购买Correct

Observed

不购买是否购买100.0

Step0

2690

购买.0162

0

62.4

OverallPercentage

a.Constantisincludedinthemodel.

b.Thecutvalueis.500

分析：

上表显示了Logistic分析初始阶段（第零步）方程中只有常数项时的错判矩阵。

可以看到：

269人中实际没购买且模型预测正确，正确率为100％；162人中实际购买了但模型均预测错误，正确率为0%。

模型总的预测正确率为62.4％。

消费的二项Logistic分析结果（三）（强制进入策略）

VariablesintheEquation

B

S.E.

Wald

df

Sig.

Exp（B）

VariablesintheEquationExp（B）

Sig.

S.E.

Walddf

B

.602

.099

1

-.507

26.002

Step0

Constant

.000

检验统计量的观测值，自由Wald分析：

上表显示了方程中只有常数项时的回归系数方面的指标，各数据项的含义依次为回归系数，回归系数标准误差，值，发生比。

由于此时模型中未包含任何解释变量，因此该表没有实际意义。

检验统计量的概率p度，Wald

消费的二项Logistic分析结果（四）（强制进入策略）

VariablesnotintheEquation

Scoredf

Sig.

.260age1Step0

1.268Variables

.0314.667gender

（1）1

.005income10.6402

.0871income

（1）2.935

.0011income

（2）

10.640

.001

4

OverallStatistics

18.273

分析：

上表显示了待进入方程的各个变量的情况，各数据项的含义依次为Score检验统计量的观测值，自由度和概率p值。

可以看到，如果下一步Age进入方程，则Score检验统计量的观测值为1.268，概率p值为0.26。

如果显著性水平a为0.05，由于Age的概率p值大于显著性水平a，所以是不能进入方程的。

但在这里，由于解释变量的筛选策略为Enter，所以这些变量也被强行进入方程。

消费的二项Logistic分析结果（五）（强制进入策略）Block1:

Method=Enter

OmnibusTestsofModelCoefficientsSig.

df

Chi-square

.001Step1

4Step18.441

.001Block418.441

.001

Model

18.441

4

分析：

上表显示了Logistic分析第一步时回归方程显著性检验的总体情况，各数据项的含义依次为似然比卡方的观测值，自由度和概率p值。

可以看到，在本步所选变量均进入方程（Method=Enter）。

与前一步相比，似然比卡方检验的观测值18.441，概率p值为0.001。

如果显著性水平a为0.05，由于概率p值小于显著性水平a，应拒绝零假设，认为所有回归系数不同时为0，解释变量的全体与LogitP之间的线性关系显著，采用该模型是合理的。

在这里分别输出了三行似然比卡方值。

其中，Step行是本步与前一步相比的似然卡方比；Block行是本块（Block）与前一块相比的似然卡方比；Model行是本模型与前一模型相比的似然卡方比。

在本例中，由于没有设置解释变量块，且解释变量是一次性强制进入模型，所以三行结果都相同。

消费的二项Logistic分析结果（六）（强制进入策略）

ModelSummary

Cox&SnellR

NagelkerkeR

Square

Step-2Loglikelihood

a.057

1

552.208.042

a.Estimationterminatedatiterationnumber4because

parameterestimateschangedbylessthan.001.

倍的对数似然函数值越小则模型的-2倍的对数似然函数值，Cox&SnellR^2。

上表显示了当前模型拟合优度方面的指标，各数据项的含义依次为分析：

-2也可以看到其值接近零，因此拟合优度比较低。

拟合优度越高。

这里该值较大，所以模型的拟合优度并不理想。

从NagelkerkeR^2

消费的二项Logistic分析结果（七）（强制进入策略）

aClassificationTablePredicted

是否购买Percentage

购买不购买Correct

Observed

不购买是否购买87.7Step1

23633

购买19.1131

31

61.9

OverallPercentage

a.Thecutvalueis.500

分析：

上表显示了当前所得模型的错判矩阵。

可以看到，脚注中的TheCutvalueis.500意味着：

如果预测概率值大于0.5，则认为被解释变量的分类预测值为1，如果小于0.5，则认为被解释变量的分类预测值为0.；在实际没购买的269人中，模型正确识别了236人，识别错误了131人，正确率为19.1%。

模型总的预测正确率为61.9%。

与前一步相比，对未购买的预测准确度下降了，对购买的预测准确度上升了，但总体预测精度仍下降了。

因此模型预测效果并不十分理想。

消费的二项Logistic分析结果（八）（强制进入策略）

VariablesintheEquation

B

S.E.

Wald

df

Sig.

Exp（B）

aageStep1gender

（1）incomeincome

（1）income

（2）Constant

.025.511.101.787-2.112

.018.209.263.253.754

1.9745.95412.305.1469.6767.843

112111

.160.015.002.703.002.005

1.0261.6671.106

2.196.121

a.Variable（s）enteredonstep1:

age,gender,income.

分析：

上表显示了当前所得模型中各个回归系数方面的指标。

可以看出，如果显著性水平a为0.05，由于Age的Wald检验概率p值大于显著性水平a，不应拒绝零假设，认为该回归系数与0无显著差异，它与LogitP的线性关系是不显著的，不应保留在方程中。

由于方程中包含了不显著的解释变量，因此该模型是不可用的，应重新建模。

下面是对模型做进一步分析，解释变量的筛选采用基于极大似然估计的逐步筛选策略（Forward：

LR），分析的具体操作以及结果如下：

（二）基本操作：

（1）选择菜单Analyze－Regression－BinaryLogistic;

（2）选择是否购买作为被解释变量到Dependent框中，选其余各变量为解释变量到Covariates框中，采用Forward:

LR方法，在Option框中对模型做近一步分析，结果如下：

消费的二项Logistic分析结果

（一）（逐步筛选策略）

Block1:

Method=ForwardStepwise（LikelihoodRatio）

OmnibusTestsofModelCoefficients

Sig.

Chi-square

df

.00510.543StepStep1

2

.005Block10.5432

.00510.543Model

2

.015Step25.9171Step

Block.00116.4593

Model

3

16.459

.001

消费的二项Logistic分析结果

（二）（逐步筛选策略）

ModelifTermRemoved

ModelLog

Changein-2Log

Sig.ofthe

Change

Likelihood

df

Likelihood

Variable

.0052income-285.32510.543Step1

.015gender1-280.0535.917Step2

.003

-282.976

income

11.761

2

分析：

上面第一个表显示了变量逐步筛选过程中对数似然比卡方检验的结果，用于回归方程的显著性检验。

这里略去了第零步分析的结果。

结果上面的两个表共同分析。

在Step1中，模型中包含常数项和INCOME。

如果此时剔除INCOME将使-2LL减少10.543，即10.543是INCOME进入模型引起的，-285.325即为零模型的对数似然比；在Step2中，模型中包含常数项，INCOME，GENDER。

此时剔除GENDER，即-2LL将减少5.917，即5.917是在Step1基础上GENDER所引起的，-280.053即为Step1模型的对数似然比，此时-2*285.325+2*280.053=10.543，即INCOME引起的。

其他同理。

可以看到，如果显著性水平a为0.05，由于各步的概率p值均小于显著性水平a，因此此时模型中的解释变量全体与LogitP的线性关系是显著，模型合理。

消费的二项Logistic分析结果（三）（逐步筛选策略）

VariablesintheEquationVariablesnotintheEquation是否购买不购买2690100.0

Step1

ageStep1

Variables购买OverallPercentage

B

S.E.Score

Walddf1.848162

dfSig.10

Sig..174.062.4

Exp（B）

95.0%C.I.forEXP（B）

Lower

Upper

aStep1incomeincome

（1）income

（2）Constant

bStep2gender

（1）incomeincome

（1）income

（2）Constantgender

（1）OverallStatistics

Step2VariablesageOverallStatisticsContingencyTableforHosmerandLemeshowTest是否购买Observed1Step1是否购买不购买Step2购买OverallPercentagea.Thecutvalueis.500

是否购年龄买410470411139032032

.006.672-.762.504.096.761-1.113=不购买Expected90性别222222

.259.247.187.209.263.251.240是否购买Observed90.000收入

10.512.0017.42416.6345.82411.669.1349.14721.4325.8657.8241.9841.984=购买Expected42225126111111

211112111121142.00044361000100

.005.982.006.000.016.003.714.002.000.015.020.159.159Total

13283.622.260.649464140443540

1.0061.958.4671.6561.1012.139.3292222222

.6061.2081.099.6581.3073333333

1.6703.1742.4931.8433.502

a.Variable（s）enteredonstep1:

income.

b.Variable（s）enteredonstep2:

gender.3370332210

3320145221

分析：

上表显示了解释变量筛选的过程和各解释变量的回归系数检验结果。

可以看到，最终的模型（第二步）中包含了性别和收入变量，各自回归系数显著性检验的Wald观测值对应的概率p值都小于显著性水平a，因此均拒绝零假设，意味它们与LogitP的线性关系是显著，应保留在方程中。

表中的第七，第八列分别是发生比的95%的置信区间。

最终年龄变量没有引入方程，因为如果引入则相应的Score检验的概率p值大于显著性水平a，不应拒绝零假设，它与LogitP的线性关系不显著，不应进入方程。

具体结果如下：

消费的二项Logistic分析结果（四）（逐步筛选策略）

消费的二项Logistic分析结果（五）（逐步筛选策略）

ModelSummary

Cox&SnellR

NagelkerkeR

Square

-2Loglikelihood

Step

a.0331560.107.024

b.051

554.190.037

2

a.Estimationterminatedatiterationnumber3because

parameterestimateschangedbylessthan.001.

b.Estimationterminatedatiterationnumber4because

parameterestimateschangedbylessthan.001.

，仍然较高，说明模型的拟合优度不甚理想。

同时，554.190倍的对数似然函数值为-2上表显示了模型拟合优度方面的测度指标。

最终模型的分析：

1较远，也说明了模型的拟合优度不高。

NagelkerkeR^2距

分析结果（六）（逐步筛选策略）消费的二项LogisticHosmerandLemeshowTest

StepChi-square

df

Sig.

1.000.00011

.063

4

2

8.943

消费的二项Logistic分析结果（七）（逐步筛选策略）

1449846.000298.00046

15574.0003

8181.00074

4310.6378Step232.363351

2731519.3985853.602

3348931.36357.63755

43126.6027144.39840

5

75

30.965

38

44.035

37

ContingencyTableforHosmerandLemeshowTest购买=是否购买是否购买=不购买Expected

Observed

Total

Expected

Observed

13242Step1

9090.000142.000

14498.0004646.000982

15581.000743

8174.000

43835Step232.36310.6371

21519.3985853.60273

35531.363348957.637

44026.602317144.398

530.9653744.0357538

6

44

43.035

80

36

36.965

分析：

上面是Hosmer-Lemeshow检验的结果。

最终模型中，Hosmer-Lemeshow统计量的观测值为8.943，概率p值为0.063，大于显著性水平a，因此不应拒绝零假设，认为该组的划分与被解释变量的取值不相关，说明模型的拟合优度较低。

它与NagelkerkeR^2分析的结果是一致的。

消费的二项Logistic分析结果（八）（逐步筛选策略）

aClassificationTablePredicted

是否购买Percentage

Observed

不购买购买Correct

Stepnumber:

2

ObservedGroupsandPredictedProbabilities

160┼┼

││

│││F│

┼┼R120

│E│

││Q

│1U│

┼┼E80111

││N11111

││C00111

│00111│Y

40┼000000┼

│000000│

Predicted─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼──────────

Prob:

0.1.2.3.4.5.6.7.8.91

Group:

0000000000000000000000000000000000000000000000000011111111111111111111111111111111111111111111111111

PredictedProbabilityisofMembershipfor购买

TheCutValueis.50

Symbols:

0-不购买

1-购买

EachSymbolRepresents10Cases.图：

消费的二项Logistic分析预测分类图

分析：

上表显示了各模型的错判矩阵。

第一个模型的总体正确率为62.4%，对不购买人群预测的准确率极高，但对购买人群预测的准确率极低；第二个模型的总体正确率为60.6%，对不购买人群预测的准确率下降了，但对购买人群预测的准确率提高了。

从应用角度看第二个模型较第一个模型的应用性略强一些。

在上图中，符号0表示实际未购买，1表示实际购买，一个符号代表10个样本。

预测概率值大于0.5的样本属于购买类，小于0.5的属于未购买类。

可以看出：

在模型预测出的购买类中，仍有40个左右（4个0，精确值为44）实际未购买；同样，在模型预测出的未购买类中，仍有110个左右（11个1，精确值为126）实际购买了。

模型的预测效果并不很理想。

通过以上的分析知道，该模型的预测效果不很理想。

也就是说，仅通过性别和收入来预测是否购买商品是不全面的，还应考虑其他因素。

但是该模型仍可以用于分析是否购买和收入之间的关系。

由上面的分析结果，可以写出Logistic回归方程：

LogitP=－1.11+0.504gender

（1）

LogitP=－1.11+0.504gender

（1）+0.096income

（1）

）2（+0.761income）1（1.11+0.504gender－LogitP=

上面的第一个式子反映了女性与男性在购买上的差异。

女性较男性使LogitP平均增长0.504个单位。

结合发生比可知，女性的购买发生比是男性的1.656倍，因此女性更倾向购买该商品。

进一步分析，上面的第二个式子反映了女性顾客群中中等收入较低等收入在购买上的差异。

对于女性顾客群，中等收入较低等收入使LogitP平均增长0.096个单位。

结合发生比可知，女性顾客群中，中等收入的购买发生比是低等收入的1.101倍（有95%的把握在0.658至1.67之间），略高一些，但差异并不十分明显。

而通过上面的第三个式子可知，对于女性顾客群，高等收入较低等收入使LogitP平均增长0.761个单位。

结合发生比可知，女性顾客群中，高等收入的购买发生比是低等收入的2.139倍（有95%的把握在1.099至2.4

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: SPSS实验8 二项Logistic回归分析教学文稿 SPSS 实验 Logistic 回归分析教学文稿

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：SPSS实验8 二项Logistic回归分析教学文稿.docx
链接地址：https://www.bdocx.com/doc/11310877.html

SPSS实验8 二项Logistic回归分析教学文稿.docx

热门标签