spss实验报告二.docx
- 文档编号:27523916
- 上传时间:2023-07-02
- 格式:DOCX
- 页数:30
- 大小:174.67KB
spss实验报告二.docx
《spss实验报告二.docx》由会员分享,可在线阅读,更多相关《spss实验报告二.docx(30页珍藏版)》请在冰豆网上搜索。
spss实验报告二
广东金融学院实验报告
课程名称:
实验编号
及实验名称
SPSS实验报告二
系别
工商管理系
姓名
学号
班级
市场营销2班
实验地点
实验楼403
实验日期
2013/12/21
实验时数
指导教师
何志峰
同组其他成员
无
成绩
一、实验目的及要求
掌握方差分析、相关分析和回归分析的基本操作;掌握其中相关的问题检验;读懂输出结果并进行合理分析。
二、实验环境及相关情况(包含使用软件、实验设备、主要仪器及材料等)
(一)使用软件:
SPSS软件
(二)实验设备、主要仪器及材料:
兼容SPSS软件的电脑一台,老师发的数据素材
三、实验内容及步骤(包含简要的实验步骤流程)
第一题
(1)独立样本t检验:
分析→比较均值→独立样本T检验→检验变量选择(年龄)→分组变量选择(目前从事行业)→定义组→使用指定值→组1
(1):
1、组2
(2):
3→继续→确定
(2)多因素方差分析:
分析→一般线性模型→单变量→因变量选择(家庭花费(已婚)[V2_2c])→固定因子选择(教育程度、月收入)→确定
(3)建立非饱和模型和利用多重比较比较(snk)各因素:
分析→一般线性模型→单变量→因变量选择(家庭花费(已婚)[V2_2c])→固定因子选择(教育程度、月收入)→模型→设定→选择(V1_3、V2_1)→继续→两两比较→选择(V1_3、V2_1)→假定方差齐性→勾S-N-K→继续→确定
第二题
(1).①画散点图:
图形→旧对话框→散点/点状→选择(矩阵分布)→定义→选择变量到矩阵变量框中(工业企业用地,金属制造业用地,运输、批发企业用地,零售业用地,宾馆、餐饮业用地,固体垃圾排放量)→确定
②用Enter建立模型:
分析→回归→线性→选择因变量(固体垃圾排放量)→选择自变量(工业企业用地,金属制造业用地,运输、批发企业用地,零售业用地,宾馆、餐饮业用地,固体垃圾排放量)→方法选择(进入)→统计量→勾共线性诊断→继续→确定
(2).用Stepwise建立模型:
分析→回归→线性→选择因变量(固体垃圾排放量)→选
择自变量(工业企业用地,金属制造业用地,运输、批发企业用地,零售业用地,
宾馆、餐饮业用地,固体垃圾排放量)→方法选择(逐步)→统计量→Durbin-Watson
→继续→绘制→选择Y轴(ZRESID)→选择X轴(ZPRED)→勾正态分布图→继续
→保存→勾标准化预测值→继续→确定
选做.①求出库克距离:
分析→回归→线性→选择因变量(固体垃圾排放量)→选择自变量(工业企业用地,金属制造业用地,运输、批发企业用地,零售业用地,宾馆、餐饮业用地,固体垃圾排放量)→方法选择(逐步)→保存→勾cook距离→继续→确定
②除去库克距离大于1的异常点:
数据→选择个案→如果条件满足→如果→选择(Cook’sDistance)输出(COO_1<=1)→继续→确定
③用Stepwise建立模型:
分析→回归→线性→选择因变量(固体垃圾排放量)→选择自变量(工业企业用地,金属制造业用地,运输、批发企业用地,零售业用地,宾馆、餐饮业用地,固体垃圾排放量)→方法选择(逐步)→统计量→勾共线性诊断→勾Durbin-Watson→继续→绘制→选择Y轴(ZRESID)→选择X轴(ZPRED)→勾正态分布图→继续→保存→勾标准化预测值→勾cook距离→继续→确定
第三题
(1).①散点图:
图形→旧对话框→散点/点状→简单分布→定义→y轴选择(在外就餐)
→x轴选择(年份)→确定
(2).①曲线估计:
分析→回归→曲线估计→因变量选择(在外就餐)→自变量选择(年
份)→勾复合、立方、指数分布→确定
②预测值:
分析→回归→曲线估计→因变量选择(在外就餐)→自变量选择(时
间)→保存→勾预测值→预测值范围的观察值填写(27)→继续→确定
第四题
(1).①筛选:
数据→选择个案→如果条件满足→如果→选择(总收入[A15])→输出
(A15>1000)→继续→确定
(2).②使用K-means聚类:
分析→分类→k-均值聚类→变量选择(工资性收入[A151]、
经营性收入[A152]、财产性收入[A153]、转移性收入[A154])→聚类数填(4)
→迭代→最大迭代次数填(100)→继续→保存→勾聚类成员→继续→选项→
勾每个个案的聚类信息→继续→确定
(3).②使用系统聚类:
分析→分类→系统聚类→变量选择(工资性收入[A151]、经营
性收入[A152]、财产性收入[A153]、转移性收入[A154])→统计量→选择(单
一方案)→聚类数填(4)→继续→绘制→树状图→继续→方法→区间选择
(Euclidean距离)→继续→保存→单一方案的聚类数填写(4)→继续→确定
四、实验结果(包括程序或图表、结论陈述、数据记录及分析等,可附页)
第一题
(1)
组统计量
目前从事行业
N
均值
标准差
均值的标准误
年龄
制造业
169
30.37
8.366
.644
服务业
97
27.91
7.236
.735
由组统计量表可知:
目前从事行业是制造业和是服务业的外来工的样本平均值有轻微的差距
独立样本检验
方差方程的Levene检验
均值方程的t检验
F
Sig.
t
df
Sig.(双侧)
均值差值
标准误差值
差分的95%置信区间
下限
上限
年龄
假设方差相等
3.516
.062
2.427
264
.016
2.466
1.016
.466
4.466
假设方差不相等
2.524
224.367
.012
2.466
.977
.541
4.390
由独立样本检验表可知:
F统计量的观察值为3.516,对应的sig=0.062>0.05,所以接受原解释,认为(目前从事行业中)制造业和服务业的总体平均年龄没有显著差异。
(另外,t统计量的观察值为2.427,对应的sig=0.016,如果在显著性水平为0.01,因为sig=0.016>0.01,依然应该接受原假设)
(2)
主体间因子
值标签
N
教育程度
1
初中及以下
54
2
中专或高中
145
3
大学及以上
59
月收入
1
800元以下
7
2
801-1200
69
3
1201-2000
87
4
2001-3000
51
5
3000元以上
44
主体间效应的检验
因变量:
家庭花费(已婚)
源
III型平方和
df
均方
F
Sig.
校正模型
1.936E8
13
14892481.628
14.832
.000
截距
4.670E8
1
4.670E8
465.061
.000
V1_3
12124741.618
2
6062370.809
6.038
.003
V2_1
61115389.230
4
15278847.308
15.217
.000
V1_3*V2_1
3027942.331
7
432563.190
.431
.882
误差
2.450E8
244
1004083.817
总计
1.608E9
258
校正的总计
4.386E8
257
a.R方=.441(调整R方=.412)
由主体间效应的检验表可知:
因为教育程度(V1_3)的sig=0.003<0.05,所以拒绝原假设,认为教育程度对家庭花费(V2_2c)存在显著差异;因为月收入(V2_1)的sig=4.019974E-11<0.05,所以拒绝原假设,认为月收入也对家庭花费(V2_2c)存在显著差异;因为教育程度*月收入(V1_3*V2_1)的sig=0.882>0.05,所以不应拒绝原假设,认为不同教育程度*月收入(V1_3*V2_1)没有对家庭花费(V2_2c)产生显著的交互作用。
(3)
家庭花费(已婚)1
Student-Newman-Keulsa,b,c
教育程度
N
子集
1
2
3
初中及以下
54
1528.30
中专或高中
145
1969.88
大学及以上
59
3071.51
Sig.
1.000
1.000
1.000
已显示同类子集中的组均值。
基于观测到的均值。
误差项为均值方(错误)=988144.995。
a.使用调和均值样本大小=70.814。
b.组大小不相等。
将使用组大小的调和均值。
不保证I型误差级别。
c.Alpha=0.05。
由家庭花费(已婚)1表可知:
根据S-N-K分析得,三种教育程度对家庭花费的影响显著不同,其中教育程度为“大学及以上”的影响程度最大,“中专或高中”次之,影响程度最小的是“初中及以下”。
总体来说,教育程度越高,家庭花费越大。
家庭花费(已婚)2
Student-Newman-Keulsa,b,c
月收入
N
子集
1
2
3
800元以下
7
1232.14
801-1200
69
1421.42
1201-2000
87
1776.54
2001-3000
51
2362.33
3000元以上
44
3809.95
Sig.
.145
1.000
1.000
已显示同类子集中的组均值。
基于观测到的均值。
误差项为均值方(错误)=988144.995。
a.使用调和均值样本大小=23.677。
b.组大小不相等。
将使用组大小的调和均值。
不保证I型误差级别。
c.Alpha=0.05。
由下表家庭花费(已婚)2表可知:
根据S-N-K分析得,月收入为“800元以下”、“801—1200”和“1200—2000”为第一个子集;“2001—3000”为第二个子集,“3000元以上”为第三个子集,这三个子集对家庭花费的影响显著不同。
其中第三个子集对家庭花费的影响最大,第二个子集次之,影响最小的是第一个子集。
总体来说,月收入越高,家庭花费越大。
第二题
(1)
上图为各变量的散点图。
大致可以看出除了金属制作业用地之外,其它都有较强或较弱的线性相关。
输入/移去的变量b
模型
输入的变量
移去的变量
方法
1
宾馆、餐饮业用地,金属制造业用地,工业企业用地,运输、批发企业用地,零售业用地
.
输入
a.已输入所有请求的变量b.因变量:
固体垃圾排放量
模型汇总
模型
R
R方
调整R方
标准估计的误差
1
.921a
.849
.827
.15046
a.预测变量:
(常量),宾馆、餐饮业用地,金属制造业用地,工业地,运输、批企业用发企业用地,零售业用地。
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
4.326
5
.865
38.214
.000a
残差
.770
34
.023
总计
5.095
39
由Anovab表得出F检验:
因为sig=5.171338941466828E-13<0.05,所以拒接原假设,认为回归方程的线性显著,可以构建线性模型。
系数a
模型
非标准化系数
标准系数
t
Sig.
共线性统计量
B
标准误差
试用版
容差
VIF
1
(常量)
.122
.032
3.838
.001
工业企业用地
-5.249E-5
.000
-.232
-2.930
.006
.706
1.416
金属制造业用地
4.345E-5
.000
.045
.283
.779
.178
5.626
运输、批发企业用地
.000
.000
.491
2.827
.008
.147
6.787
零售业用地
-.001
.000
-.439
-2.284
.029
.120
8.311
宾馆、餐饮业用地
.013
.002
1.083
5.853
.000
.130
7.712
a.因变量:
固体垃圾排放量
由系数a表得出T检验:
因为除了“金属制造业用地”的sig=0.779>0.05,所以接受原假设,认为它的回归系数线性关系不显著,其余变量的sig<0.05,认为它的回归系数线性线性关系显著。
并且,因为各变量的VIF<10,所以各变量的多重共线性不明显。
由系数a表可知,它的回归方程为:
Y=0.122—5.249E-5*X1+4.345E-5*X2+2.5032415891665675E-4*X3—0.001*X4+0.013*X5
共线性诊断a
模型
维数
特征值
条件索引
方差比例
(常量)
工业企业用地
金属制造业用地
运输、批发企业用地
零售业用地
宾馆、餐饮业用地
1
1
3.606
1.000
.02
.02
.01
.01
.00
.00
2
1.111
1.801
.05
.07
.04
.02
.01
.01
3
.660
2.338
.07
.63
.02
.02
.01
.00
4
.510
2.660
.74
.12
.01
.00
.02
.01
5
.072
7.080
.05
.00
.92
.90
.00
.03
6
.042
9.310
.07
.16
.00
.05
.96
.93
a.因变量:
固体垃圾排放量
由共线性诊断表可知:
因为各个变量的条件索引<10,所以再次证明各变量的多重共线性不明显。
(2)
输入/移去的变量a
模型
输入的变量
移去的变量
方法
1
宾馆、餐饮业用地
.
步进(准则:
F-to-enter的概率<=.050,F-to-remove的概率>=.100)。
2
运输、批发企业用地
.
步进(准则:
F-to-enter的概率<=.050,F-to-remove的概率>=.100)。
3
工业企业用地
.
步进(准则:
F-to-enter的概率<=.050,F-to-remove的概率>=.100)。
4
零售业用地
.
步进(准则:
F-to-enter的概率<=.050,F-to-remove的概率>=.100)。
a.因变量:
固体垃圾排放量
模型汇总e
模型
R
R方
调整R方
标准估计的误差
Durbin-Watson
1
.823a
.677
.669
.20808
2
.896b
.803
.792
.16478
3
.908c
.825
.811
.15732
4
.921d
.849
.831
.14847
1.698
a.预测变量:
(常量),宾馆、餐饮业用地。
b.预测变量:
(常量),宾馆、餐饮业用地,运输、批发企业用地。
c.预测变量:
(常量),宾馆、餐饮业用地,运输、批发企业用地,工业企业用地。
d.预测变量:
(常量),宾馆、餐饮业用地,运输、批发企业用地,工业企业用地,零售业用地。
e.因变量:
固体垃圾排放量
由模型汇总表可知:
因为Durbin-Watson=1.698,在1.5~2.5之间,所以没有明显的序列相关。
Anovae
模型
平方和
df
均方
F
Sig.
1
回归
3.450
1
3.450
79.685
.000a
残差
1.645
38
.043
总计
5.095
39
2
回归
4.091
2
2.045
75.329
.000b
残差
1.005
37
.027
总计
5.095
39
3
回归
4.204
3
1.401
56.621
.000c
残差
.891
36
.025
总计
5.095
39
4
回归
4.324
4
1.081
49.037
.000d
残差
.772
35
.022
总计
5.095
39
a.预测变量:
(常量),宾馆、餐饮业用地。
b.预测变量:
(常量),宾馆、餐饮业用地,运输、批发企业用地。
c.预测变量:
(常量),宾馆、餐饮业用地,运输、批发企业用地,工业企业用地。
d.预测变量:
(常量),宾馆、餐饮业用地,运输、批发企业用地,工业企业用地,零售业用地。
e.因变量:
固体垃圾排放量
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
.147
.042
3.495
.001
宾馆、餐饮业用地
.010
.001
.823
8.927
.000
2
(常量)
.128
.034
3.805
.001
宾馆、餐饮业用地
.008
.001
.675
8.542
.000
运输、批发企业用地
.000
.000
.384
4.857
.000
3
(常量)
.134
.032
4.177
.000
宾馆、餐饮业用地
.008
.001
.689
9.096
.000
运输、批发企业用地
.000
.000
.449
5.519
.000
工业企业用地
-3.736E-5
.000
-.165
-2.142
.039
4
(常量)
.123
.031
4.014
.000
宾馆、餐饮业用地
.013
.002
1.078
5.936
.000
运输、批发企业用地
.000
.000
.534
6.282
.000
工业企业用地
-5.223E-5
.000
-.231
-2.959
.006
零售业用地
-.001
.000
-.441
-2.328
.026
a.因变量:
固体垃圾排放量
已排除的变量e
模型
BetaIn
t
Sig.
偏相关
共线性统计量
容差
1
工业企业用地
-.007a
-.072
.943
-.012
.946
金属制造业用地
.333a
4.262
.000
.574
.960
运输、批发企业用地
.384a
4.857
.000
.624
.853
零售业用地
.069a
.291
.772
.048
.154
2
工业企业用地
-.165b
-2.142
.039
-.336
.815
金属制造业用地
.034b
.195
.846
.033
.179
零售业用地
-.238b
-1.224
.229
-.200
.139
3
金属制造业用地
.059c
.355
.724
.060
.178
零售业用地
-.441c
-2.328
.026
-.366
.121
4
金属制造业用地
.045d
.283
.779
.048
.178
a.模型中的预测变量:
(常量),宾馆、餐饮业用地。
b.模型中的预测变量:
(常量),宾馆、餐饮业用地,运输、批发企业用地。
c.模型中的预测变量:
(常量),宾馆、餐饮业用地,运输、批发企业用地,工业企业用地。
d.模型中的预测变量:
(常量),宾馆、餐饮业用地,运输、批发企业用地,工业企业用地,零售业用地。
e.因变量:
固体垃圾排放量
残差统计量a
极小值
极大值
均值
标准偏差
N
预测值
.1284
1.7014
.3801
.33297
40
残差
-.31253
.26904
.00000
.14065
40
标准预测值
-.756
3.968
.000
1.000
40
标准残差
-2.105
1.812
.000
.947
40
a.因变量:
固体垃圾排放量
由回归标准化的残差标准P-P图可知:
数据点围绕着基准线上下波动,存在一定的规律性,因此认为标准化残差与标准正态分布没有显著的差异。
由散点图(残差分布图)可知:
回归标准化的残差随着回归标准化预测值的增大(或减小)的趋势并不显著,因此认为方差现象不显著。
选做:
以库克距离大于1去除异常点后再做第二问,对比回归结果。
①通过库克距离大于1去除异常点后,变量只剩下“宾馆、餐饮业用地”,“运输、批发企业用地”
②由Anovab表得出F检验:
因为模型1中sig=4.672051726044261E-8<0.05,模型2的sig=2.4063113002049515E-9<0.05,所以都拒接原假设,认为回归方程的线性显著,可以构建线性模型。
通过对比,除去异常点后的回归方程线性更加显著,拟合度更加好。
③由下表系数a得出T检验:
因为所有的变量的sig<0.05,所以认为它的回归系数的线性关系显著。
通过对比,除去异常点的后的回归系数的线性关系更加显著。
④由下表系数a可知:
因为各变量的VIF<10,所以各变量的多重共线性不明显。
通过对比,除去异常点后VIF的值更加小,多重共线性更加不显著。
⑤由下表共线性诊断可知:
因为各个变量的条件索引<10,所以再次证明各变量的多重共线性不显著。
通过对比,各个变量的条件索引的值都比除去异点前更加小,证明多重共线性更加不显著
⑥由下表模型汇总可知:
因为Durbin-Watson=1.357,在1~1.5之间,所以不好判断序列相关。
⑦由下表散点图(残差分布图)可知:
回归标准化的残差随着回归标准化预测的增大(或减小)的趋势并不显著。
通过对比,除去异常点后的随机性和分散性更加显著了。
⑧由下表回归标准化的残差标准P-P图可知:
数据点围绕着基准线上下波动,在一定的规律性,因此认为标准化残差与标准正态分布没有显著的差异。
通过对比,除去异常点后的数据点与基准线的拟合度比之前更好了。
输入/移去的变量a
模型
输入的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- spss 实验 报告