SPSS操作步骤及解析.docx
- 文档编号:24332261
- 上传时间:2023-05-26
- 格式:DOCX
- 页数:108
- 大小:1.55MB
SPSS操作步骤及解析.docx
《SPSS操作步骤及解析.docx》由会员分享,可在线阅读,更多相关《SPSS操作步骤及解析.docx(108页珍藏版)》请在冰豆网上搜索。
SPSS操作步骤及解析
第四章统计描述
统计描述是指如何搜集、整理、分析、研究并提供统计资料的理论和方法,用于说明总体的情况和特征。
4.1基本概念和原理
4.1.1频数分布
4.1.2集中趋势指标
算数平均值:
适用于定比数据、定距数据
中位数:
适用于定比数据、定距数据和定序数据
众数:
适用于定比数据、定距数据、定序数据和定类数据
4.1.3离散程度指标
作用:
(1)它可以表明现象的平衡程度和稳定程度;
(2)离散性指标可以表明平均指标的代表性,数据离散程度越大,则该分布的平均指标的代表性就越小。
方差、标准差、均值标准误差、极差。
均值标准误差:
也叫抽样标准误差,是样本均值的标准差,反映了样本均值与总体均值之间的差异程度。
4.1.4反映分布形态的描述性指标
偏度、峰度
4.2频数分析
Analyze——DescriptiveStatistics——Frequencies
4.3描述性统计量
Analyze——DescriptiveStatistics——Frequencies
输出结果:
4.4探索性数据分析
基本思路:
在统计分析时应尽量减少数据中存在的少量异常值对分析结果的影响。
只讲Explore命令:
(1)异常值检验
(2)分布正太性检验
(3)方差齐性检验
检验各观测变量在控制变量不同水平下的方差是否相等。
4.4.1(探索性数据分析)操作步骤
Analyze——DescriptiveStatistics——Explore
齐性检验
第五章统计推断
统计推断内容:
参数估计、假设检验。
参数估计:
研究一个随机变量,推断它的数量特征和变动模式。
假设检验:
检验随机变量的数量特征和变动模式是否符合事先所做的假设。
共同特点:
对总体都不很了解,都是利用部分样本所提供的信息对总体的数量特征做出估计或判断。
所以,统计推断的过程必定伴有某种程度的不确定性,需要用概率来表示其可靠程度。
5.1参数估计
5.2单样本t检验
用于对总体均值进行检验。
前提:
样本来自的总体服从或近似服从正态分布。
检验我国上市公司的平均资产负债比是否为0.5
Analyze——Comparemeans——One-SampleTTest,
Testvalue设为0.5
上表1给出了资产负债率描述统计量。
从表可知,上市公司资产负债率平均为0.4677,标准差为0.16773,均值标准误差为0.00945。
上表2给出了单样本t检验结果。
从表中可以看到t统计量为-3..413,自由度为314,p值为0.01。
由于p值小于显著性水平0.05,所以拒绝上市公司资产负债率平均为0.5的原假设。
另外,单样本t检验还
5.3两独立样本t检验
对两个不同总体均值之间的差异性(样本均值之差)是否显著进行检验。
前提:
样本来自的总体服从或近似服从正态分布;两样本相互独立。
注意:
要检验方差齐性。
(自带)
Analyze——Comparemeans——Dependent-SampleTTest,
输出结果:
5.4配对样本t检验
利用来自某两个总体的配对样本,推断两个总体的均值是否存在显著差异。
特征:
第一,两组样本的样本数相同;第二,两组样本观测值的先后顺序一一对应。
例如:
检验某学校学生进行培训前后学生学习成绩有无显著变化。
两个样本具有一对一的配对关系
Analyze——Comparemeans——Paird-SampleTTest
输出结果:
第六章方差分析
也是一种假设检验,它是对全部样本观测值的变动进行分解,将某种控制因素下各组样本的观测值之间可能存在的由该因素导致的系统性误差与随机误差加以比较,据以推断各组样本之间是否存在显著差异。
若存在显著差异,则说明该因素对各总体的影响是显著的。
●方差分析的主要目的是通过对方差的比较来检验多个均值之间差异的显著性。
●可以看作t检验的扩展,只比较两个均值时与t检验等价。
方差分析有三个基本概念:
观测变量、因素和水平。
观测变量(因变量):
实际测量的、作为结果的变量,是进行方差分析所研究的对象。
因素(自变量):
作为原因的、把观测结果分成几个组以进行比较的变量,例如奖金水平。
水平:
因素的不同表现,即每个自变量的不同取值称为因素的水平。
根据观测变量的个数分类:
单变量方差分析和多变量方差分析;
根据因素的个数分类:
单因素方差分析和多因素方差分析。
●只有一个因素变量的方差分析称为单因素方差分析。
●研究多个因素变量对因变量的影响的方差分析称为多因素方差分析,其中最简单的情况是双因素方差分析。
6.2单因素单变量方差分析(One-wayANOVA)
●单因素方差分析:
模型中有一个自变量(因素)和一个观测变量。
●其实就是关于在一个影响因素的不同水平下,观测变量均值差异的显著性检验。
SST=SSB+SSE
SST:
观测变量的总离差平方和
SSB:
组间离差平方和
SSE:
组内离差平方和
方差分析需满足的假设条件:
●样本是独立的随机样本。
●各样本皆来自正态总体。
对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本。
●总体方差具有齐性,即各总体方差相等。
各组观察数据是从具有相同方差的总体中抽取的。
某汽车经销商为研究东部、西部和中部地区市场上汽车销量是否存在显著差异
原假设:
H0:
6.2.2单因素单变量方差分析(One-wayANOVA)(操作步骤)
Analyze——Comparemeans——One-WayANOVA
输出结果:
(假设一般为没有显著性差异)
描述
销量
N
均值
标准差
标准误
均值的95%置信区间
极小值
极大值
下限
上限
西
10
157.90
22.278
7.045
141.96
173.84
120
194
中
9
176.44
19.717
6.572
161.29
191.60
135
198
东
7
196.14
30.927
11.689
167.54
224.75
145
224
总数
26
174.62
27.845
5.461
163.37
185.86
120
224
方差齐性检验
销量
Levene统计量
df1
df2
显著性
1.262
2
23
.302
ANOVA
销量
平方和
df
均方
F
显著性
组间
(组合)
6068.174
2
3034.087
5.241
.013
线性项
未加权的
6022.125
1
6022.125
10.402
.004
加权的
6066.237
1
6066.237
10.478
.004
偏差
1.937
1
1.937
.003
.954
组内
13315.979
23
578.956
总数
19384.154
25
对比系数
对比
地区
西
中
东
1
1
1
-1
2
.5
-1
.5
对比检验
对比
对比值
标准误
t
df
显著性(双侧)
销量
假设方差相等
1
138.20a
14.315
9.654
23
.000
2
.58
9.974
.058
23
.954
不假设等方差
1
138.20a
15.148
9.123
14.551
.000
2
.58
9.474
.061
18.114
.952
a.对比系数总和不为零。
在此之后检验
多重比较
因变量:
销量
(I)地区
(J)地区
均值差(I-J)
标准误
显著性
95%置信区间
下限
上限
LSD
西
中
-18.544
11.055
.107
-41.41
4.33
东
-38.243*
11.858
.004
-62.77
-13.71
中
西
18.544
11.055
.107
-4.33
41.41
东
-19.698
12.126
.118
-44.78
5.39
东
西
38.243*
11.858
.004
13.71
62.77
中
19.698
12.126
.118
-5.39
44.78
Tamhane
西
中
-18.544
9.635
.199
-44.05
6.96
东
-38.243
13.648
.054
-77.10
.61
中
西
18.544
9.635
.199
-6.96
44.05
东
-19.698
13.410
.436
-58.31
18.91
东
西
38.243
13.648
.054
-.61
77.10
中
19.698
13.410
.436
-18.91
58.31
*.均值差的显著性水平为0.05。
6.3多因素单变量方差分析
同时研究多种因素对观测变量的影响,就是多因素方差分析。
例如,研究汽车销量问题,对汽车销量的影响很可能不仅受地区因素的影响,还受广告、居民收入以及消费偏好等其他因素的影响。
交互效应:
各个因素不同水平的搭配所产生的新的影响。
主效应:
各个因素对观测变量的单独影响。
SST:
观测变量的总变动
SSA:
因素A引起的观测变量的变动
SSB:
因素B引起的观测变量的变动
SSAB:
因素A和因素B的交互效应引起的观测变量的变动
SSE:
随机因素引起的观测变量的变动
如果其中某种因素引起的观测变量的变动占观测变量总变动的比例足够大,则可以认为该因素变量对观测变量的影响是显著的。
6.3.2固定效应、随机效应和协变量
根据可控性分为:
固定效应、随机效应
固定效应:
因素变量的各个水平可以严格控制,它们对观测变量的影响是固定的。
如产品定价、广告类型。
随机效应:
因素变量的各个水平无法严格控制,它们对观测变量的影响是随机的。
如气候条件等。
协变量:
像居民收入这样的无法控制其水平的连续型变量在方差分析中通常叫做协变量。
6.3.3操作步骤
1.提出零假设和备择假设。
双因素方差分析可以同时检验两组或三组零假设和备择假设。
要说明因素A有无显著影响,就是检验如下假设:
H0:
因素A不同水平下观测变量的总体均值无显著差异。
H1:
因素A不同水平下观测变量的总体均值存在显著差异。
要说明因素B有无显著影响,就是检验如下假设:
H0:
因素B不同水平下观测变量的总体均值无显著差异。
H1:
因素B不同水平下观测变量的总体均值存在显著差异。
在有交互效应的双因素方差中,要说明两个因素的交互效应是否显著,还要检验第三组零假设和备择假设:
H0:
因素A和因素B的交互效应对观测变量的总体均值无显著差异。
H1:
因素A和因素B的交互效应对观测变量的总体均值存在显著差异。
6.3.3多因素单变量方差分析操作步骤
Analyze——GeneralLinearModel——Univariate
结果输出:
主体间因子
值标签
N
地区
1
西
10
2
中
9
3
东
7
广告
1
8
2
8
3
10
描述性统计量
因变量:
销量
地区
广告
均值
标准偏差
N
西
1
179.33
13.317
3
2
162.75
7.136
4
3
130.00
8.718
3
总计
157.90
22.278
10
中
1
193.33
8.083
3
2
174.00
7.071
2
3
165.00
22.642
4
总计
176.44
19.717
9
东
1
224.00
.000
2
2
198.50
10.607
2
3
176.00
37.723
3
总计
196.14
30.927
7
总计
1
195.75
20.380
8
2
174.50
16.987
8
3
157.80
29.918
10
总计
174.62
27.845
26
误差方差等同性的Levene检验a
因变量:
销量
F
df1
Df2
Sig.
2.495
8
17
.054
检验零假设,即在所有组中因变量的误差方差均相等。
a.设计:
截距+region+ad+region*ad
主体间效应的检验
因变量:
销量
源
III型平方和
df
均方
F
Sig.
校正模型
14047.571a
8
1755.946
5.594
.001
截距
770802.552
1
770802.552
2455.437
.000
region
7149.781
2
3574.891
11.388
.001
ad
7625.708
2
3812.854
12.146
.001
region*ad
637.741
4
159.435
.508
.731
误差
5336.583
17
313.917
总计
812138.000
26
校正的总计
19384.154(以上三个之和)
25
a.R方=.725(调整R方=.595)
Model:
用户建立的模型能够解释的变差。
有两种方法可以衡量用户建立的模型对观测变量的解释程度:
一是通过观察CorrectedModel对应的F统计量和p值;二是通过观察CorrectedModel和CorrectedTotal对应变差的比值,即可决系数(RSquared)。
当引入的因素较多时,应该观察修正的可决系数(AdjustedRSquared)。
本模型CorrectedModel对应的F统计量为5.594,p值为0.001<0.05,可决系数为0.725,说明模型整体对观测变量有一定的解释能力。
修正可决系数只有0.596,说明模型的拟合程度还不够理想,可能还有某个显著影响销售量的变量没有引入进来。
概要文件图
6.3.5不考虑交互效应的多因素方差分析
Analyze——GeneralLinearModel——Univariate
输出结果:
主体间效应的检验
因变量:
销量
源
III型平方和
df
均方
F
Sig.
校正模型
13409.830a
4
3352.457
11.784
.000
截距
799765.058
1
799765.058
2811.208
.000
region
7008.776
2
3504.388
12.318
.000
ad
7341.655
2
3670.828
12.903
.000
误差
5974.324
21
284.492
总计
812138.000
26
校正的总计
19384.154
25
a.R方=.692(调整R方=.633)
6.3.6引入协变量的多因素方差分析
Analyze——GeneralLinearModel——Univariate
输出结果:
主体间效应的检验
因变量:
销量
源
III型平方和
df
均方
F
Sig.
校正模型
14972.233a
5
2994.447
13.574
.000
截距
7463.312
1
7463.312
33.832
.000
region
308.532
2
154.266
.699
.509
ad
1450.036
2
725.018
3.287
.058
income
1562.404
1
1562.404
7.083
.015
误差
4411.921
20
220.596
总计
812138.000
26
校正的总计
19384.154
25
a.R方=.772(调整R方=.715)
第八章相关分析
任何事物的存在都不是孤立的,而是相互联系、相互制约的。
说明客观事物相互间关系的密切程度并用适当的统计指标表示出来,这个过程就是相关分析。
相关关系是不完全确定的随机关系。
在存在相关关系的情况下,当一个或几个相互联系的变量取一定的值时,与之相应的另一变量的值虽然不确定,但它仍然按某种规律在一定范围内变化。
值得注意,事物之间有相关,不一定是因果关系,也可能仅是伴随关系。
按照数据度量尺度不同,相关分析方法分类:
连续变量(之间的相关性):
Pearson简单相关系数
定序变量:
Spearman秩相关系数或Kendall秩相关系数
定类变量:
列联表分析法
8.1.1连续变量的相关分析
1.Pearson简单相关系数
|r|越接近于1,说明相关性越好;|r|越接近于0,说明相关性越差。
1.Pearson简单相关系数的检验
在实际分析中,相关系数大都是利用样本数据计算的,因而带有一定的随机性,因此也需要对相关关系的显著性进行检验。
8.1.2定序变量的相关分析
要用秩相关的非参数方法来实现
1.Spearman秩相关系数
2.Kendall秩相关系数
8.1.3定类变量的相关分析
关于双尾检验与单尾检验的选择问题:
Two-tailed:
双尾检验,如果事先不知道相关方向(正相关还是负相关),可以选择此项;
One-tailed:
单尾检验,如果事先知道相关方向可以选择此项。
8.2连续变量相关分析实例
例:
上市公司财务分析
Analyze——Correlate——Bivariate
输出结果:
描述性统计量
均值
标准差
N
资产收益率
.024768
.0475865
315
净资产收益率
.041942
.1256143
315
每股收益率
.168933
.3176631
315
q
1.2344
.25231
315
相关性
资产收益率
净资产收益率
每股收益率
q
资产收益率
Pearson相关性
1
.808**
.824**
.011
显著性(双侧)
.000
.000
.849
平方与叉积的和
.711
1.516
3.912
.041
协方差
.002
.005
.012
.000
N
315
315
315
315
净资产收益率
Pearson相关性
.808**
1
.877**
-.001
显著性(双侧)
.000
.000
.983
平方与叉积的和
1.516
4.955
10.988
-.012
协方差
.005
.016
.035
.000
N
315
315
315
315
每股收益率
Pearson相关性
.824**
.877**
1
-.073
显著性(双侧)
.000
.000
.199
平方与叉积的和
3.912
10.988
31.686
-1.827
协方差
.012
.035
.101
-.006
N
315
315
315
315
q
Pearson相关性
.011
-.001
-.073
1
显著性(双侧)
.849
.983
.199
平方与叉积的和
.041
-.012
-1.827
19.990
协方差
.000
.000
-.006
.064
N
315
315
315
315
**.在.01水平(双侧)上显著相关。
8.3离散变量相关分析的实例(列联表)
Analyze——DescriptiveStatistics——Crosstabs
补充:
偏相关分析——Partial过程
偏相关分析也称为净相关分析,它在控制其他变量的线性影响的条件下分析两变量间的线性相关,所采用的工具是偏相关系数(净相关系数)。
控制变量个数为1时,偏相关系数称为一阶偏相关;当控制两个变量时,偏相关系数称为二阶偏相关;当控制变量的个数为零时,偏相关系数称为零阶偏相关,也就是简单相关系数。
Analyze——Correlate——Partial
输出结果:
相关性
控制变量
课题总数
论文数
投入高级职称的人年数
课题总数
相关性
1.000
-.140
显著性(双侧)
.
.461
df
0
28
论文数
相关性
-.140
1.000
显著性(双侧)
.461
.
df
28
0
距离分析——Distances过程
距离分析是用来描述同一变量内观测值之间或者是多个变量之间的相似或不相似程度的统计方法。
在距离分析中,通常用距离指标d来描述观测值或变量间的不相似程度,用相似指标来描述观测值或变量间的相似程度。
距离指标越小,说明两观测值或变量越近似;相似指标值越大,说明两观测值或变量越近似。
Analyze——Correlate——Distance
输出结果:
近似矩阵
Euclidean距离
北京
天津
石家庄
沈阳
大连
长春
北京
.000
122.933
71.280
122.139
70.542
146.479
天津
122.933
.000
111.350
126.363
121.427
205.540
石家庄
71.280
111.350
.000
125.332
110.928
178.273
沈阳
122.139
126.363
125.332
.000
133.006
121.829
大连
70.542
121.427
110.928
133.006
.000
157.159
长春
146.479
205.540
178.273
121.829
157.159
.000
这是一个不相似性矩阵
第九章回归分析
相关分析与回归分析的区别:
(1)相关分析研究的变量之间是对等的关系,而回归分析研究的变量有被解释变量和解释变量之分。
(2)相关分析研究的变量都是随机变量,而回归分析中被解释变量是随机变量,解释变量是非随机的。
回归分析的一个重要目的就是通过给定的解释变量来预测被解释变量。
(3)相关分析不能指出变量间相互关系的具体形式,而回归分析可以通过一个数学表达式来确定变量之间相关
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 操作 步骤 解析