SPSS相关分析案例讲解要点.docx
- 文档编号:4811906
- 上传时间:2022-12-09
- 格式:DOCX
- 页数:17
- 大小:48.55KB
SPSS相关分析案例讲解要点.docx
《SPSS相关分析案例讲解要点.docx》由会员分享,可在线阅读,更多相关《SPSS相关分析案例讲解要点.docx(17页珍藏版)》请在冰豆网上搜索。
SPSS相关分析案例讲解要点
相关分析
一、两个变量的相关分析:
Bivariate
1.相关系数的含义
相关分析是研究变量间密切程度的一种常用统计方法。
相关系数是描述相
关关系强弱程度和方向的统计量,通常用 r 表示。
①相关系数的取值范围在-1 和+1 之间,即:
–1≤r≤ 1。
②计算结果,若 r 为正,则表明两变量为正相关;若 r 为负,则表明两变
量为负相关。
③相关系数 r 的数值越接近于 1(–1 或+1),表示相关系数越强;越接近于
0,表示相关系数越弱。
如果 r=1 或–1,则表示两个现象完全直线性相关。
如果
=0,则表示两个现象完全不相关(不是直线相关)。
④ r < 0.3 ,称为微弱相关、 0.3 ≤ r < 0.5 ,称为低度相关、 0.5 ≤ r < 0.8 ,
称为显著(中度)相关、 0.8 ≤ r < 1,称为高度相关
⑤r 值很小,说明 X 与 Y 之间没有线性相关关系,但并不意味着 X 与 Y 之
间没有其它关系,如很强的非线性关系。
⑥直线相关系数一般只适用与测定变量间的线性相关关系,若要衡量非线
性相关时,一般应采用相关指数 R。
2.常用的简单相关系数
(1)皮尔逊(Pearson)相关系数
皮尔逊相关系数亦称积矩相关系数,1890 年由英国统计学家卡尔•皮尔逊
提出。
定距变量之间的相关关系测量常用 Pearson 系数法。
计算公式如下:
r =
n n
i=1 i=1
n
i=1
i
i - x)( yi - y)
(1)
(1)式是样本的相关系数。
计算皮尔逊相关系数的数据要求:
变量都是服
从正态分布,相互独立的连续数据;两个变量在散点图上有线性相关趋势;样
本容量 n ≥ 30 。
(2)斯皮尔曼(Spearman)等级相关系数
1
Spearman 相关系数又称秩相关系数,是用来测度两个定序数据之间的线
性相关程度的指标。
当两组变量值以等级次序表示时,可以用斯皮尔曼等级相关系数反映变量
间的关系密切程度。
它是根据数据的秩而不是原始数据来计算相关系数的,其
计算过程包括:
对连续数据的排秩、对离散数据的排序,利用每对数据等级的
差额及差额平方,通过公式计算得到相关系数。
其计算公式为:
rR = 1 -
6∑ d 2
n( )
(2)
(2)式中, rR 为等级相关系数; d 为每对数据等级之差; n 为样本容量。
斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变
量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等
级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮
尔曼等级相关来进行研究。
(3)肯德尔(Kendall)等级相关系数
肯德尔(Kendall)等级相关系数是在考虑了结点(秩次相同)的条件下,
测度两组定序数据或等级数据线性相关程度的指标。
它利用排序数据的秩,通
过计算不一致数据对在总数据对中的比例,来反映变量间的线性关系的。
其计
算公式如下:
rK = 1 -
4∑ i
n(n - 1)
(3)
(3)式中, rK 是肯德尔等级相关系数; i 是不一致数据对数; n 为样本容
量。
计算肯德尔等级相关系数的数据要求与计算斯皮尔曼等级相关系数的数据
要求相同。
3.相关系数的显著性检验
通常,我们用样本相关系数 r 作为总体相关系数 ρ 的估计值,而 r 仅说明
样本数据的 X 与 Y 的相关程度。
有时候,由于样本数据太少或其它偶然因素,
使得样本相关系数 r 值很大,而总体的 X 与 Y 并不存在真正的线性关系。
因而
有必要通过样本资料来对 X 与 Y 之间是否存在真正的线性相关进行检验,即检
2
验总体相关系数 ρ 是否为零(即原假设是:
总体中两个变量间的相关系数为
0)。
SPSS 的相关分析过程给出了该假设成立的概率(输出结果中的 Sig.)。
样本简单相关系数的检验方法为:
当原假设 H 0 :
ρ = 0 , n ≥ 50 时,检验统计量为:
Z =
r n - 1
1 - r 2
(4)
当原假设 H 0 :
ρ = 0 , n < 50 时,检验统计量为:
r n - 2
1 - r 2
= n - 2)
(5)
式中, r 为简单相关系数; n 为观测值个数(或样本容量)。
4.背景材料
设有 10 个厂家,序号为 1,2,…,10,各厂的投入成本记为 x ,所得产出
记为 y 。
各厂家的投入和产出如表 7-18-1 所示,根据这些数据,可以认为投入
和产出之间存在相关性吗?
表 110 个厂家的投入产出单位:
万元
厂家12345678910
投入
产出
20
30
40
60
20
40
30
60
10
30
10
40
20
40
20
50
20
30
30
70
5.操作步骤
5-1 绘制散点图的步骤
(1)选择菜单命令“Graphs”→“Legacy Dialogs”→“Scatter/Dot”,打开
Scatter/Dot 对话框,如图 1 所示。
图 1 选择散点图窗口
3
(2)选择散点图类型。
SPSS 提供了五种类型的散点图。
(3)根据所选择的散点图类型,单击“Define”按钮设置散点图。
不同类
型的散点图的设置略有差别。
①简单散点图(Simple Scatter)
简单散点图的设置窗口如图 2 所示。
图 2 简单散点图的设置窗口
从对话框左侧的变量列表中指定某个变量为散点图的纵坐标和横坐标,分
别选入 Y-Axis 和 X-Axis 框中。
这两项是必选项。
可以把作为分组的变量指定到 Set Markers by 框中,根据该变量取值的不同
对同一个散点图中的各点标以不同的颜色(或形状)。
该项可以省略。
把标记变量指定到 Label Cases by 框中,表示将标记变量的各变量值标记在
散点图的旁边。
该项可以省略。
从左侧变量列表框中选择变量到 Panelby 框中作为分类变量,可以使该变
量作为行(Rows)或列(Columns)将数据分成不同的组,便于比较。
该项可
以省略。
4
选择 Use Chart Specifications From 选项,可以选择散点图的文件模板,单
击“File”可以选择指定的文件。
单击“Title”按钮可以对散点图的标题进行设置,单击“Options”按钮可
以对缺失值以及是否显示数据的标注进行设置。
②重叠散点图(Overlay Scatter)
重叠散点图能同时生成多对相关变量间统计关系的散点图,首先根据分类
变量的不同取值对原始数据进行分类,然后对各分类数据做简单散点图。
重叠
散点图的设置窗口如图 7-18-3 所示。
图 3 重叠散点图的设置窗口
从左侧框中选择一对变量进入 Pairs 框中,其中前一个为图的纵坐标变量
(Y-Variable),后一个作为图的横轴变量(X-Variable),可以通过点击按
钮进行横纵轴变量的调换。
其他设置与同简单散点图都相同。
③矩阵散点图(Matrix Scatter)
矩阵散点图以方形矩阵的形式在多个坐标轴上分别显示多对变量间的统计
关系。
矩阵散点图的关键是弄清各矩阵单元中的横纵变量。
矩阵散点图的设置
窗口如图 4 所示。
5
图 4 矩阵散点图的设置窗口
把参与绘图的若干变量指定到 Matrix Variables 框中。
选择变量的先后顺序
决定了矩阵对角线上变量的排列顺序。
其他设置也与简单散点图相同。
④三维散点图(3-D Scatter)
三维散点图生成三个相关变量的三维散点图,由三个坐标轴对应变量的数
据决定,它以立体图的形式展现三对变量间的统计关系。
设置窗口如图 5 所示。
6
图 5 三维散点图设置窗口
从左侧的变量列表中指定三个变量分别选入 Y-Axis、X-Axis、Z-Axis 框中。
其他设置均与简单散点图相同。
⑤单点散点图(Sample Dot)
单点散点图生成单个变量的散点图,显示数值型变量的每一个观测值,这
些值都堆积在 X 轴附近,由于没有指定 Y 轴,所以数据点的 Y 坐标没有特殊
的含义。
设置窗口如图 6 所示。
7
图 6 单点散点图设置窗口
从左侧变量列表中选择一个变量选入 X-AxisVariable 框中。
其他设置与简
单散点图相同。
5-2 计算简单相关系数的操作步骤
通过散点图可以初步判断变量是否具有线性趋势。
对具有线性趋势的变量
计算相应的简单相关系数的步骤如下:
(1)选择菜单命令“Analyze”→“Correlate”→“Bivariate”,打开两变
量相关分析的对话框,如图 7 所示。
8
图 7 两变量相关分析窗口
(2)选入需要进行相关分析的变量进入 Variables 框,至少需要选入两个,
如选入“投入”、“产出”变量。
(3)在 Correlation Coefficients 复选框中选择需要计算的相关系数。
主要有:
Pearson 复选框:
选择进行积距相关分析,即最常用的参数相关分析;Kendall's
tau-b 复选框:
计算 Kendall's 等级相关系数;Spearman 复选框:
计算 Spearman
相关系数,即最常用的非参数相关分析(秩相关)。
(4)TestofSignificance 单选框用于确定是进行相关系数的单侧(One-
tailed)或双侧(Two-tailed)检验,系统默认双侧检验。
(5)Flag significant correlations 用于确定是否在结果中用星号标记有统计
学意义的相关系数,一般选中。
此时 P<0.05 的系数值旁会标记一个星号,
P<0.01 的则标记两个星号。
(6)单击 Options 按钮,弹出 Options 对话框,选择需要计算的描述统计量
和统计分析,如图 8 所示。
9
图 8 两变量相关分析的 Options 子对话框
在 Statistics 复选框中定义各变量输出的描述统计量。
Meansandstandard
deviations 选项表示每个变量的样本均值和标准差;Cross-product deviations and
covariances 选项表示各对变量的离差平方和、样本方差、两变量的叉积离差以
及协方差阵。
叉积离差为 Pearson 相关系数公式中的分子部分;协方差为叉积
离差/(n-1)。
在 Missing Values 单选框中定义分析中对缺失值的处理方法,可以是具体分
析用到的两个变量有缺失值才去除该记录(Exclude cases pairwise),或只要该
记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失),则
在所有分析中均将该记录去除(Excludes cases listwise)。
(7)单击“OK”按钮完成设置,提交运行。
6.结果解析
根据背景资料,利用表 1 中的数据,建立 SPSS 数据文件,分别将变量投
入、产出选入 Variables 框中,并在 Options 子对话框选中 Meansandstandard
deviations 选项和 Cross-product deviations and covariances 选项,其他选择默认。
结果如表 2、表 3 所示。
6-1表 2 为描述统计量,表 3 为相关分析结果。
从表 3 中可以看出皮尔逊
相关系数为 0.759,即投入与产出的相关系数为 0.759,双侧检验的 P 值为
0.011,明显小于 0.05,拒绝二者不相关的原假设。
因此,我们可以得出结论:
可以认为投入与产出之间存在正相关,当投入增加时,产出也会相应增加。
表2 描述统计量
Descriptive Statistics
10
MeanStd. DeviationN
投入22.009.18910
产出45.0014.33710
表3 简单相关系数分析结果
Correlations
投入产出
投入
Pearson Correlation 1 .759*
Sig. (2-tailed) .011
Sum of Squares and Cross-
products760.000
900.000
产出
Covariance 84.444 100.000
N 10 10
Pearson Correlation .759* 1
Sig. (2-tailed) .011
Sum of Squares and Cross-
products900.000
1850.000
Covariance100.000205.556
N1010
*. Correlation is significant at the 0.05 level (2-tailed).
6-2调用 Bivariate 过程命令时允许同时输入两个变量或两个以上变量,但
系统输出的是变量间两两相关的相关系数。
二、偏相关分析:
Partial
1.偏相关分析的含义
在实际问题中,两变量的相关关系往往还要受到其他因素的影响,这些影
响有时候会使相关分析的结果变得不那么可靠。
因此,引入了偏相关分析的方
法。
偏相关分析,也称净相关分析,是指在研究两个变量之间的线性相关关系
时,将与这两个变量有联系的其他变量控制不变的统计方法。
根据控制变量的
个数,偏相关分析分为零阶偏相关分析、一阶偏相关分析、二阶偏相关分析等
等。
其中,零阶偏相关分析是指没有控制变量的相关分析,即一般的相关分析。
一阶偏相关分析是指有一个控制变量的相关分析,二阶偏相关分析是指有两个
控制变量的偏相关分析,其他高阶偏相关分析以此类推。
2.偏相关系数
11
进行偏相关分析时要用到偏相关系数。
偏相关系数是在多元相关分析中说
明当某个自变量在其他自变量固定不变时,分别同因变量线性相关程度的指标。
偏相关系数的取值范围亦在-1~+1 之间,其计算公式分别为:
当有一个控制变量为 x2 时,变量 x1 和 y 之间的一阶偏相关系数为:
ryx1∙x2 =
ryx1 - ryx2 rx1x2
(1 - ryx2 )(1 - rx2x2 )
(6)
3.对偏相关系数的检验方法
在偏相关分析中,由于两个变量之间的相关系数是在固定(控制)了一个
或几个变量后进行的,考虑到这种因素及抽样误差的影响,其检验统计量为:
t =
r n - k - 2
1 - r 2
(7)
式中, r 是特定的偏相关系数; n 为观测值个数; k 为控制变量个数;
n - k - 2 为自由度。
4.背景材料
某汽车制造商从某月中随机抽出 10 天的电力消耗量、温度、日产量等有关
资料,数据如表 4 所示。
结合多年管理经验,对电力消耗量、温度、日产量的
关系做出相关分析。
表 4 某汽车制造商的电力消耗量、温度、日产量等数据表
电力消耗(千瓦)温度(华氏)日产量
12
11
13
9
14
10
12
11
14
11
83
79
85
75
87
81
84
77
85
84
120
110
128
101
105
108
110
107
112
119
5.操作步骤
5-1选择菜单命令“Analyze”→“Correlate”→“Partial”,打开偏相关分
析的对话框,如图 9 所示。
12
图 9 偏相关分析窗口
5-2选入需要进行偏相关分析的变量进入 Variables 框中,至少需要选入两
个。
5-3 选择需要在偏相关分析时进行控制的协变量进入 Controlling for 框中,
如果不选入,则进行的就是普通的相关分析。
5-4在 TestofSignificance 单选框中确定是进行相关系数的单侧(One-
tailed)或双侧(Two-tailed)检验,一般选双侧检验。
5-5Display actual significance level 复选框用于表示在结果中给出确切的 P
值,一般选中。
5-6单击 Options 按钮,弹出 Options 对话框,选择需要计算的描述统计量
和统计分析。
如图 10 所示。
13
图 10偏相关分析的 Options 子对话框
(1)Statistics 复选框用于定义可选的描述统计量。
其中,Meansand
standard deviations 表示每个变量的样本均值和标准差;Zero-order correlations 表
示输出包括控制变量在内所有变量的相关矩阵。
(2)MissingValues 单选框用于定义分析中对缺失值的处理方法,可以是
具体分析用到的两个变量有缺失值才去除该记录(Exclude cases pairwise),或
只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺
失),则在所有分析中均将该记录去除(Excludes cases listwise)。
系统默认为前者,
以充分利用数据。
6.结果解析
这里我们选择电力消耗、温度作为待分析变量,把日产量作为控制变量,
在 Options 子对话框中选中 Means and standard deviations 选项,其他选择系统默
认。
具体分析结果见表 4、表 5 所示。
6-1表 5 偏相关系数表中的结果表明,在控制了日产量变量后,电力消耗
与温度之间的偏相关系数为 0.815,概率 P 值为 0.007<0.05,从而表明两者之间
有高度的相关关系。
表4 偏相关分析描述统计量Descriptive
Statistics
MeanStd. DeviationN
电力消耗11.701.63610
温度82.003.88710
日产量112.008.08310
14
表5 偏相关系数表Correlations
Control Variables电力消耗温度
日产量
电力消耗
温度
Correlation 1.000 .815
Significance (2-tailed) . .007
df 0 7
Correlation .815 1.000
Significance (2-tailed).007.
df70
6-2 表 6 的输出结果是在分析时,除了原有的设置外,在 Options 子对话框
中还选中 Zero-ordercorrelations 选项的分析结果。
表 6 中结果表明,在没有控
制变量的情况下,电力消耗与温度之间的简单相关系数为 0.838,概率 P 值为
0.002<0.05,也表明两者之间有高度的相关关系。
可见,偏相关分析的结论与简
单相关分析的结论基本一致,但在有些时候,偏相关分析的结论与简单相关分
析的结论可以不一致。
6 Correlations
Control Variables电力消耗温度日产量
-none-a
日产量
电力消耗
温度
日产量
电力消耗
温度
Correlation 1.000 .838 .361
Significance (2-tailed) . .002 .305
df 0 8 8
Correlation .838 1.000 .506
Significance (2-tailed) .002 . .136
df 8 0 8
Correlation .361 .506 1.000
Significance (2-tailed) .305 .136 .
df 8 8 0
Correlation 1.000 .815
Significance (2-tailed) . .007
df 0 7
Correlation .815 1.000
Significance (2-tailed).007.
df70
a. Cells contain zero-order (Pearson) correlations.
15
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 相关 分析 案例 讲解 要点