SPSS的相关分析.docx
- 文档编号:28044975
- 上传时间:2023-07-07
- 格式:DOCX
- 页数:20
- 大小:2.08MB
SPSS的相关分析.docx
《SPSS的相关分析.docx》由会员分享,可在线阅读,更多相关《SPSS的相关分析.docx(20页珍藏版)》请在冰豆网上搜索。
SPSS的相关分析
第8章SPSS的相关分析
学习目标:
1.明确相关关系的含义以及相关分析的主要目标。
2.掌握散点图的含义,熟练掌握绘制散点图的具体操作。
3.理解简单相关系数、Spearman相关系数、Kendall相关系数的基本原理,熟练掌握计算各种相关系数的具体操作,能够读懂分析结果。
4.理解偏相关系分析的主要目标以及与相关分析之间的关系,熟练掌握偏相关分析的具体操作,能够读懂分析结果。
8.1相关分析
相关分析是分析客观事物之间关系的数量分析方法,明确客观事物之间有怎样的关系对理解和运用相关分析是极为重要的。
客观事物之间的关系大致可归纳为两大类关系,它们是函数关系和统计关系。
相关分析是用来分析事物之间统计关系的方法。
所谓函数关系指的是两事物之间的一种一一对应的关系,即荡一个变量x取一定值时,另一变量y可以依确定的函数取唯一确定的值。
例如,商品的销售额与销售量之间的关系,在单价确定时,给出销售量可以唯一地确定出销售额,销售额与销售量之间是一一对应的关系,且这个关系可以被y=Ρx(y表示销售额,Ρ表示单价,x表示销售量)这个数学函数精确地描述出来。
客观世界中这样的函数关系有很多,如圆面积和圆半径、出租车费和行程公里数之间的关系等。
另一类普遍存在的关系是统计关系。
统计关系指的是两事物之间的一种非一一对应的关系,即当一个变量x取一定值时,另一变量y无法依确定的函数取唯一确定的值。
例如,家庭收入和支出、子女身高和父母身高之间的关系等。
这些事物之间存在一定的关系,但这些关系却不能像函数关系那样可用一个确定的数字函数描述,且当一个变量x取一定值时,另一变量y的值可能有若干个。
统计关系可再进一步划分为线性相关和非线性相关关系。
线性相关又可分为正线性相关和负线性相关。
正线性相关关系指两个变量线性的相随变动方向相同,而负线性相关关系指两个变量线性的相随变动方向相反。
事物之间的函数关系比较容易分析和测度,而事物之间的统计关系却不像函数关系那样直接,但确实普遍存在,并且有的关系强,有的关系弱,程度各有差异。
如何测度事物间统计关系的强弱是人们关注的问题。
相关分析正是一种简单易行的测度事物之间统计关系的有效工具。
绘制散点图和计算相关系数是相关分析最常用的工具,他们的互相结合能够达到较为理想的分析效果。
8.2绘制散点图
8.2.1散点图的特点
绘制散点图是相关分析过程中极为常用且非常直观的分析方式。
它将数据以点的形式画在直角平面上。
通过观察散点图能够直观地发现变量间的统计关系以及它们的强弱程度和数据对的可能走向。
在实际分析中,散点图经常表现出某些特定的形状。
如绝大多数的数据点组成类似于“橄榄球”的形状,或集中形成一根“棒状”,而剩余的少数数据点零散地分布在四周。
通常“橄榄球”和“棒状”代表了数据对的主要结构和特征,可以利用曲线将这种主要结构的轮廓描绘出来,使数据的主要特征更突显。
图8—1是常见的几种散点图以及反映出的统计关系的强弱程度。
8.2.2散点图的应用举例
在利用SPSS绘制散点图之前,应先将数据按一定方式组织起来。
对每个变量应设置相应的SPSS变量。
案例8—1
利用第2章案例2—1的住房状况问卷调查数据,分析家庭收入与打算购买的住房面积之间存在怎样的统计关系。
具体数据在可供下载的压缩包中,文件名为“住房状况调查.sav”。
这里,首先利用散点图进行初步分析。
SPSS绘制散点图的基本操作步骤如下:
(1)选择菜单:
【Graphs】→【Scatter】
于是出现如图8—2所示的窗口。
(2)选择散点图的类型。
SPSS提供了四种类型的散点图。
(3)根据所选择的散点图类型,按Define按钮对散点图作具体定义。
不同类型的散点图具体的定义选项略有差别。
一、简单散点图(Simple)
简单散点图是表示一堆变量间统计关系的散点图。
应定义的选项主要有:
●指定某个变量为散点图的纵轴变量,选入【YAxis】框中。
●指定某个变量为散点图的横轴变量,选入【XAxis】框中。
●可指定作为分组的变量到【SetMarkersby】框中,表示按该变量的不同取值将样本数据分成若干组,并在一张图上分别以不同颜色绘制若干个散点图。
该项可以省略。
●可指定标记变量到【LabelCasesby】框中,表示将标记变量的各变量值标记在散点图的相应点的旁边。
该项可以省略。
这里,选择简单散点图,操作窗口如图8—3所示。
二、重叠散点图(Overlay)
重叠散点图是表示多对变量间统计关系的散点图。
应定义的选项主要有:
●两个变量为一对,指定绘制哪些变量间的散点图。
其中,前一个变量作为图的纵轴变量,后一个变量作为图的横轴变量,并可通过Swappair按钮进行横纵轴变量的调换。
●可指定标记变量到【LabelCaseby】框中。
含义同简单散点图。
三、矩阵散点图(Matrix)
矩阵散点图以放行矩阵的形式分别显示多对变量间的统计关系。
矩阵散点图的关键是弄清各矩阵单元中的纵横变量。
以3×3的矩阵散点图为例,变量分别x1,x2,x3,矩阵散点图的横纵变量如表8—1所示(括号中的前一个变量作为纵轴变量,后一个变量作为横轴变量)。
表8—1矩阵散点图坐标变量示意
X1
(x1,x2)
(x1,x3)
(x2,x1)
X2
(x2,x3)
(x3,x1)
(x3,x2)
X3
对角线的格子中显示参与绘图的若干个变量的名称,应特别注意这些变量所在的行和列,它们决定了矩阵散点图中各单元的横纵坐标。
例如,x3在第三行第三列的格子上,则第三行上的所有图形都以x3为纵轴,第三列上的所有图形都以x3为横轴。
应定义的选项主要有:
●指定参与绘图的若干个变量到【MatrixVariables】框中。
选择变了的先后顺序决定了矩阵对角线上变量的排列顺序。
●可指定分组变量到【SetMarkersby】框中。
同简单散点图。
●可指定标记变量到【LabelCasesby】框中。
同简单散点图。
四、三维散点图(3—D)
三维散点图以立体图的形式展现三对变量间的统计关系。
应定义的选项主要有:
●置顶三个变量为散点图各轴的变量,分别选入XAxis,YAxis,ZAxis框中。
●可指定分组变量到【SetMarkersby】框中。
同简单散点图。
●可指定标记变量到【LabelCasesby】框中。
同简单散点图。
家庭收入与计划购买住房面积的简单散点图如图8—4所示。
由图8—4粗略可知大部分的数据点集中在一定区域中,有少部分数据点“脱离”整体数据较远,家庭收入与计划购买的住房面积之间存在一定正的弱相关关系。
由于案例样本量比较大,因此散点图中的点很密集,在一定程度上影响了图形观察效果。
为此,可以对该散点图进行调整,在其基础上绘制葵花式散点图。
葵花式散点图通常将集中在一起的数据点的中心作为“花心”,以“花瓣”的多少表示“花心”周围数据点的多少。
为绘制葵花式散点图应在SPSS输出窗口中选中相应的散点图形,进入SPSS的图形编辑窗口。
鼠标双击图形空白处,出现如图8—5所示的窗口。
在图8—5所示的窗口中,选中【ShowSunflowers】选项,表示绘制葵花式散点图。
图8—6就是家庭收入与计划购买住房面积的葵花式散点图,其中用圆圈住的是数据点较为密集的位置。
进一步,如果我们希望得到能够代表数据对主要结构和特征的“棒状”,可以再编辑该散点图,选中【Total】项并选择如何得到“棒状”的方式。
一般可选择线性回归(Linearregression)、二项式回归(Quardratic)或三项式回归(Cubicregression)方法。
这里,我们采用了线性回归方法,如图8—7所示。
散点图编辑结果如图8—8所示。
8.3计算相关系数
8.3.1相关系数的特点
虽然散点图能够直观地展现变量之间的统计关系,但并不精确。
相关系数以数值的方式很精确地反映了两个变量间线性相关的强弱程度。
利用相关系数进行变量间线性关系的分析通常需要完成以下两大步骤:
第一,计算样本相关系数γ。
利用样本数据计算样本相关系数。
样本相关系数反映了两变量间线性相关程度的强弱。
对不同类型的变量应采用不同的相关系数指标,但它们的取值范围和含义都是相同的,即
●相关系数γ的取值在-1~+1之间。
●γ>0表示两变量存在真的线性相关关系;γ<0表示两变量存在负的线性相关关系。
●γ=1表示两变量存在完全正相关关系;γ=-1表示两变量存在完全负相关关系;γ=0表示两变量不存在线性相关关系。
●|γ|>0.8表示两变量之间具有较强的线性关系;|γ|<0.3表示两变量之间的线性相关关系较弱。
第二,对样本来自的两总体是否存在显著的线性关系进行推断。
由于存在抽样的随机性和样本数量较少等原因,通常样本相关系数不能直接用来说明样本来自的两总体是否具有显著的线性相关性,而需要通过假设检验的方式对样本来自的总体是否存在显著的线性相关关系进行统计推断。
基本步骤是:
●提出原假设,即两总体无显著的线性关系,存在零相关。
●选择检验统计量。
对不同类型的变量应采用不同的相关系数,对应也应采用不同的检验统计量。
具体内同间后面的讨论。
●计算检验统计量的观测值和对应的概率Ρ-值。
●决策。
如果检验统计量的概率Ρ-值小于给定的显著性水平α,则不能拒绝原假设,可以认为两总体存在零相关。
8.3.2相关系数的种类
对不同类型的变量应采用不同的相关系数来度量,常用相关系数主要有Pearson简单相关系数、Spearman相关系数和Kendallτ相关系数等。
一、Pearson简单相关系数
Pearson简单相关系数用来度量定距型变量间的线性相关关系。
如测度收入和储蓄、身高和体重、工龄和收入等变量间的线性相关关系时可用Pearson简单相关系数,它的数学定义为:
式中,n为样本数;xi和yi分别为两变量的变量值。
由式(8.1)可进一步得知简单相关系数,也即
式(8.2)说明简单相关系数是n个xi和yi分别标准化后的积的平均数。
于是可知简单相关系数有以下几个特点:
●X和y在式(8.1)或式(8.2)中式对称的,说明x与y的相关系数等同于y与x的相关系数。
●由于相关系数是x和y标准化后的结果,因此简单相关系数是无量纲的。
●对x和y作线性变换后可能会改变它们之间相关系数的符号(相关的方向),但不会改变相关系数的值。
●相关系数能够用于度量两变量之间的线性关系,但它并不是度量非线性关系的有效工具。
Pearson简单相关系数的检验统计量为t统计量,其数学定义为:
式中,t统计量服从n—2个自由度的t分布。
SPSS将自动计算Pearson简单相关系数、t检验统计量的观测值和对应的概率Ρ-值。
二、Spearman等级相关系数
Spearman等级相关系数用来度量定序变量间的线性相关关系。
该系数的设计思想与Pearson简单相关系数完全相同,仍然可依照(8.1)计算,相应点指标特征也想死。
然而在计算Spearman等级相关系数时,由于数据为非定距的,因此计算时并不直接采用原始数据(xi,yi),而是利用数据的秩,即将两变量的秩(Ui,Vi)代替(xi,yi)带入式(8.1)中,于是其中的xi和yi的取值范围被限制在1~n之间,且式(8.1)可被简化为:
式中,
。
可见Spearman等级相关系数体现了这样的思想:
●如果两变量的正相关性较强,它们秩的变化具有同步性,那么
的值较小,γ趋向于1。
●当两变量为完全正线性相关时,
达到最小为0,γ=1;当两变量为完全负相关时,
,到最大为
。
●如果两变量的正相关性较弱,它们的秩的变化不具有同步性,那么
的值较大,γ趋向于0。
小样本下,在原假设成立时Spearman等级相关系数服从Spearman分布;大样本下,Spearman等级相关系数的检验统计量为Z统计量,其数学定义为:
式中,Z统计量近似服从标准正态分布。
SPSS将自动计算Spearman等级相关系数、Z检验统计量的观测值和对应的概率Ρ-值。
三、Kendallτ相关系数
Kendallτ相关系数采用非参数检验方法度量定序变量间的线性相关关系。
它利用变量秩数据计算一致对数目(U)和非一致(V)。
例如,两变量(xi,yi)的秩对分别为(2,3),(4,4),(3,1),(5,5),(1,2),对变量x的秩按升序排序后形成的秩对为(1,2),(2,3),(3,1),(4,4),(5,5)。
于是,变量y的秩随变量x的秩同步增大的秩对(一致对)有(2,3),(2,4),(2,5),(3,4),(3,5),(1,4),(1,5),(4,5),一致对数目U等于8;变量y的秩未随变量x的秩同步增大的秩对(非一致对)有(2,1),(3,1),非一致对数目V等于2。
于是一致对数目定义为
,非一致对数目定义为
。
显然,如果两变量具有较强的正相关关系,则一致对数目U应较大,非一致对数目V应较小;如果两变量具有较强的负相关关系,则一致对数目U应较小,非一致对数目V应较大;如果两变量的相关性较弱,则一致对数目U和非一致对数目V应大致相等,大约各占样本数的1/2。
Kendallτ相关正是要对此进行检验。
Kendallτ统计量的数学定义为:
在小样本下,Kendallτ服从Kendall分布。
在大样本下,采用的检验统计量为:
式中,Z统计量近似服从标准正态分布。
SPSS将自动计算Kendallτ相关、Z检验统计量的观测值和对应的概率Ρ-值。
8.3.3计算相关系数的应用举例
再利用SPSS计算两变量间的相关系数之前应按一定格式组织好数据,定义两个SPSS变量,分别存放相应两变量的变量值。
对于案例8—1,通过绘制散点图得知家庭收入与计划购买的住房面积之间存在一定的正的弱相关关系,为更准确地反映两者之间线性关系的强势,采用计算相关系数的方法。
由于这两个变量均为定距变量,因此采用简单相关系数。
SPSS计算相关系数的基本操作步骤如下:
(1)选择菜单:
【Analyze】→【Correlate】→【Bivariate】
于是出现如图8—9所示的窗口。
图8—9相关分析窗口
(2)选择参加计算相关系数的变量到【Variables】框。
(3)在【CorrelationCoefficients】框中选择计算哪种相关系数。
(4)在【TestofSignificance】框中选择输出相关系数检验的双尾(Two-tailed)概率Ρ-值还是单尾(One-tailed)概率Ρ-值。
(5)选中【Flagsignificanceofcorrelations】选项表示分析结果中除显示统计检验的概率Ρ-值以外,还输出星号标记,以标明变量间的相关性是否显著;不选中则不输出星号标记。
(6)在Options按钮中的【Statistics】选项中,选中【Cross-productdeviationsandcovariances】表示输出各变量的离差平方和、样本方差、两变量的叉积离差和协方差。
至此,SPSS将自动计算相关系数和进行统计检验,并将结果输出到输出窗口。
案例分析结果如表8—2所示。
由表8—2可知:
家庭收入与计划购买的住房面积间的简单相关系数为0.323,说明两者之间存在正的弱相关性。
其相关系数检验的概率Ρ值都近似为0.因此,当显著性水平α为0.05或0.01时,都应拒绝相关系数检验的原假设,认为两总体不是零相关的。
应注意虽然这里我们拒绝了两总体零相关的假设,但并不意味着两者就存在强的相关性。
拒绝零相关与存在弱相关之间是不矛盾的。
另外,表8—2中相关系数旁边的两个星号(**)表示显著性水平α为0.01时仍拒绝原假设。
一个星号(*)表示显著性水平α为0.05时可拒绝原假设。
因此,两个星号比一个星号拒绝原假设犯错误的可能性更小。
在实际应用中变量间相关性的研究应注意将绘制散点图与计算相关系数的方法相结合。
例如,两变量的数据对为(1,1),(2,2),(3,3),(4,4),(5,5),(6,1),如果计算它们的简单相关系数约为0.3,那么据此得出的结论是两变量存在弱相关关系。
但如果绘制散点图(见图8—10)则发现如果剔除圈中的数据点,则它们之间呈完全正线性关系,而非弱相关。
而导致相关系数较低的原因是圈中的异常数据点造成的。
因此,仅依据散点图或相关系数都无法准确反映变量之间的相关性,两者的结合运用时必要的。
8.4偏相关分析
8.4.1偏相关分析和偏相关系数
相关分析中研究两事物之间的线性相关性是通过计算相关系数等方式实现,并通过对相关系数值的大小来判定事物之间的线性相关强弱。
然而,就相关系数本身来讲,它未必是两事物间线性相关性强弱的真实体现,往往有夸大或缩小的趋势。
例如,在研究商品的需求量和价格、消费者收入之间的线性关系时,需求量和价格也会产生影响,并通过价格变动传递到对商品需求量的影响中。
再例如,研究粮食产量与平均气温之间的线性关系中实际还包含了月平均日照时数对产量的影响以及对平均气温的影响等。
因此在这种情况下,单纯利用相关系数来评价变量间的相关性显然是不准确的,而需要在剔除其他相关因素影响的条件下计算变量间的相关。
偏相关分析的意义就在于此。
偏相关分析也称净相关分析,他在控制其他变量的线性影响的条件下分析两变量间的线性相关性,所采用的工具是偏相关系数(净相关系数)。
控制变量个数为一时,偏相关系数称为一阶偏相关系数;当控制变量个数为二时,偏相关系数称为二阶偏相关系数;当控制变量的个数为零时,偏相关系数称为零阶偏相关系数,也就是相关系数。
利用偏相关系数进行变量间净相关分析通常需要完成以下两大步骤:
第一,计算样本的偏相关系数。
利用样本数据计算样本的偏相关系数,反映两变量间净相关的强弱程度。
在分析变量x1和y之间的净相关时,当控制了变量x2的线性作用后,x1和y之间的一阶偏相关系数定义为:
式中,γy1,γy2,γ12分别表示y和x1的相关系数、y和x2的相关系数、x1和x2的相关系数。
偏相关系数的取值范围及大小含义与相关系数相同。
第二,对样本来自的两总体是否存在显著的净相关进行推断。
净相关分析检验的基本步骤如下:
●提出原假设,即两总体的偏相关系数与零无显著差异。
●选择检验统计量。
偏相关分析的检验统计量为t统计量,它的数学定义为:
(8,9)
式中,γ为偏相关系数;n为样本数;q为阶数。
T统计量服从n—q—2个自由度的t分布。
●计算检验统计量的观测值和对应的概率Ρ-值。
●决策。
如果检验统计量的概率Ρ-值小于给定的显著性水平α,应拒绝原假设,认为两总体的偏相关系数与零有显著差异;反之。
如果检验统计量的概率Ρ-值大于给定的显著性水平α,则不能拒绝原假设,可以认为两总体的偏相关系数与零无显著差异。
8.4.2偏相关分析的应用举例
在利用SPSS进行偏相关分析前应按一定格式组织好数据,应定义若干个SPSS变量分别存放相应变量的变量值。
对于案例8—1,已经分析了家庭收入与计划购房面积之间的相关性。
直观感觉这种相关性会受到家庭常住人口数的影响。
为此可将家庭常住人口数作为控制变量,对家庭收入与计划购房面积作偏相关分析。
SPSS偏相关分析的基本操作步骤如下:
(1)选择菜单:
【Analyze】→【Correlate】→【Partial】
于是出现如图8—11所示的窗口。
(2)选择参与分析的变量到【Variables】框中。
(3)选择一个活多个被控制的变量到【Controllingfor】框中。
(4)在【TestofSignificance】框中选择输出偏相关检验的双尾(Two-tailed)概率Ρ-值还是单尾(One-tailed)概率Ρ-值。
(5)在Options按钮中的【Statistics】选项中,选中【Zero-orderCorrelations】表示输出零阶偏相关系数。
至此,SPSS将自动进行偏相关分析和统计检验,并将结果输出到输出窗口。
案例分析结果如表8—3所示。
表8—3中,在常住人口作为控制变量的条件下,家庭收入与计划购房面积间的偏相关系数为0.3345,仍呈一定的弱相关。
与简单相关系数相比略高了一些,分析其原因可以看到家庭常住人口与计划面积之间的相关系数为负数,呈极弱的负相关性。
该负数带入偏相关数的计算公式后使偏相关系数略微增大。
但应注意到,如果显著性水平设为0.01,则家庭常住人口与计划面积间的相关性在统计检验中并没有通过,因此总体间的零相关假设是不能拒绝的。
练习题
1.对15家商业企业进行客户满意度调查,同时聘请相关专家对这15家企业的综合竞争力进行评分,结果如下表。
编号
客户满意度得分
综合竞争力得分
编号
客户满意度得分
综合竞争力得分
1
90
70
9
10
60
2
100
80
10
20
30
3
150
150
11
80
100
4
130
140
12
70
110
5
120
90
13
30
10
6
110
120
14
50
40
7
40
20
15
60
50
8
140
130
请问,这些数据能否说明企业的客户满意度与其综合竞争力存在较强的正相关,为什么?
2.为研究香烟消耗量与肺癌死亡率的关系,收集下表数据。
(说明:
1930年左右很少有妇女吸烟;采用1950年的肺癌死亡率是考虑到吸烟的效果需要一段时间才可显现。
)
国家
1930年人均香烟消耗量
1950年每百万男子中死于肺癌的人数
澳大利亚
480
180
加拿大
500
150
丹麦
380
170
芬兰
1100
350
英国
1100
460
荷兰
490
240
冰岛
230
60
挪威
250
90
瑞典
300
110
瑞士
510
250
美国
1300
200
要求:
绘制上述数据的散点图,并计算相关系数,说明香烟消耗量与肺癌死亡率之间是否存在显著的相关关系。
3.收集到某商品在不同地区的销售额、销售价格以及该地区平均家庭收入的数据,如下表所示:
销售额(万元)
销售价格(元)
收入
100.00
50.00
10000.00
75.00
70.00
6000.00
80.00
60.00
12000.00
70.00
60.00
5000.00
50.00
80.00
3000.00
65.00
70.00
4000.00
90.00
50.00
13000.00
100.00
40.00
11000.00
110.00
30.00
13000.00
60.00
90.00
3000.00
要求:
(1)绘制销售额、销售价格以及家庭收入两两变量间的散点图。
如果所绘制的图形不能较清晰地展示变量之间的关系,应对数据如何处理后再绘图。
(2)选择恰当的统计方法分析销售额与销售价格之间的相关关系。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 相关 分析