SPSS基本统计分析new.docx
- 文档编号:25842690
- 上传时间:2023-06-16
- 格式:DOCX
- 页数:32
- 大小:281.12KB
SPSS基本统计分析new.docx
《SPSS基本统计分析new.docx》由会员分享,可在线阅读,更多相关《SPSS基本统计分析new.docx(32页珍藏版)》请在冰豆网上搜索。
SPSS基本统计分析new
第四章SPSS基本统计分析
SPSS的主要分析工具——Analyze菜单
报告--Rports
描述性统计分析--DescriptiveStatistics菜单
表格--Tables
均数间的比较--CompareMeans菜单
一般线性模型――GeneralLinearModel菜单
相关分析――Correlate菜单
多元线性回归与曲线拟合――Regression菜单
对数线性模型——Loglinear菜单
聚类分析与判别分析——Classify菜单
因子分析与对应分析——DataReduction菜单
信度分析与多维尺度分析——Scale菜单
非参数检验――NonparametricTests菜单
时间序列分析--Timeseries
描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。
SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在DescriptiveStatistics菜单中,包括:
Frequencies:
频数分析过程,特色是产生频数表(主要针对分类变量)
Descriptives:
数据描述过程,进行一般性的统计描述(主要针对数值型变量)
Explore:
数据探察过程,用于对数据概况不清时的探索性分析
Crosstabs:
多维频数分布交叉表分析(列联表分析)
Ratiostatistics:
比率分析
对数据分析通常是从基本统计分析入手的。
通过基本统计分析,能够使用权分析者掌握的基本统计特征,把握数据的总体分布形态。
基本统计分析的结论对今后进一步的数据建模,将起到重要的指导和参考作用。
对数据的基本统计分析通常包括以下几个方面:
(1)编制单个变量的频数分布表。
(2)计算单个变量的描述统计量以及不同分组下的描述统计量。
(3)编制多变量的交叉频数分布表,并以此分析变量间的关系
(4)其它探索性分析
(5)数据的多选项分析
为实现上述分析,往往采用两种方式实现:
第一,数值计算,即计算常见的基本统计量的值,通过数值来准确反映数据的基本统计特征,反映变量统计特征上的差异;第二,图形绘制,即绘制常见的基本统计图形,通过图形来直观展现数据的分布特点,比较数据分布的异同。
通常,数值计算和图形绘制是结合使用的,它们将起到相辅相成的作用。
4.1频数分析
4.1.1频数分析的目的和基本任务
基本统计分析往往从频数分析开始。
通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。
例如,在意味着数据分析中,通常应首先对本次调查的被调查者的状况,如被访者的总人数、年龄特点、职业特点、性别特征等进行分析和总结。
通过这些分析,能够在一定程度上反映出样本是否具有总体代表性,抽样是否存在系统偏差等,并以此证明以后相关问题分析的代表性和可信性。
这睦分析可以通过频数分析来实现。
频数分析的第一个基本任务是编制频数分布表。
SPSS中的频数分布表包括的内容有:
1.频数(frequency)
即变量值落在某个区间(或某个类别)中的次数。
2.百分比(percent)
即各频数占总样本数的百分比
3.有效百分比(validpercent)
即各频数占有效样本数的百分比。
其中;有效样本数=总样本数-缺失样本数。
有效百分比计算的是:
在不包含缺失值个案的所有个案中各变量取值频数的比例。
4.累计百分比(cumulativepercent)。
即各百分比逐级累加起来的结果。
最终取值为百分之百。
频数分析的第二个基本任务是绘制统计图。
统计图是一种最为直接的数据刻画方式。
能够非常清晰地展示变量的取值状况。
频数分析中常用的统计图包括:
1.柱形图或条形图(barchart)
即用宽度相同的条形的高度或长短来表示频数分布变化的图形,适用的定序和定类变量的分析。
柱形图的纵坐标或条形图的横坐标可以表示频数,也可以表示百分比。
它们又分为单式图和复式图等形式。
2.饼图(piechart)
3.直方图(histograms)
即用矩形的面积来表示频数分布变化的图形。
适用于定距型变量的分析。
可以在直方图上附加正态分布曲线,便于与正态分布的比较。
4.1.2频数分析的应用举例
案例4-1
利用第2章案例2-1的住房问卷调查数据,分析被调查家庭中户主的从业状况、日前所住房屋的产权情况。
SPSS频数分析的基本操作步骤如下:
(1)选择菜单:
analyze->descriptivestatistics->frequencies
(2)选择若干频数分析变量到[variable(s)]框中。
这里选择从业状况和房屋产权。
(3)按[chart]选择绘制统计图。
在[chartvalues]框中选择柱形图纵坐标或条形图横坐标(或饼图中扇形面积)的含义,[frequencies]表示频数;[percentages]表示百分比。
这里选择柱形图。
(4)频数分布表格式(Format)的定义
1.调整频数分布表中数据的输出顺序(Orderby):
频数分布表中的内容的输出顺序可以按变量值的升序输出(Ascendingvalues),按变量值的降序输出(Descendingvalues),按频数的升序输出(Ascendingcounts),按频数的降序输出(Descendingcounts)。
2.multiplevariables单选框组:
如果选择了两个以上变量作频数表,则comparevariables可以将所有变量的结果在同一个频数表过程输出结果中显示,便于互相比较;organizeoutputbyvariables则将结果在不同的频数表过程输出结果中显示,每一个变量一张表。
3.压缩频数分布表(Suppresstableswithmorethanncategories)
如果变量取值的个数或取值区间的个数太多,频数分布表将很庞大,此时可以压缩它。
SPSS默认,如果变量取值的个数或取值区间的个数大于10,则不输出相应的频数分布表。
应用中可以修改该值。
另外,还可以利用SPSS提供的图形编辑功能对所生成的统计图形进行必要的编辑。
图形编辑时应在SPSS输出窗口中双击待编辑的图形,于是会出现一个名为[chartedit]的SPSS图形编辑窗口。
该窗口提供了极为丰富的图形编辑和修饰功能。
4.1.3SPSS频数分析的扩展功能
编制频数分布表和绘制统计图是频数分析的基本任务,除此之外,按[statistics]还可以计算其他重要的统计量。
主要是:
1.计算分位数(percentilevalues)
分位数是变量在不同分位点上的取值。
分位点在0-100之间。
一般使用较多的是四分位点(Quartiles),即将所有数据按升序排序后平均等分成四份,各分位点依次是25%,50%,75%。
于是四分位数便分别是25%,50%,75%点所对应的变量值。
此外,还有八分位数、十六分位数等。
SPSS提供了计算任意分位数的功能,用户可以指定将数据等分为n份(Cutpointsfornequalgroups)。
还可以直接指定分位点(Percentile)。
2.计算其他基本描述统计量
SPSS频数分析还能够计算其它基本描述统计量,包括描述集中趋势(centraltendency)的基本统计量,描述离散程度(dispersion)的基本统计量,描述分布型态(distribution)的基本统计量等。
4.1.4频数分析扩展功能的应用举例
案例4-2
利用第2章案例2-1的住房状况意问卷调查数据,分析人均住房面积的分布情况,并对本市户口和外地户口家庭进行比较。
首先对人均面积进行数据分组。
对分组后的结果进行频数分析并绘制带正态曲线的直方图。
接下来,利用SPSS的频数分析计算出所有样本的人均住房面积的四分位数;然后,按照户口状况对数据进行拆分(splitfile)并重新计算分位数,分别得到本市户口和外地户口的人均住房面积的四分位数。
4.2计算基本描述统计量
4.2.1基本描述统计量
常见的基本描述统计量有三大类:
刻画集中趋势的统计量
刻画离散程度的统计量
刻画分布形态的统计量
一、刻画集中趋势的描述统计量
集中趋势是指一组数据向某一中心值靠拢的倾向。
1.均值(Mean):
即算术平均数,是反映某变量所有取值的集中趋势或平均水平的指标,是一种最常用的刻画集中趋势的描述统计量。
如某企业职工的平均月收入。
其计算公式为:
2.中位数(Median):
即一组数据按升序排序后,处于中间位置上的数据值。
如评价社会的老龄化程度时,可用中位数。
3.众数(Mode):
即一组数据中出现次数最多的数据值。
如生产鞋的厂商在制定各种型号鞋的生产计划时应该运用众数。
4.均值标准误差(StandardErrorofMean):
描述样本均值与总体均值之间的平均差异程度的统计量。
其计算公式为:
二、刻画离散程度的描述统计量
离散程度是指一组数据远离其“中心值”的程度。
如果数据都紧密地集中在“中心值”的周围,数据的离散程度较小,说明这个“中心值”对数据的代表性好;相反,如果数据仅是比较松散地分布在“中心值”的周围,数据的离散程度较大,则此“中心值”说明数据特征是不具有代表性的。
常见的刻画离散程度的描述统计量如下:
1.全距(Range):
也称极差,是数据的最大值(Maximum)与最小值(Minimum)之间的绝对离差。
2.方差(Variance):
也是表示变量取值离散程度的统计量,是各变量值与算数平均数离差平方的算术平均数。
其计算公式为:
3.标准差(StandardDeviation:
StdDev):
表示变量取值距离均值的平均离散程度的统计量。
其计算公式为:
标准差值越大,说明变量值之间的差异越大,距均值这个“中心值”的离散趋势越大。
三、刻画分布形态的描述统计量
数据的分布形态主要指数据分布是否对称,偏斜程度如何,分布陡峭程度等。
刻画分布形态的统计量主要有两种:
1.偏度系数(Skewness):
描述变量取值分布形态对称性的统计量。
其计算公式为:
当分布为对称分布时,正负总偏差相等,偏度值等于0;当分布为不对称分布时,正负总偏差不相等,偏度值大于0或小于0。
偏度值大于0表示正偏差值大,称为正偏或右偏;偏度值小于0表示负偏差值大,称为负偏或左偏。
偏度绝对值越大,表示数据分布形态的偏斜程度越大。
2.峰度系数(Kurtosis):
描述变量取值分布形态陡峭程度的统计量。
其计算公式为:
当数据分布与标准正态分布的陡峭程度相同时,峰度值等于0;峰度大于0表示数据的分布比标准正态分布更陡峭,为尖峰分布;峰度小于0表示数据的分布比标准正态分布平缓,为平峰分布。
另外,SPSS还能计算出峰标准误差(S.E.ofKurtosis)
4.2.2计算基本描述统计量的应用举例
案例4-3
利用第2章案例2-1的住房状况问卷调查数据,对人均住房面积计算基本描述统计量,并分别对本市户口和外地户口家庭进行比较。
这里,由于进行市户口和外地户口家庭的比较,因此,首先按照户口状况对数据进行拆分(splitfile),然后计算人均住房面积的基本描述统计量。
SPSS计算基本描述统计量的基本操作步骤如下:
(1)选择菜单Analyze->DescriptiveStatistics->Descriptives
(2)将需计算的数值型变量选择到Variable(s)框中
(3)单击Option按钮指定计算哪些基本描述统计量
用户可以指定分析多变量时结果输出的次序(DisplayOrder)。
其中,Variablelist表示按变量在数据窗口中从左到右的次序输出;Alphabetic表示按字母顺序输出;AscendingMeans表示按均值升序输出;DescendingMeans表示按均值降序输出。
至此,SPSS便自动计算所选变量的基本描述统计量并显示到输出窗口中。
案例4-4
利用第2章案例2-1的住房状况问卷调查数据,分析人均住房面积是不存在不均衡现象。
本例分析人均住房面积是否存在不均衡现象,可以从分析住房面积是否有大量异常值入手。
这里,如果假设人均住房面积的总体分布为正态分布,那么根据统计学中的经典的
原则,异常值为3个标准差之外的异常值。
数据标准化处理后更利手对异常值的判断。
标准化的数学定义为:
通过标准化可以得到一系列新变量值,通常称为标准化值或Z分数。
如果标准化值的绝对值大于3则可认为是异常值。
步骤:
(1)计算人均住房在面积的标准化值。
选择菜单Analyze->DescriptiveStatistics->Descriptives,在窗口中先选中[savestandardizedvaluesasvariables]。
SPSS将自动计算人均住房面积的标准化值。
并将结果保存在一个新变量中。
该变量的起名规则是:
字母Z+原变量名的前七个字符。
本例中为[Z人均面积]
(2)对[Z人均面积]进行排序(sortcases)
(3)将[Z人均面积]进行分组,再进行频数分析。
4.3交叉分组下的频数分析
4.3.1目的和基本任务
1.目的:
交叉分组下的频数分析又称列联表分析。
通过前面的频数分析能够掌握单个变量的数据分布情况,在实际分析中,不仅要了解单个变量的分布特征,还要分析多个变量不同取值下的分布,进而分析变量之间的相互影响和关系。
对于这种涉及两个或两个以上变量分布情况的研究通常要利用交叉分组下的频数分析来完成。
2.基本任务:
(1)根据收集到的样本数据,产生二维或多维交叉列联表;
(2)在交叉列联表的基础上,对两两变量间是否存在一定的相关性进行分析。
4.3.2交叉列联表的主要内容
编制交叉列联表是交叉分组下频数分析的第一个任务。
交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表。
例:
职工基本情况数据按职称和文化程度编制的二维交叉列联表(见表):
上表中的职称变量称为行变量(Row),文化程度称为列变量(Column)。
行标题和列标题分别是两个变量的变量值(或分组值)。
表格中间是观测频数(ObservedCounts)和各种百分比。
16名职工中,本科、专科、高中、初中的人数分别为4,4,5,3,构成的分布称为交叉列联表的列边缘分布;高级工程师、工程师、助理工程师、无技术职称的人数分别为3,4,6,3,构成的分布称为交叉列联表的行边缘分布;4个本科学历职工中各职称的人数分别是1,1,2等,这些频数构成的分布称为条件分布,即在行变量(列变量)取值条件下的列变量(行变量)的分布。
在交叉列联表中,除了频数外还引进了各种百分比。
例如表中第一行中的33.3%,33.3%,33.3%分别是高级工程师3人中各学历人数所占的比例,称为行百分比(Rowpercentage),一行的百分比总和为100%;表中第一列的25.0%,25.0%,50.0%分别是本科学历4人中各职称人数所占的比例,称为列百分比(Columnpercentage),一列的列百分比总和为100%,表中的6.3%,6.3%,12.5%等分别是总人数16人中各交叉组中人数所占的百分比,称为总百分比(Totalpercentage),所有格子中的总百分比之和也为100%。
4.3.3交差列联表行列变量间关系的分析
对交叉列联表中的行变量和列变量之间关系进行分析是交叉分组下频数分析的第二个任务。
为了理解行、列变量之间的关系,可以从分析两个极端的例子出发:
(1)年龄与工资收入的交叉列联表
(一)
工资收入
年
龄
段
低
中
高
青
400
0
0
中
0
400
0
老
0
0
400
(2)年龄与工资收入交叉列联表
(二)
工资收入
年
龄
段
低
中
高
青
0
0
400
中
0
400
0
老
400
0
0
表一中表示年龄与工资收入呈正相关关系,表二表示年龄与工资收入呈负相关关系。
但大多数情况下,观测频数分散在列联表的各个单元格中,不容易直接发现行列变量之间的关系强弱程度,此时就要借助非参数检验方法。
通常用的方法是卡方检验。
一、交差旬联表的上卡方检验
卡方检验属假设检验的范畴,步骤如下:
(1)建立原假设
在列联表分析中卡方检验的原假设为行变量与列变量独立
(2)选择和计算检验统计量
列联表分析卡方检验统计量是Pearson卡方统计量,其数学定义为:
其中,r为列联表的行数,c为列联表的列数;
为观察频数,
为期望频数(ExpectedCount)。
期望频数的计算方法是:
其中,RT是指定单元格所在行的观测频数合计,CT是指定单元格所在列的观测频数合计,n是观测频数的合计。
期望频数的分布与总体的分布一致辞,反映的是行列变量互不相干下的分布。
卡方统计量观测值的大小取决于两个因素:
第一:
列联表的单元格子数;第二:
观测频数与期望频数的总差值。
在列联表确定的情况下,卡方统计量观测值的大小取决于观测频数与期望频数的总差值。
当总差值越大时,卡方值也就越大,实际分布与期望分布的差距越大,表明行列变量之间越相关;反之表明行列变量之间越独立。
那么,在统计上卡方统计量的观测值究竟达到什么程度才能断定行列变量不独立呢?
由于该检验中的pearson卡方统计量近似服从卡方分布,因此可依据卡方理论找到某自由度和显著性水平下的卡方值,即卡方临界值。
(3)确定显著性水平(SignificantLevel)和临界值
显著性水平是指原假设为真却将其拒绝的风险,即弃真的概率。
通常设为0.05或0.01。
在卡方检验中,由于卡方统计量服从自由度为(行数-1)×(列数-1)的卡方分布,因此,在行列数目和显著性水平确定时,卡方临界值是可唯一确定的。
(4)结论和决策
对统计推断做决策通常有两种方式:
1.根据统计量观测值和临界值比较的结果进行决策。
如果卡方观测值大于临界值,则认为实际分布与期望分布之间的差距显著,可以拒绝原假设,断定列联表的行列变量间不独立,存在相关关系;反之,接受原假设。
2.根据统计量观测值的概率p值和显著性水平比较的结果进行决策。
如果p值小于等于
,则认为卡方观测值出现的概率是很小的,拒绝原假设,断定列联表的行列变量间不独立,存在依存关系;反之,接受原假设。
什么是P值?
1.一个概率值;
2.如果原假设为真,P-值是抽样分布中大于或小于样本统计量的概率;
3.被称为观察到的(或实测的)显著性水平。
双侧检验的P值
左侧检验的P值
右侧检验的P值
利用P值进行检验(决策准则)
⏹若p-值>α,不拒绝H0
⏹若p-值<α,拒绝H0
4.3.4交叉分组下的频数分析应用举例
案例4-5
利用第2章案例2-1的住房状况问卷调查数据,分析本市户口和外在户口家庭对“未来三年是否打算买房”是否持相同的态度。
本例可以利用交叉分组下的频数分析来实现。
列联表的行变量为“户口状况”,列变量为“未来三年”,在列联表的输出各种百分比、期望频数、剩余、标准化剩余。
同时,显示名交差分组下的频数分布条形图,并利用卡方检验方法,对市户口和外地户口家庭对该问题的态度是否一致辞进行检验。
SPSS交叉分组下的频数分析的基本操作步骤如下:
(1)选择菜单Analyze->DescriptiveStatistics->Crosstabs
(2)如果进行二维列联表分析,则将行变量选择到Row(s)框中,将列变量选择到Column(s)框中。
如果Row(s)和Column(s)框中有多个变量名,SPSS会将行列变量一一配对后产生多张二维列联表。
如果进行三维或多维列联表分析,则将其他变量作为控制变量选到Layer框中。
多控制变量间可以是同层次的,也可以是逐层叠加的,可通过Previous或Next按钮确定控制变量间的层次关系。
(3)选择Displayclusteredbarcharts选项,指定绘制各变量交叉分组下频数分布条形图。
Suppresstables表示不输出列联表,在仅分析行列变量间关系时可选择该选项。
(4)单击Cells按钮指定列联表单元格中的输出内容
SPSS默认列联表单元格中只输出观测频数(Observed)。
为便于分析,通常还应指定输出Percentage框中的行百分比(Row)、列百分比(Column)、总百分比(Total)。
Counts框中的Expected表示输出期望频数;Residuals框中的各个选项表示在各个单元格中输出剩余。
其中,Unstandardized为非标准化剩余,定义为观测频数-期望频数;Standardized为标准化剩余,又称Pearson剩余,定义为:
(5)单击Format按钮指定列联表各单元格的输出排列顺序。
Ascending表示以行变量取值的升序排列,是SPSS默认项;Descending表示以行变量取值的降序排列。
(6)单击Statistics按钮指定用哪种方法分析行变量和列变量间的关系,窗口如下,其中,Chi-Square为卡方检验。
“correlations”定距变量的关联指标,可作列联表行、列变量的“pearson”相关系数或“spearman”相关系数。
SPSS中列联表分析的其他方法
对列联表中行列变量的分析,除上述卡方检验方法之外,SPSS还提供了其他测度变量间相关关系的检验方法,包括:
1.适用于两定类变量的关联指标:
Nominal框中列出的方法属该类方法。
“contingencycoefficient”:
列联系数。
“phiandcramer’sV”:
phiandcramerV系数。
“lambda”:
值,在自变量预测中用于反映比例缩减误差,其值为1时表明自变量预测应变量好,为0时表明自变量预测应变量差。
“uncertaintycoefficient”:
不确定么数,以熵为标准的比例缩减误差,其值接近1时表明后一变量的信息很大程度来自前一变量,其值接近0时表明后一变量的信息与前一变量无关。
2.适用于两定序变量的关联指标:
Ordinal框中列出的方法属该类方法。
“gamma”:
为同序对子数,
为异序对子数,界于0-1之间,所有实际数集中于左上角和右下角时,其值为1,表示两个变量之间有关联,取值为0表示相互独立。
“somers’d”:
,
为独立变量上不存在同分的偶对中,同序对子数超过民序对子数的比例。
“kendall’stau-b”
值介于-1_1之间。
“kendall’srau-c”,
值介于-1_1之间
3.适用于一定类变量、一定距变量的方法:
Nominalbyinterval框中的Eta方法属该类方法。
4.其他方法。
在Chi-SquareTests表中,第一列为检验统计量名称,第二列是名检验统计量的观测值,第三列是自由度,第四列是大于各检验统计量观测值的P-值,其中,第一行是卡方检验的结果。
根据上述卡方检验的基本步骤和决策方式可知,本检验的原假设是:
本市户口和外地户口对未来三年是否买房的看法是一致的。
如果显著性水平
设为0.05,由于卡方的概率P-值小于
,因此描绘原假设,认为本市户口和外地户口对未来三年是否买房的看法是不一致的。
这种不一致主要体现在打算买房的比例在本市户口中低于总体比例,而外地户口则高于部体比例。
脚注b表明,该分析中期望频数小于0的单元格数为0,最小的期望频数为41.94,适合作卡方检验。
另外,在Chi-
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 基本 统计分析 new