SPSS课件第3章Word下载.docx
- 文档编号:21137395
- 上传时间:2023-01-27
- 格式:DOCX
- 页数:30
- 大小:431.61KB
SPSS课件第3章Word下载.docx
《SPSS课件第3章Word下载.docx》由会员分享,可在线阅读,更多相关《SPSS课件第3章Word下载.docx(30页珍藏版)》请在冰豆网上搜索。
描述统计的范围相当宽泛,方法也很多,归纳起来有四个方面:
Ø
单个变量的频数分析,编制频数分布表;
计算单个变量的描述统计量;
比较两个变量,编制交互列联表,并分析变量是否相关;
其他的一些探索性分析。
为实现上述功能,可以有两条途径,一是数值计算,例如统计量的计算,频数的计算,通过精确计算数值来反映统计特征;
二是绘制图表,绘制常用的统计图形,利用图形直观的展示数据的分布特点。
我们通常将两者结合一来使用,达到相辅相成的效果。
需要注意的是,不同尺度类型的变量,其描述统计的方法是不尽相同的,间隔尺度变量的描述统计方法不一定使用于顺序尺度变量,而顺序尺度变量的统计方法又不一定适合名义尺度变量,这一点非常重要,但是往往容易被分析者所忽略。
很多分析者都是不管三七二十一,拿了数据就计算均值、方差,殊不知有时这种计算根本就没有任何意义,结果也不能说明任何问题,因此,在本章中,我们试图针对不同的变量尺度,介绍不同的描述统计方法,并详细介绍每种方法的适用条件,请读者在学习中注意区别。
我们先顺序尺度和名义尺度变量的描述分析,然后是间隔尺度变量的描述分析,最后是两个变量的列联表分析。
3.1名义尺度和顺序尺度变量的描述分析
变量尺度对描述统计分析有着重大的影响,特别是对顺序尺度和名义尺度变量的描述统计,要引起读者足够的重视。
在本节开始,我们首先给出一个例子,通过这个例子,我们将能够理解顺序尺度和名义尺度变量的特点,并掌握对这些变量进行分析的要点。
3.1.1引例,名义尺度和顺序尺度变量的特点
例3-1现有广告的形式和广告吸引力的数据(见光盘第3章3-1.sav),请对此数据进行描述统计分析。
打开数据3-1,我们发现有两个变量,“adtype”表示广告的类型,而“adattrac”表示广告的吸引力,我们虽然在1.1.1就讲过了名义尺度和顺序尺度变量的定义了,但是在这里我们仍然准备再将它们的特点重点阐述一下,加深读者的理解。
广告形式是名义尺度变量,我们注意到它只是取3个值:
1代表广告方式是纯文本方式,2代表广告方式是黑白图片广告,3代表广告方式是全彩色图片广告。
这三个取值仅仅代表三种广告方式,它们不能比较大小,没有顺序。
因此,可以归纳出名义尺度变量的特点:
变量只取有限几个值;
变量值仅仅代表不同类别,变量值不能比较大小,即无序。
名义尺度变量最大的特点是无序,接下来我们来看顺序尺度变量的特点,广告吸引力是顺序尺度变量,注意到它取5个值:
1代表非常有吸引力,2代表有吸引力,3代表一般吸引力,4代表不是非常有吸引力,5代表非常没有吸引力。
这5个取值代表了不同的程度,它们有顺序,例如1比2好,2比3好,但是不能比较大小差异,例如:
非常有吸引力对有吸引力的差异,和有吸引力对一般吸引力的差异,就不能比较了,不能说两者相等,也不能说非常有吸引力对一般吸引力的差异就是后者的两倍。
因此,归纳顺序尺度变量的特点:
变量值代表不同程度,变量值有序;
变量值之间的差异无法衡量。
顺序尺度变量最大的特点是有序无量。
下面我们将介绍这两类尺度变量的描述统计方法。
3.1.2名义尺度和顺序尺度变量的描述统计分析
在SPSS中,描述统计分析的菜单集中在【Analyze】菜单下的【DescriptiveStatistics】菜单下,如图3-1所示。
图3-1描述统计分析的主要功能
对于名义尺度变量,由于其取有限个值,适合做频数分析,同时由于其无序,因此,描述统计量集中趋势的统计量只能计算众数,而关于离散趋势的统计量只能计算异众比率,分布状态的统计量不能计算。
同时许多图形不能绘制,只能绘制条形图和饼图。
频数分析的操作
要进行频数分析,利用以下操作完成:
Step1:
选择【Analyze】菜单→【DescriptiveStatistics】菜单→【Frequencies】菜单
进入如图3-2的对话框,该对话框主要由三部分组成,左边是待选变量框,列出了所有数据集文件中的变量,中间是频数分析变量框,右边三个按钮是频数分析设置按钮。
Step2:
选择频数分析变量
将变量“广告类型(adtype)”选入频数分析变量框中。
Step3:
进行频数分析相关设置
点击
,进入如图3-3对话框,由于只能计算众数,因此选择“Mode”,点击
回到如图3-2的主对话框。
图3-2频数分析主对话框
图3-3计算统计量对话框
点击
进入如图3-4对话框,选择作图选项,其中“Barcharts”表示条形图,“Piecharts”表示饼图,“Histograms”表示直方图,间隔尺度变量才能做直方图,对于名义尺度和顺序尺度变量,只能做条形图或饼图,本例中做条形图;
下面还有一个对话框,问作图数值采用“Frequencies”频数,“Percentages”频率,效果类似,本例用频数。
设置完成以后点击
回到图3-2的主对话框。
图3-4作图对话框图3-5格式对话框
进入格式对话框,主要设置数据频数表的格式,一般不用修改,使用默认选项即可,说明如下:
1.Orderby单选按钮组:
定义频数表的排列次序,四个选项为:
●Ascendingvalues:
按照变量值的升序做频数分布表;
●Descendingvalues:
按照变量值的降序做频数分布表;
●Ascendingcounts:
按照频数的升序做频数分布表;
●Descendingcounts:
按照频数的降序做频数分布表;
2.MultipleVariables单选按钮组,如果选择了两个以上的变量做频数表,则Comparevariables可以将它们的结果在同一频数表中显示,便于比较;
Organizeoutputbyvariables则在不同频数表中显示。
选择默认选项,点击
回到图3-2的主对话框,点击
完成频数分析操作。
对于顺序尺度变量,和名义尺度变量相似,适合做频数分析,同时由于其有序无量,因此,描述统计量集中趋势的统计量可以计算中位数和众数,而关于离散趋势的统计量也只能计算异众比率,分布状态的统计量不能计算,同样只能绘制条形图和饼图。
对于顺序尺度变量“广告吸引力(adattrac)”,其操作与变量“广告类型”操作基本相同,只是在图3-3中除了选众数“Mode”外,还可以选择中位数“Median”,在图3-4中选择做饼图“piecharts”。
完成描述统计的频数分析和统计量计算分析后,我们来看分析结果:
3.1.3名义尺度和顺序尺度描述统计分析结果说明
对于名义尺度变量“广告类型(adtype)”的分析结果如下,我们逐项说明
标题“Frequencies”表明是进行频数分析,下面给出数据来源,
表3-1广告类型Statistics
N
Valid
11
Missing
Mode
1a
a.Multiplemodesexist.Thesmallestvalueisshown
表3-1显示了统计量的计算结果,其中“N”对应的两行表示样本数,“Valid”表示有效样本是11个,“Missing”表示有缺失值的样本是0个,下一行的“Mode”表示众数为1,最后一行的注释表明众数不止一个,这里只列出最小的一个。
表3-2广告类型
Frequency
Percent
ValidPercent
CumulativePercent
纯文本
4
36.4
黑白
3
27.3
63.6
全彩
100.0
Total
表3-2表示根据广告类型计算频数,其中:
“Frequency”表示频数:
即变量值落入该计数区间的次数
“Percent”表示百分比频率=频数/样本总数×
100%
“ValidPercent”表示有效的百分比频率=频数/有效样本数×
100%,
其中有效样本数=样本总数-缺失样本数
“CumulativePercent”表示累积百分比频率:
各百分比频率逐级相加的结果,最终等于100%。
图3-6是广告类型频数条形图,从图中我们可以看到,“纯文本”和“全彩”的频数都是4,所以众数为1和3,这和表格3-2显示的内容是一致的,也说明了表格3-1的注释众数不止一个。
这里我们又发现了变量值标签的一个优点:
如果给变量取值编制了标签,分析结果会显示标签内容,而不是1、2、3等数字,显示更直观,更容易理解。
图3-6广告类型频数图
对于顺序尺度变量“广告吸引力(adattrac)”,其分析结果和表3-1及3-2类似。
表3-3列出统计量的结果,从表中可以看到,有效样本数为11,缺失样本数为0;
样本中位数为3,即“一般吸引力”;
众数为2,同时注释中说明众数不止一个,最小的总数是2,即“不是非常有吸引力”,当然从表3-4我们看出还有一个众数为4,即“有吸引力”。
表3-3广告吸引力Statistics
Median
3.00
2a
表3-4列出频数分析结果,可以看出,变量取值“非常没有吸引力”的频数最低,其次是“一般吸引力”和“非常有吸引力”,频数最高的是“有吸引力”和“不是非常有吸引力”,从频数结果看,广告效果尚可,63.6%的被访者认为广告效果不坏。
表3-4广告吸引力
非常有吸引力
2
18.2
有吸引力
45.5
一般吸引力
不是非常有吸引力
90.9
非常没有吸引力
1
9.1
图3-7列出了频数饼图结果,和表3-4的数值相对应,这里就不再过多解释了。
图2-7频数分析饼图
3.2间隔尺度变量的描述分析
间隔尺度变量和名义尺度变量、顺序尺度变量有较大的不同,它是性质最好,最适合做统计分析的数据,当然,针对间隔尺度变量的描述统计方法比起名义尺度变量和顺序尺度变量来丰富得多,在本节我们也通过一个例子来说明间隔尺度变量的描述统计分析。
3.2.1引例,间隔尺度变量的特点
例3-2现有某家庭20周内记录的来电时间长度的数据(见光盘数据3-2.sav),对电话时间长度进行描述统计分析,要求分析出时长的频数,计算均值、标准差、偏度、峰度统计量,并探索数据分布特点。
打开数据3-2.sav,可以看到有三个变量,其中“周(week)”和“电话时长(time)”是间隔尺度变量,而“日期(day)”是名义尺度变量,变量“日期”在本节中就进行分析了,分析变量“周”显然意义不大,因此本节重点是分析变量“电话时长”。
观察间隔尺度变量,间隔尺度变量的变量值既有顺序,也可以比较大小差异,是有序有量的数据,这也是间隔尺度变量被称为“定距变量”原因,对于间隔尺度变量,其特点可以归纳为:
变量取值可以是有限个,也可以是无限个,可以是离散取值,也可以是连续取值;
变量取值的大小不仅表示顺序,而且取值的差表示两个取值的距离;
不同的差异可以比较,使得变量取值代表了量的变化。
由于间隔尺度变量已经在量上有了体现,因此对于间隔尺度变量的描述统计方法也丰富了,下面简单介绍,请读者注意和名义尺度变量及顺序尺度变量进行比较。
1.频数分析,对于间隔尺度变量,如果变量取有限的几个值(例如家庭人数、银行个数等变量),则可以直接进行频数分析,如果变量取值较多,或者变量连续取值(例如收入、经济增长、存款等变量),则需要利用第2章将得变量重赋值产生一个顺序尺度的变量,以此来进行频数分析会是结果更简单明了。
2.统计量的计算,对于间隔尺度的变量,可以计算以下三类统计量
A.集中趋势的描述统计量
此类统计量有均值、中位数、众数三种,由于代表了数据的集中位置,也称为位置(Locate)统计量。
均值(Mean)是其中最常用,代表中心值或平均值的描述统计量,又称为“算术平均数”,只适用于间隔尺度变量计算,计算表达式为
或者
,
前者适合计算单个案例的数据,后者适合计算频数加权案例的数据。
中位数(Median)是将数据排序后,排在第n/2位置上的案例所对应的数值,由于中位数只是进行排序,因此间隔尺度和顺序尺度变量都可以计算中位数,而名义尺度变量不能计算中位数。
众数(Mode)是指变量值中出现频数最多的那个取值,众数对于三种尺度的变量都可以计算,只是需要注意的是,众数可能不止一个,也可能没有。
什么时候众数不止一个,什么时候没有留给读者思考。
在实际应用中,应该根据数据的特点决定使用哪种集中趋势描述统计量,均值的特点是易受极端值影响,因此如果数据中有特别大或特别小的值时,不推荐使用均值,应该使用中位数作为集中趋势统计量。
B.离散趋势的描述统计量
关于离散趋势的描述统计量有全距、样本方差、样本标准差、异众比率几种。
全距(Range)也称极差,定义是:
,是一个比较粗糙的描述离散趋势的描述统计量,通过排序就可以获得,它只能说明数据的分布范围,而不能准确刻画数据离中心的程度,因此实际中不常用。
由于全距涉及距离,因此,只适合间隔尺度变量计算。
方差(Variance)和标准差(Std.deviation)是实际中经常使用的离散趋势描述统计量,定义为:
方差Variance:
,标准差Stddeviation:
同时,SPSS还能计算样本均值的标准误差,其计算公式为:
离散趋势的描述统计量刻画了数据离中心的分散程度,也把此类统计量成为分布尺度(Scale)统计量,尺度越大,就越分散,从另一个角度讲,数据越分散,离中心远的数据越多,中心的代表性就越差,因此,也可以认为离散趋势的描述统计量是刻画集中趋势的代表性的统计量。
以上几种统计量都涉及均值,因此,也只有间隔尺度变量才能计算,对于另外两种尺度,只能计算异众比率,定义为:
异众比率=非众数出现的频数/样本总数=1-众数出现的频数/样本总数。
异众比率越大,说明数据越分散,也说明众数的代表性越差。
C.分布形态的描述统计量
此类描述统计量主要有偏度和峰度两个。
偏度(Skewness)是描述数据分布对称性的统计量,如果数据关于中心(均值)的分布是对称的,此时称为分布对称或偏度为0,如果数据大部分分布在中心左边,小部分分布在中心右边,说明此时中心右边有偏大的值,即右边的值距离中心远,左边值距离中心近,这样右边的少数距离能够“抵消”左边的多数距离。
此时,偏度为正,称为正偏或右偏分布,反之称为负偏或左偏分布,偏度计算公式:
峰度(Kurtosis)是描述数据分布陡峭还是平缓的一个统计量,数学定义为:
若峰度大于0,说明数据分布比标准正态分布更陡峭;
相反如果峰度小于0,说明数据分布不如标准正态分布陡峭;
等于0,说明数据分布陡峭程度和标准正态分布相当。
值得指出的是,在经济学和金融学中得到的数据,很多都具有“尖峰后尾”的特点,即峰度大于0,偏度也大于0,在处理这类数据时,要特别小心,本书也会有所涉及此类数据。
3.数据作图
和频数分析类似,对于间隔尺度变量,如果要做条形图和饼图,可能需要事先经过数据分组。
除了这两种图以外,间隔尺度变量还可以做以下几种图:
直方图(Histogram),是根据数据的间隔和分布频数做出的图,类似条形图,但是能够更准确刻画数据分布特征。
箱式图(Boxplots),是利用最小值、25%分位数、中位数、75%分位数和最大值五个数绘制而成,可以描述数据分布的特征。
茎叶图(Stem-and-leaf),是根据数据数值绘制的图形,类似直方图,但更精细。
Q-Q图(Q-Qplots),检验数据是否服从正态分布。
在下一小节中,我们将详细讲述如何实现上述的间隔尺度变量描述统计分析。
3.2.2间隔尺度变量的描述统计分析
1.对于频数分析,操作和3.1.2类似,只是需要首先通过变量重赋值定义一个顺序尺度变量,在此统计量可以先不计算,留到下一步统计量的步骤中再行计算,注意:
如果要计算中位数和众数只能在频数分析时计算。
2.统计量的计算
选择【Analyze】菜单→【DescriptiveStatistics】菜单→【Descriptives】菜单
出现图3-8所示的对话框,此对话框结构和一般对话框类似,此处就不解释了,将变量“电话时长(time)”通过箭头选入计算变量框,点击
进入下一步。
图3-8统计量计算对话框
Step2:
选择计算的统计量
在如图3-9所示的对话框中,选择要计算的统计量,此处选择计算均值、标准差、均值的标准差、偏度、峰度,当有多个变量计算统计量时,还要选择下方的显示顺序,可以按照变量列表的顺序(Variablelist)、字母表顺序(Alphabetic)、还可以按照均值的升、降序(Ascending/Descendingmeans),选择完成后点击
回到图3-8的主对话框,再点击
完成统计量计算的操作。
图3-9统计量计算对话框
3.作图的操作
对于作条形图和饼图,和前面操作类似,在【Frequencies】菜单中就可以完成,直方图也可以在那个菜单中完成,只要在图3-4中选择Histogram就可以了,下面还有一个复选框“Withnormcurve”,询问是否添加一条正态曲线。
关于箱式图和茎叶图的绘制,遵循以下步骤
选择【Analyze】菜单→【DescriptiveStatistics】菜单→【Explore】菜单
出现图3-10所示的对话框,对话框由四部分构成,左边是待选变量框,中间是分析变量框“DependentList”、分组变量框“FactorList”和标注变量框“LabelCasesby”,如果想依据分组分别计算变量结果,可以将分组变量选入分组变量框,如果变量有诸如编号、名称等标注变量,可以选入标注变量框;
右边是计算统计量
和作图
以及选项
按钮,下面还有显示单选框,用于选择显示统计量“Statistics”、图形“plots”还是两者都显示“Both”。
将变量“电话时长(time)”选入分析变量框,点击
进入图3-11统计量对话框。
图3-10探索分析主对话框
选择要计算的统计量及所绘图形
对图3-11对话框中的统计量选项我们解释如下:
“Descriptives”:
输出均值、中位数、众数、5%修正均值、标准差、方差、均值标准误差、最大值、最小值、全距、峰度、峰度的标准误差、偏度、偏度的标准误差以及指定置信度的置信区间,其中,置信度可以通过下面的“ConfidenceIntervalforMean%”中指定,默认为95%。
“M-estimators”:
作集中趋势的最大稳健估计,该统计量是迭代计算求出,可以大幅减小受异常值的影响,我们可以用此统计量来判断异常值,如果此统计量离均值较远,说明数据中有异常值。
该选项一共会输出Huber、Andrew、Hampel和Turkey四种M统计量,其中Huber方法适合数据接近正态分布的情况,而其他三种适合有异常值的数据。
“Outlier”:
输出最大的五个值和最小的五个值。
“Percentiles”:
输出第5%、10%、25%、50%、75%、90%、95%分位数。
图3-11统计量对话框图3-12作图对话框
在图3-12作图选项对话框中,我们对选项给出如下解释:
“Boxplots”单选框组:
确定绘制箱式图的方式,其中“Factorlevelstogether”是按组别分组绘制,而“Dependentstogether”是不分组按变量绘制,“None”表明不绘制箱式图。
“Descriptive”复选框组:
可以绘制茎叶图“Stem-and-leaf”和直方图“Histogram”。
“Normalityplotswithtest”:
绘制正态分布检验的Q-Q图,并进行变量是否正态分布的检验。
“Spreadvs.LevelwithLeveneTest”单选框组:
该部分属于高级分析功能,此处不再叙述,一般来说不可用。
我们按照图上标示的进行选择以后点击
回到主对话框图3-10再点击
按钮可以完成作图设置。
关于Q-Q图和P-P图的绘制,在SPSS17中有专门的菜单,我们以Q-Q图为例来讲解其操作
选择【Analyze】菜单→【DescriptiveStatistics】菜单→【Q-Qplot】菜单或【P-P】菜单
如图3-13所示的对话框中,将作图变量“电话时长(time)”选入作图变量框“Variables”中,此选项框可以选择多个变量分别做Q-Q图。
图3-13Q-Q图作图对
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS 课件