基本统计分析.docx
- 文档编号:26008771
- 上传时间:2023-06-17
- 格式:DOCX
- 页数:47
- 大小:712.12KB
基本统计分析.docx
《基本统计分析.docx》由会员分享,可在线阅读,更多相关《基本统计分析.docx(47页珍藏版)》请在冰豆网上搜索。
基本统计分析
第3章基本统计分析
某高中,期末考试刚刚考过,两班的班主任飞天和神马在聊天。
飞天说:
“你们班期末考试考得怎么样啊?
”神马说:
“哎,刚刚改出来,还没统计呢,你们班怎么样?
”飞天说:
“别提了,各科中只有数学考得好一点,满分150分的卷子,平均分是95分,而且高分不多,大多集中在97分左右,其他各科两极分化很严重,好的好,差的差,恼人呐!
”
这两位班主任的对话中,很多内容实际上就涉及本章要介绍的内容——描述性统计。
统计分析的目的是研究总体的特征,像神马他们班的考试成绩刚刚改出来,还没有做统计分析,所以当别人问他们班考试情况时,他就无言以对。
而飞天在谈话的过程中,就说到了常用的一些描述性的统计量。
描述性统计分析是统计分析的基础,是对一组数据分布的集中或离散情况以及分布状况的描述。
3.1常用描述统计量简介
在统计分析中常用到的描述统计量主要包括以下类别。
❑集中量数:
包括均值、众数、中数、几何均数、调和均数、加权平均数及总和。
❑差异量数:
包括最小值、最大值、全距、方差、标准差等。
❑分布指标:
包括偏度系数、峰度系数,它们是用于反映数据偏离正态分布程度的指标。
❑百分位值及标准分数:
用于描述某一数值在一组数据中的相对位置。
常用的指标包括百分等级与百分位数,Z分数等。
下面将对SPSS中常用到的一些描述性统计指标进行简单介绍。
❑均值:
指一组数据的算术平均数,描述一组数据的平均水平。
计算简单,反应灵敏,适用于需进一步的计算其他统计量的情况。
其为集中量数中波动最小的、最可靠的指标。
❑众数:
是一组数据中出现次数最多的那个数值。
可快速粗略的估计一组数据,且不受极端值的影响。
❑中数:
又称中位数,中值。
指当一组数据按顺序排列后,位于中间位置的数。
也可用于快速估计一组数据的代表值,并不受极端值的影响。
❑全距:
用一组数据的最大值减去最小值即为本组数据的全距。
它是描述一组数据离散情况最简单的统计量。
❑方差:
是每个数据与本组数据均值之差平方之后的平均数,是一组数据中各种变异的总和。
❑标准差:
即为方差的平方根。
方差和标准差是描述一组数据离散程度最常用最好的指标。
值越大,表明数据的离散程度越大;值越小,表明数据的离散程度越小。
❑偏度系数:
用来评估一组数据的分布呈左右对称的程度。
当偏度值为0时,分布即为对称的;当偏度值大于0时,分布呈正偏态;当偏度值小于0时,分布呈负偏态。
❑峰度系数:
是用来评估一组数据分布形状的高狭与低阔程度的指标。
当峰度值接近于0时,此分布形状的高狭程度与正态分布基本一致;当峰度值大于0时,分布的峰度较高狭;当峰度值小于0时,分布的峰度较低阔。
❑百分位数:
指在一组数据中在某一百分等级的观察值的分数。
与百分等级是可以相互转换的。
四分位数是常用的一种百分位数。
❑Z分数:
是最为常用的一种标准分数。
它表示原始分数在一组数据中所处的相对位置。
它无实际单位,是以平均数为参照点,以标准差为单位的分数。
转换为Z分数之后,原本性质不同的分数即可进行比较或者计算。
另外,描述统计中也常结合一些统计图表来表现数据的整体情况。
其中包括条图、饼图、直方图、箱式图等。
图3-1“描述统计”菜单
在SPSS中,专门进行数据的描述统计分析的几个模块集中于“分析”菜单的下拉菜单“描述统计”中,如图3-1所示。
这些模块分别如下。
❑频率过程:
除了一般描述统计的各种指标外,还可以生成频数表及各种常用的描述统计图形。
❑描述过程:
此过程专门用于进行各种描述统计。
此过程的操作及功能很简单,使用方便。
❑探索过程:
该过程通过各种专门的统计指标和统计图表,来对数据进行整理和检查等探索性分析。
❑交叉表过程:
主要进行分类变量或等级变量的统计描述,以及各种各样的统计检验,包括我们常用到的卡方检验。
❑比率过程:
是用于对两个连续性变量的比值进行描述的指标。
在实际中也常有非常重要的作用。
3.2频数统计
频数是指同一观测值在一组数据中出现的次数,在这一节中将介绍SPSS软件中专门为生成频数分布表而设计的分析模块——“频率”过程。
3.2.1频数统计的主要功能
“频率”过程可以产生频数分布表,以对数据按组进行归类整理。
还可以生成各种描述性统计指标,以及条形图、饼图、直方图等常用的统计图。
通过选择SPSS中的“分析”︱“描述统计”︱“频率”命令,可以对各变量的数据分布特征有一个概括的整体认识。
3.2.2频数统计的操作过程
在SPSS中频数统计的操作过程如下。
(1)建立并打开数据文件。
(2)打开“频率”主对话框:
选择“分析”︱“描述统计”︱“频率”命令,打开如图3-2所示的“频率”主对话框。
(3)选择变量:
左侧的列表框为源变量列表框,会呈现出所有变量名,可以根据需要将欲分析的变量移入右侧的“变量”列表框中。
(4)勾选复选框:
左下角有一个“显示频率表格”复选框,如果勾选该复选框,在输出的结果中将列出频数分布的表格。
(5)选择统计量:
单击“统计量”按钮,弹出如图3-3所示的“频率:
统计量”对话框。
此对话框提供了4类描述统计量。
4个选项组分别是“百分位值”、“离散”、“集中趋势”和“分布”,还包括一个“值为组的中点”复选框。
图3-2“频率”对话框图3-3“频率:
统计量”对话框
❑“百分位值”选项组,其中包括3个复选框。
“四分位数”复选框,选择后结果将输出变量的四分位数;“割点”复选框,可以选取任意割点,将数据分为几个等组(默认值为10);“百分位数”复选框,选择此复选框后,可选取任意百分位数通过“添加”按钮移入下方列表框,并可以通过“更改”按钮和“删除”按钮对其进行相应操作。
❑“离散”选项组,即差异量数选项组。
包括“标准差”、“方差”、“范围”(即为全距)、“最小值”、“最大值”和“均值的标准误”6个复选框。
❑“集中趋势”选项组,包括“均值”、“中位数”、“众数”和“合计”4个复选框。
❑“值为组的中点”复选框,表示当一组数据分组后,且其值取各组的中点时,可选择此选项,以正确的对原始的未分组数据的中数及百分位数进行估计。
❑“分布”选项组,是描述数据分布形态的选项组。
包括“偏度”复选框和“峰度”复选框。
单击“继续”按钮,完成设置,返回“频率”主对话框。
(6)选择图表:
单击“图表”按钮,弹出“频率:
图表”对话框,如图3-4所示。
该对话框的功能是选择所要输出的统计图表。
该对话框包括两个选项组。
❑“图表类型”选项组:
该选项组有4个单选按钮。
选择“无”单选按钮时,结果中不会输出图形。
此外,可以选中“条形图”、“饼图”、“直方图”单选按钮,在结果中将输出相应类型的图表。
其中选中“直方图”单选按钮后,会激活其下方的“在直方图上显示正态曲线”复选框,勾选该复选框,则在输出的直方图中会显示正态分布的曲线,用于帮助判断数据是否近似成正态分布,但这仅是一个粗略而直观的判断。
❑“图表值”选项组:
该选项组有“频率”和“百分比”两个单选按钮选项。
选择“频率”单选按钮时,所输出的图形以频数为单位生成;在选中“百分比”单选按钮时,输出图形以百分比为单位生成。
另外,“图表值”选项组仅在“图表类型”选项组中选中“条形图”和“饼图”时才可以使用。
该对话框设置完毕后,单击“继续”按钮,返回“频率”主对话框。
(7)选择输出格式:
在主对话框中,单击“格式”按钮,弹出“频率:
格式”对话框,如图3-5所示。
该对话框用于调整结果输出的格式,有两个选项组。
图3-4“频率:
图表”对话框图3-5“频率:
格式”对话框
❑“排序方式”选项组:
用于调整输出的频数分布表的排列顺序。
其中包括以下4个单选按钮。
Ø按值的升序排序:
对频数分布依据数值的大小进行升序排列。
Ø按值的降序排序:
对频数分布依据数值的大小进行降序排列。
Ø按计数的升序排序:
对频数分布依据频数的大小进行升序排列。
Ø按计数的降序排序:
对频数分布依据频数的大小进行降序排列。
❑“多个变量”选项组:
用于选择有多个变量时结果的输出方式。
选中“比较变量”单选按钮,则将各个变量的同一种报表放在一起输出;选中“按变量组织输出”单选按钮,则是按各变量而分别输出结果。
❑“排除具有多个类别的表”复选框:
勾选该复选框,表明对于变量有太多类别时则不输出频数分布表。
在该复选框下面还带有一个“最大类别数”文本框,用于界定进行此功能的最大类别数,系统默认值为10。
选择完毕后,单击“继续”按钮,返回“频率”主对话框。
(8)Bootstrap按钮:
此功能提供了近年来比较流行的一种非参数统计方法。
Bootstrap法,也称为自助法,是一种通过估计统计量方差进而进行区间估计的统计方法。
它在对小样本数据进行统计分析时效果很好,提供了另一种寻找样本分布的办法。
它的基本思想是采用重抽样技术在原始样本中重复N次抽取给定数量的样本,根据抽取的N个样本计算出N个给定的统计量,再计算这N个统计量的样本方差。
3.2.3实例分析:
大学新生的心理健康状况
(1)
【例3.1】某大学为了了解学生的心理健康状况,要对初入学的大一新生进行心理测评,并建立心理档案。
现要对某班学生的生活事件量表进行分析。
请用SPSS做出此测试结果的频数分布情况。
解:
本例中,主要通过“频率”过程对本班生活事件量表的总分进行描述,并得出全班学生此量表总分各分数的频数情况及其百分比和累积百分比,可以从中了解到学生整体得分的高低水平,也可以由此注意到需要给予较多关注的个体或群体。
下面将介绍具体的操作过程。
1.操作过程
(1)建立并打开数据文件:
将该量表的数据结果输入SPSS中,建立并打开数据文件,如图3-6所示。
图3-6某班学生生活事件量表数据
(2)变量的转换处理:
选择“转换”︱“计算变量”命令,计算出量表的总分。
在数据视图中将出现一列新的关于总分的变量。
(3)打开对话框:
选择“分析”︱“描述统计”︱“频率”命令,打开“频率”主对话框,如图3-7所示。
(4)选择变量:
在左侧列表框中选中变量“总分”,单击向右箭头按钮
,使之移入右侧“变量”列表框中。
图3-7“频率”主对话框
(5)勾选复选框:
勾选“显示频率表格”复选框,输出频数分布表。
(6)选择统计量:
单击“统计量”按钮,打开“频率:
统计量”对话框,如图3-8所示。
在“百分位值”选项组中勾选“四分位数”复选框;在“离散”选项组中勾选“标准差”、“最小值”、“最大值”、“均值的标准误”复选框;在“集中趋势”选项组中勾选“均值”、“中位数”复选框;在“分布”选项组中勾选“偏度”和“峰度”复选框。
单击“继续”按钮,返回主对话框。
(7)选择图表:
单击“图表”按钮,打开“频率:
图表”对话框,如图3-9所示。
在“图表类型”列表框中选中“直方图”单选按钮,并勾选“在直方图上显示正态曲线”复选框,单击“继续”按钮,返回主对话框。
图3-8“频率:
统计量”对话框图3-9“频率:
图表”对话框
(8)选择输出格式:
单击“格式”按钮,出现如图3-10所示的“频率:
格式”对话框。
选择系统默认设置。
单击“继续”按钮,返回主对话框。
图3-10“频率:
格式”对话框
(9)单击“确定”按钮,运行SPSS程序,输出结果。
2.结果分析
(1)统计量指标原始列表:
如表3-1所示为选择的描述性统计指标,从下面的数据可以看出,这个数据的平均值是35.171,标准差是20.578,说明这个数据离散程度较高。
偏态程度为0.742,峰度为-0.096,但都未达到显著性水平,说明此分布接近正态。
表3-1各统计量指标原始列表
N
有效
35
缺失
0
均值
35.1714
均值的标准误
3.47826
中值
30.0000
标准差
20.57767
偏度
.742
偏度的标准误
.398
峰度
-.096
峰度的标准误
.778
极小值
5.00
极大值
88.00
百分位数
25
20.0000
50
30.0000
75
53.0000
(2)频数分布表:
如表3-2所示,表明了各种观测值出现的次数。
用以上的一些描述性统计量可以很快速地了解整体的状况,但同时也会丧失很多信息,通过频数表可以获得更多关于原始数据的信息。
从频数表中可以看出某分数的人数及某分数的人数占总人数的百分比。
表3-2SPSS输出的频数分布表
频率
百分比
有效百分比
累积百分比
有效
5.00
1
2.9
2.9
2.9
10.00
2
5.7
5.7
8.6
12.00
1
2.9
2.9
11.4
14.00
1
2.9
2.9
14.3
16.00
1
2.9
2.9
17.1
17.00
1
2.9
2.9
20.0
19.00
1
2.9
2.9
22.9
20.00
1
2.9
2.9
25.7
21.00
2
5.7
5.7
31.4
22.00
1
2.9
2.9
34.3
23.00
2
5.7
5.7
40.0
24.00
1
2.9
2.9
42.9
26.00
1
2.9
2.9
45.7
28.00
1
2.9
2.9
48.6
30.00
2
5.7
5.7
54.3
32.00
1
2.9
2.9
57.1
33.00
1
2.9
2.9
60.0
41.00
1
2.9
2.9
62.9
续表
频率
百分比
有效百分比
累积百分比
有效
43.00
1
2.9
2.9
65.7
46.00
1
2.9
2.9
68.6
49.00
1
2.9
2.9
71.4
50.00
1
2.9
2.9
74.3
53.00
1
2.9
2.9
77.1
54.00
3
8.6
8.6
85.7
56.00
1
2.9
2.9
88.6
58.00
1
2.9
2.9
91.4
74.00
1
2.9
2.9
94.3
75.00
1
2.9
2.9
97.1
88.00
1
2.9
2.9
100.0
合计
35
100.0
100.0
(3)直方图:
如图3-11所示为本组数据的直方图,从图中可以很清晰的看出,大多数人的分数都集中在10~60之间,数据近似呈正态分布。
图3-11生活事件量表总分直方图
3.3描述统计
描述统计主要是指对实验或调查研究得来的数据,进行归纳、整理及整体的概括和描述。
本节中将向大家介绍SPSS中专门用于对各种描述统计量进行计算的命令——“分析”︱“描述统计”︱“描述”命令。
3.3.1描述统计的主要功能
“描述”过程主要用于对数据的集中趋势(如平均数)、离散趋势(如标准差、方差、全距、最大值、最小值、平均数标准误)及分布情况(如峰度及偏度)等进行描述或计算。
此过程功能很多与“频率”过程的功能相似,读者可在数据分析时根据需要进行选择。
3.3.2描述统计的操作过程
在SPSS中描述性统计的操作过程如下:
(1)建立并打开数据文件。
(2)选择“分析”︱“描述统计”︱“描述”命令,打开“描述性”对话框,如图3-12所示。
(3)选择变量:
首先,选择所要进行描述统计的变量。
左侧的列表框中所有变量,可以将欲分析的变量移入右侧的“变量”列表框中。
(4)勾选复选框:
在左下角有一个“将标准化得分另存为变量”复选框。
默认情况不选择此选项。
如果勾选该复选框,则SPSS会对“变量”列表框中选择的变量计算其Z分数,并将此结果自动建立成一个新变量,在数据编辑窗口中显示出。
若需要对某组数据其标准Z分数进行统计分析,则可以选择“描述”过程中的这一操作。
(5)选择描述统计量:
右上角“选项”按钮的主要功能就是选定想要输出的描述统计量。
单击此按钮,弹出对话框如图3-13所示。
图3-12“描述性”主对话框图3-13“描述:
选项”对话框
该对话框分为4个选项组。
❑最上方的两个选项为集中量数的“均值”复选框,以及“合计”复选框,选中此复选框即可计算变量的总和。
研究者可根据需要进行选择。
❑“离散”选项组:
包括“标准差”、“方差”、“范围”、“最小值”、“最大值”、“均值的标准误”复选框。
❑“分布”选项组:
包括“峰度”和“偏度”复选框。
❑“显示顺序”选项组:
是SPSS提供的一项关于输出顺序的选项,默认为“变量列表”单选按钮,即按因变量的出现顺序呈现,也可选用字母顺序、按均值的升序排序、按均值的降序排序这3种方式对结果进行呈现。
(6)在完成这些选择之后,单击“继续”按钮,则可以回到“描述性”主对话框。
3.3.3实例分析:
大学新生的心理健康状况
(2)
【例3.2】根据案例3.1中大学新生的心理健康状况测评结果,请判断本班学生在该量表上的得分情况如何?
解:
本题主要通过“描述”过程,来对本班学生的生活事件量表得分情况进行集中趋势、离散趋势及分布情况进行描述,了解分数的整体情况。
1.操作过程
(1)打开数据文件。
(2)变量的转换处理:
选择“转换”︱“计算变量”命令,计算出量表的总分及量表的6个因子上的各自总分。
(3)打开对话框:
选择“分析”︱“描述统计”︱“描述”命令,打开“描述性”主对话。
(4)选择变量:
选中左侧变量框中的变量“总分”,单击对话框中间的
按钮,即可将此所选变量选入右侧的“变量”列表框中,如图3-14所示。
(5)勾选复选框:
勾选“将标准化得分另存为变量”复选框,即会在数据编辑窗口输出一列以“Z总分”为变量名的新变量,其为“总分”这一变量的Z分数值。
(6)选择描述性统计量:
单击“选项”按钮,出现“选项”对话框,勾选“均值”、“合计”、“标准差”、“最小值”、“最大值”、“均值的标准误”、“峰度”和“偏度”复选框,如图3-15所示。
然后单击“继续”按钮,返回“描述性”主对话框。
(7)单击“确定”按钮,运行SPSS程序。
图3-14“描述性”主对话框图3-15“描述:
选项”对话框
2.结果分析
(1)输出标准化得分新变量:
可以看到,SPSS的数据编辑窗口中输出总分的Z分数变量,如图3-16所示。
图3-16对总分计算Z分数所得结果
(2)描述统计指标:
在结果输出窗口中会输出描述性统计量的表格,如表3-3所示(由于表格较长,本书中分两部分呈现)。
通过输出结果可以看出,此班学生的生活事件量表的总分平均数达到35.17分,标准差为20.58,最高分为88分,最低分为5分。
由于本量表满分为135分,由此可以得出,本班学生总体来说,得分并不高,但得分的离散程度较高。
此外,可以看出总分这一变量的分布峰度及偏度分别为-0.096和0.742,但其标准误都未达到0.05显著性水平,所以我们可以认为,此变量分布近似正态分布。
表3-3各项描述统计指标
N
和
均值
偏度
峰度
统计量
统计量
统计量
统计量
标准误
统计量
标准误
总分
35
1231.00
35.1714
.742
.398
-.096
.778
有效的N(列表状态)
35
表3-3各项描述统计指标(续)
N
极小值
极大值
均值
标准差
统计量
统计量
统计量
标准误
统计量
总分
35
5.00
88.00
3.47826
20.57767
有效的N(列表状态)
35
3.4探索性统计分析
“探索”这一过程,是在对原始数据进行基本的描述统计的基础上,通过图形等手段来进行更深入更细致的描述分析数据,同时检查探索数据的适切性,对数据进行更有效的整理分析。
3.4.1探索性统计分析的主要功能
这个过程不仅能进行数据的简单描述统计,更强大的功能在于其结合图形直观的对数据的分布特征进行反映,并可对数据进行检查。
下面将对本过程中常用到的各种图形及指标予以简单介绍。
❑茎叶图:
是描述连续变量次数分布的一种方法。
其主要有三部分,即频率、茎和叶构成,其中,茎和叶分别表示数据的整数部分和小数部分(仅保留一位小数),另外,频数的数值决定了叶的数值位数。
在茎叶图底部还注明了茎宽和每叶的个案数。
数据的值即为茎叶组成的数值结合乘以茎宽。
茎叶图不仅表示了数据的次数分布,也保留了原始数据,是频数分布表与直方图的结合,是探索性统计分析中常用的方法。
❑箱图:
也是一种重要的探索性统计分析方法,不仅能表示出一组数据的四分位数、中位数、分布的全距及形态,也可以检测出一组数据的异常值情况。
在箱图中,底部和顶端的线段分别表示数据的最小值和最大值(极端值除外),而中间的箱子的底部、中间和顶端位置的线段则分别表示数据的第一个四分位数、中位数和第三个分位数。
利用箱图也可以大体判断数据的分布形态,若中位数不在箱子中间,较偏箱子底部时,表明数据多为低分,呈正偏态分布;若中位数较偏箱子顶端时,表明数据多为高分,呈负偏态分布。
❑正态分布的检验:
在“探索”过程中有进行正态检验的过程,能够检验一组数据是否符合正态分布,从而是否能进行某些符合正态分布的检验。
❑方差齐性检验:
用来比较各组数据的方差是否相等。
这个条件同样是进行一些检验过程的前提条件。
3.4.2探索性统计分析的操作过程
在SPSS中探索性统计分析的操作过程如下。
(1)建立并打开数据文件。
(2)在SPSS数据录入界面中选择“分析”︱“描述统计”︱“探索”命令,打开“探索”主对话框,如图3-17所示。
(3)选择变量:
在图3-17所示的对话框中,有3个列表框,分别是“因变量列表”、“因子列表”和“标注个案”列表框。
❑“因变量列表”列表框:
必须将所要进行探索检查数据的变量名称,从左边列表框选入此列表框。
❑“因子列表”列表框:
若想要对“因变量列表”列表框中所选变量,在不同类别上进行探索性统计分析,可从左边变量列表框中选择某类别变量进入此列表框。
❑“标注个案”列表框:
可以选择一个变量用来区分观测值,例如被试的“编号”变量,“学号”变量等,可以选入此列表框。
(4)选择统计量:
在“探索”主对话框的右上角有4个按钮。
单击“统计量”按钮,会弹出如图3-18所示的对话框。
图3-17“探索”主对话框图3-18“探索:
统计量”对话框
此对话框的主要功能是设定所要输出的描述统计量。
❑“描述性”复选框:
即可输出得到众多数据的描述性统计量,包括均值、均值的置信区间、中值、方差、标准差、极值、全距及峰度、偏度等。
另外,可以在此选项下方的文本框中对均值的置信区间大小进行设置。
❑“M-估计值”复选框:
此复选框用于生成稳健估计值。
M估计能对不同数值赋予不同的权重,以减少异常值的影响。
结果中将会显示Huber的M-估计、Tukey的双权重估计、Hampel的M-估计和Andrews波估计,并在表格下方标注出各种估计方法的加权常量。
❑“界外值”复选框:
选中此选项,则会输出数据的5个最大值及5个最小值作为数据的极值呈现。
❑
图3-19“探索:
图”对话框
“百分位数”复选框:
在结果中会输出5%、10%、25%、50%、75%、90%、95%这些百分等级所对应的百分位数。
设置完毕后,单击“继续”按钮,返回“探索”主对话框
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基本 统计分析