实验5抽样估计的SPSS应用.docx
- 文档编号:27072072
- 上传时间:2023-06-26
- 格式:DOCX
- 页数:20
- 大小:265.05KB
实验5抽样估计的SPSS应用.docx
《实验5抽样估计的SPSS应用.docx》由会员分享,可在线阅读,更多相关《实验5抽样估计的SPSS应用.docx(20页珍藏版)》请在冰豆网上搜索。
实验5抽样估计的SPSS应用
实验5抽样估计的SPSS应用
5.1实验目的
根据随机抽样资料,掌握对总体指标做出具有一定可靠性的估计或推断的SPSS实验,并对实验结果做出解释。
5.2相关知识
5.2.1.抽样方法:
重复抽样和不重复抽样。
SPSS软件中所采用的抽样方法为不重复抽样,本实验采用不重复抽样方法。
5.2.2.抽样组织:
按照抽取样本单位时是否遵循随机原则,抽样技术可以分为概率抽样和非概率抽样。
其中,概率抽样又称为随机抽样,即按照随机原则抽取样本。
随机抽样的组织形式有:
简单随机抽样、类型抽样、等距抽样、整群抽样等,本实验采用简单随机抽样形式。
5.2.3抽样估计方法:
点估计和区间估计
1.点估计:
用样本统计量的值直接作为总体参数的估计值。
如用样本均值直接作为总体均值的估计值,用样本比率(或成数)直接作为总体比率(或成数)的估计值,用样本方差直接作为总体方差的估计值等。
常用的点估计方法包括:
(1)矩估计法;
(2)极大似然估计法(3)稳健估计法,本文采用矩估计法。
2.区间估计:
是在点估计的基础上,给出总体参数估计的一个围,所以区间估计相对于点估计更加精确,要优于点估计。
5.3实验容
5.3.1建立SPSS数据文件
5.3.2利用SPSS软件抽取随机样本,抽样比率为30%。
5.3.3运用SPSS软件,对总体均值进行点估计和区间估计。
5.3.4运用SPSS软件,对各个班级成绩的均值进行点估计和区间估计
5.3.5运用SPSS软件,对总体比率(成数)进行点估计和区间估计。
5.3.6撰写实验报告。
5.4实验要求
5.4.1准备实验数据
2009级财管专业111名学生的概率论课程成绩,见“表5-12009级财管学生概率课成绩.xls”。
5.4.2完成实验任务,对实验结果做出简要分析。
1.依据样本学生的概率论成绩,采用点估计和区间估计的方法,推断学生总体概率论课程的平均成绩,置信水平为90%。
2.依据样本信息,推断该课程成绩80分及以上的学生比率,置信水平为90%。
3.分析实验结果,提交实验报告。
5.5实验步骤
5.5.1建立SPSS数据文件
通过SPSS软件打开Excel表,即表“5-12009级财管学生概率成绩.xls”。
第一步:
选择菜单“文件→打开→数据”,弹出如图5-1所示的“打开数据”对话框。
图5-1“打开数据”对话框
→在“文件类型(T):
”中选择“Excel”,在“查找围(L):
”中找到要读取的Excel文件“5-12009级财管学生概率成绩.xls”→单击【打开】按钮
第二步:
在打开的SPSS数据编辑窗口的变量视图下定义变量的类型→单击工具栏的“保存”,在弹出的“将数据保存为”对话框(如图5-2)中,在“查找围(L):
”中找到要保存文件的位置,在“文件名(N):
”中输入要保存的文件名“5-1成绩”,单击【保存】按钮,至此完成SPSS数据文件“表5-1,2009财管1-4班概率成绩.sav”的建立与保存。
图5-2“将数据保存为”对话框
5.5.2抽取随机样本
用简单随机不重复抽样方法抽样,抽样比例为30%。
SPSS的随机抽样抽取的方式有两种:
其一,近似抽样:
即用户给出一个百分比数值,SPSS将按照这个比例自动从数据编辑窗口中随机抽取相应百分比数目的个案,抽取的个案数不一定精确地等于用户指定的百分比,会有小的偏差,但这种偏差不会对数据分析产生重要影响。
其二,精确抽样:
要求用户给出两个参数,第一个参数是希望选取的个案数,第二个参数是指定在前几个个案中选取。
本实验在这里选择“近似抽样”的方式抽取随机样本。
第一步:
打开数据文件“表5-1,2009财管1-4班概率成绩.sav”,在菜单选择“数据”→“选择个案”,得到“选择个案”对话框→选择【随机个案样本】按钮,如图5-3。
图5-3“选择个案”对话框
第二步:
在“选择个案”对话框中,单击【样本(S…)】按钮,得到“选择个案:
随机样本”对话框→选择【大约(A)】选项,输入数字“30”→点击[继续]按钮,如图5-4。
图5-4选择个案:
随机样本对话框
第三步:
在“选择个案”对话框中,在“输出”框中选择【将选定个案复制到新数据集(O)】按钮→在“数据集名称(S):
”后面的框输入文件名字“样本”→点击【确定】按钮,如图5-5。
图5-5“选择个案”对话框
此时将得到新生成的样本数据文件,将此文件进行保存到指定的位置,且命名为“样本.sav”。
综上,通过采用近似随机抽样方法,从111名学生中抽样30%的学生作为样本,得到SPSS样本数据文件,即“2009级财管学生概率成绩样本数据文件.sav”,样本容量为42。
5.5.3对总体均值进行点估计和区间估计
第一步:
打开SPSS样本数据文件“2009级财管学生概率成绩样本数据文件.sav”,依次选择【分析】→【描述统计】→【探索】按钮,得到“探索”对话框。
将“成绩”选入“因变量列表”框,在“输出”框选择“统计量”选项,如图5-6。
图5-6“探索”对话框
第二步:
单击【统计量】按钮,选择“描述性”选项,在“均值的置信区间(C):
”框输入“90”,单击【继续】按钮,如图5-7。
(注意:
如果只进行点估计,不需要给出置信度,因此就不需要此步骤了)
图5-7探索:
统计量对话框
第三步:
再返回到“探索”对话框中,如图5-8。
图5-8“探索”对话框
第四步:
单击【确定】按钮,系统输出结果如表5-1。
表5-1点估计及区间估计结果
统计量
标准误
成绩
均值
85.7857
1.85776
均值的90%置信区间
下限
82.6593
上限
88.9121
5%修整均值
86.4471
中值
88.0000
方差
144.953
标准差
12.03964
极小值
60.00
极大值
100.00
围
40.00
四分位距
18.75
偏度
-.766
.365
峰度
-.603
.717
从表5-1可以看出,样本均值为85.7857,根据统计学原理,在合理估计的假设前提下,点估计是把样本均值或是成数直接作为总体的均值或是成数。
因此,以上计算的样本均值85.7857分可以作为总体均值的估计值,即估计的111名学生的概率论课程成绩为85.7857分;在90%的置信度下,对2009级111名财管专业学生的概率论课程平均成绩进行区间估计,其区间围在[82.6593,88.9121]之间。
5.5.4对各个班级成绩的均值进行点估计和区间估计
如果按某一标志分组(如以班级为标志分组)的各班进行参数估计,这为各个班级之间的比较提供了方便。
平均成绩的区间估计实现有“频率”、“描述”、“探索”、“均值”等过程,学生自行练习“描述”过程的操作方法(“描述”过程的操作路径为:
“分析”→“描述统计”→“描述”)。
(注意:
在“频率”、“描述”实现方法中只能对总体进行估计,不能一步实现对各班进行估计,“探索”则可以一步实现各班的估计。
)这里主要介绍“均值”过程的实现方法。
第一步:
打开样本数据文件“2009级财管学生概率成绩样本数据文件.sav”,”,依次选择“分析”→“比较均值”→“均值”,得到“均值”对话框。
图5-9“均值”对话框
→将“成绩”选入“因变量列表(D):
”框→将“班级”选入“自变量列表”框,如图5-10。
图5-10“均值”对话框
第二步:
单击【选项(O)…】按钮,得到“均值:
选项”对话框,
图5-11“均值:
选项”对话框
→在“统计量(S):
”框中,将“均值、方差、标准差”选入到“单元格统计量(C):
”框中→单击【继续】按钮。
图5-12“均值:
选项”对话框
第三步:
在“均值”对话框中,单击【Bootstrap(B)…】按钮,得到“Bootstrap”对话框,
图5-13“Bootstrap”对话框
→在“Bootstrap”对话框中,选择“执行bootstrap”→在“样本数(N):
”框中输入“42”→在“置信区间”中的“水平(%)(D):
”框中输入“90”→在“抽样”框选定“分层(T)”选项,在“变量(V):
”中将变量“班级”移入到右边的“分层变量(R):
”框中→单击【继续】按钮(说明:
本次样本容量为42,置信水平为90%)
图5-14“Bootstrap”对话框
第四步:
再返回到“均值:
选项”对话框中,单击【确定】按钮,输出结果见表5-2。
表5-22009级财管各班平均成绩的区间估计
班级
Statistic
Bootstrapa
偏差
标准误差
90%置信区间
下限
上限
财管1班
均值
93.7692
.2418
.9275
92.4880
95.7162
方差
12.859
-2.261
4.171
3.760
18.287
标准差
3.58594
-.39354
.64535
1.93657
4.27564
财管2班
均值
90.1111
-.4974
2.1035
85.3753
92.6667
方差
47.361
-5.323
16.648
16.999
71.936
标准差
6.88194
-.53440
1.33779
4.12244
8.48145
财管3班
均值
76.9091
-.5736
2.5032
71.0687
81.2197
方差
111.891
-3.384
41.148
31.086
181.759
标准差
10.57785
-.36780
2.08955
5.55510
13.48158
财管4班
均值
80.7778
.1429
5.0320
71.1796
89.5364
方差
275.194
-19.968
75.195
101.606
380.556
标准差
16.58899
-.80143
2.47487
10.05606
19.50748
总计
均值
85.7857
-.1514
1.3446
83.2840
88.1233
方差
144.953
2.891
24.496
100.810
204.888
标准差
12.03964
.07870
1.00707
10.03998
14.31331
a.Unlessotherwisenoted,bootstrapresultsarebasedon42stratifiedbootstrapsamples
由表5-2可以看出:
(1)选取容量为42的样本,以90%的置信水平下,对2009级111名财管专业学生的概率论课程平均成绩进行区间估计,其区间围为[83.2840,88.1233];
(2)还可以看出对各个班级的概率论课程平均成绩的区间估计结果:
财管1班平均成绩的区间围为[92.4880,95.7162],财管2班平均成绩的区间围为[85.3753,92.6667],财管3班平均成绩的区间围为[71.0687,81.2197],财管4班平均成绩的区间围为[71.1796,89.5364]。
可见,以上实验过程不仅给出了总体的参数估计结果,同时还给出了按某一变量分组(如以班级为变量分组)的各班参数估计值,这为各个班级之间成绩的比较提供了方便。
5.5.5对总体比率(成数)进行点估计和区间估计(该估计由学生自己完成)
估计总体比率(成数),需要对成绩分组,其方法有两种:
“可视离散化”和“重新编码”过程进行组距式分组。
在此以“可视离散化”方法为例,说明总体比率(成数)的估计过程。
1.用“可视离散化”方法对成绩分组,说明总体比率(成数)的估计过程。
Step①:
打开样本数据文件“2009级财管学生概率成绩的SPSS样本数据文件.sav””。
在SPSS界面的数据编辑菜单中,选择【转换(T)】→【可视离散化(B)】,进入“可视化封装”变量选择(对话框略)。
Step②:
选择“成绩”变量进入“要离散的变量(B)”框中(对话框略)→单击【继续】按钮,进入到“可视化封装”分割点设置对话框(对话框略)。
Step③:
给分组后的变量命名。
在“可视化封装”分割点设置对话框中,在分割点设置对话框的“离散的变量(B):
”两个框后,分别输入“成绩分组(或成绩分段)”和“成绩(离散化)”作为离散化变量的名称和标签。
在右下方处“上端点”点击“排除(E)(<)”(对话框略)。
Step④:
设置分割点。
直接点击分割点设置对话框右下方的【生成分割点(M)…】按钮,得到“生成分割点”对话框(窗口略)→在“生成分割点”对话框中,在“等宽度间隔(E)”下的“第一个分割点的位置(F)”后的框中输入80,在“分隔点数量(N)”后的框中输入1,在“宽度(W)”后的框中输入20,单击【应…】按钮(对话框略)。
Step⑤:
生成分组标签。
在分割点设置对话框的“网络(G)”区域的“值(V)”第一列输如分割点值80,在“标签”第一列输入值“0”;在“值(V)”第二列“HIGH”位置处输如分割点值80,在“标签”第二列输入值“1”。
单击“可视化封装”对话框中右下方的【生成标签(A)】按钮,系统自动生成分组标签。
(对话框略)。
Step⑥:
单击【确定】按钮,弹出图5-15的对话框,单击【确定】按钮,即可在数据文件中生成新变量“成绩分组”。
图5-15对话框
Step⑦:
回到数据编辑界面,在数据编辑菜单中点击菜单“分析(A)”→描述统计→频率(F)(对话框略)→将“成绩(已离散化)【成绩…”选进“变量(V)”框中,见图5-16所示。
图5-16对话框
→点击Bootstrap(B)”→弹出Bootstarp对话框(对话框略)。
→在“Bootstrap”对话框中,选择“执行bootstrap”→在“样本数(N):
”框中输入“42”→在“置信区间”中的“水平(%)(D):
”框中输入“90”→在“抽样”框选定“简单(M)”选项,→单击【继续】按钮(说明:
本次样本容量为42,置信水平为90%)。
Step⑧:
再返回到数据编辑界面,在数据编辑菜单中点击菜单“分析(A)”→描述统计→频率(F)(窗口略)→将“成绩(已离散化)【成绩…”选进“变量(V)”框中(对话框略)→单击【确定】按钮,→系统输出结果,见表5-3。
表5-32009级财管专业学生概率成绩80分及其以上人数比重
频率
百分比
有效
百分比
累积
百分比
百分比Bootstrapa
偏差
标准误差
90%置信区间
下限
上限
有
效
0
11
26.2
26.2
26.2
-.2
6.3
16.7
37.7
1
31
73.8
73.8
100.0
.2
6.3
62.3
83.3
合计
42
100.0
100.0
.0
.0
100.0
100.0
a.Unlessotherwisenoted,bootstrapresultsarebasedon42stratifiedbootstrapsamples
表5-3结果显示:
(1)选取容量为42的样本,样本比率0.74可以作为总体比率的估计值,即估计的111名学生概率论课程成绩80分及以上的人数比率为0.738(73.8%);
(2)选取容量为42的样本,以90%的置信水平,对2009级111名财管专业学生的概率论课程成绩80分及以上的人数比率进行区间估计,其区间围为[0.623,0.833]或[62.3%,83.3%]。
2.用“重新编码为不同变量”方法对成绩分组,说明总体比率(成数)的估计过程。
对总体成绩80分及以上的学生比率的区间估计,其过程与平均成绩区间估计一致。
但在区间估计之前需要在数据文件“样本.sav”中增加一个新变量“是否80分及以上”(做法:
依次选择菜单“转换”→“重新编码为不同变量”,在此按照组距式分组的方法操作→然后在数据编辑窗口的变量视图下定义值标签,“是”为“1”,“否”为“0”→将此文件进行另存,并命名为“样本比率.sav”即可)。
这里不再详细介绍操作步骤,估计的结果见表5-4。
表5-42009级财管各班80分及以上成绩比率区间估计
班级
Statistic
Bootstrapa
偏差
标准误差
90%置信区间
下限
上限
财管1班
均值
1.00
.00
.00
1.00
1.00
N
13
0
0
13
13
标准差
.000
.000
.000
.000
.000
财管2班
均值
.89
.00
.10
.67
1.00
N
9
0
0
9
9
标准差
.333
-.076
.191
.000
.500
财管3班
均值
.45
.02
.16
.18
.80
N
11
0
0
11
11
标准差
.522
-.027
.038
.405
.522
财管4班
均值
.56
.06
.15
.33
.87
N
9
0
0
9
9
标准差
.527
-.038
.046
.352
.527
总计
均值
.74
.02
.07
.65
.86
N
42
0
0
42
42
标准差
.445
-.016
.039
.354
.484
a.Unlessotherwisenoted,bootstrapresultsarebasedon42stratifiedbootstrapsamples
表5-4结果显示:
(1)选取容量为42的样本,样本比率0.74可以作为总体比率的估计值,即估计的111名学生的概率论课程成绩80分及以上的学生比率为0.74;
(2)选取容量为42的样本,以90%的置信水平,对2009级111名财管专业学生的概率论课程成绩80分及以上的学生比率进行区间估计,其区间围为[0.65,0.86];
(3)还可以看出对各个班级的概率论课程成绩80分及以上的学生比率的区间估计结果:
财管1班概率论课程成绩80分及以上的学生比率围为[1.00,1.00],说明该班概率成绩均在80分及以上;财管2班概率论课程成绩80分及以上的学生比率围为[0.67,1.00];财管3班概率论课程成绩80分及以上的学生比率围为[0.18,0.80],财管4班概率论课程成绩80分及以上的学生比率围为[0.33,0.87]。
5.6实验报告
5.7思考与练习题
1.请对数据表“某企业员工工资表”,要求采用简单不重复抽样方法,随机抽取20%的员工构成样本,以90%的置信水平,对全体体员工的平均总工资(总工资=基本工资+职务工资+基本津贴)水平进行点估计和区间估计。
2.请对数据表“某市居民家庭收入”,要求采用简单不重复抽样方法,随机抽取10%的居民家庭构成样本,以90%的置信水平,推断总体居民家庭平均收入水平的置信区间。
3.请对数据表“某地区电信客户在网时长情况”,要求采用简单不重复抽样方法,随机抽取10%的居民构成样本,以95%的置信水平,对全体居民平均在网时长和结婚率进行区间估计。
附:
实验报告
实验报告包括容:
(一)个人信息
姓名
学号
专业
班级
实验日期
(二)实验容
1.实验项目 2.实验题目 3.实验图表 4.实验结果分析
(三)报告提交时间
在实验课后,填写纸质的实验报告,由各班学习委员统一收交,教师集中批改,记入实验课成绩。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实验 抽样 估计 SPSS 应用