统计案例研究分析大学生月平均生活费的估计和检验.docx
- 文档编号:27563897
- 上传时间:2023-07-02
- 格式:DOCX
- 页数:26
- 大小:172.62KB
统计案例研究分析大学生月平均生活费的估计和检验.docx
《统计案例研究分析大学生月平均生活费的估计和检验.docx》由会员分享,可在线阅读,更多相关《统计案例研究分析大学生月平均生活费的估计和检验.docx(26页珍藏版)》请在冰豆网上搜索。
统计案例研究分析大学生月平均生活费的估计和检验
统计案例分析---大学生月平均生活费的估计和检验
————————————————————————————————作者:
————————————————————————————————日期:
统计案例分析
案例2.1大学生月平均生活费的估计和检验
姓名:
覃玉冰
学号:
班级:
16应用统计
1、数据
为了了解大学生日常生活费支出及生活费来源状况,对中国人民大学在校本科生的月生活费支出问题进行了抽样调查。
该问卷随机抽取中国人民大学大一、大二、大三、大四在校本科生男女各30多人作为样本。
调查采取分层抽样,对在校本科生各个年级男生、女生各发放问卷30多份,共发放问卷300份,回收问卷291份,其中有效问卷共272份。
其中,男生的有效问卷为127份,女生为145份。
调查得到的部分数据见表一。
表一大学生月平均生活费支出的调查数据(仅截取部分)
性别
所在年级
家庭所在地区
平均月生活费(元)
性别
所在年级
家庭所在地区
平均月生活费(元)
男
1998级
大型城市
1000
女
1998级
大型城市
500
男
1998级
大型城市
800
女
1998级
大型城市
800
男
1998级
大型城市
1000
女
1998级
大型城市
500
男
1998级
中小城市
400
女
1998级
大型城市
1000
二、生活费支出的区间估计和假设检验
(一)平均月生活费的描述统计量
为了更好地研究全校本科学生平均月生活费支出,我们先来看一下样本数据中平均月生活费支出的一些描述统计量。
在spss中,点分析→描述统计→描述→变量选择“平均月生活费”,选项选择“均值、标准差、均值的标准误”,得到的样本数据中平均月生活费的描述统计量见表二。
表二平均月生活费的描述统计量
N
均值
标准差
统计量
统计量
标准误
统计量
平均月生活费
272
595.04
14.761
243.444
有效的N(列表状态)
272
从表二可以看到,样本数据中平均月生活费支出的均值为595.04,标准差为243.444,均值的标准误为14.761.
(二)平均月生活费的假设检验
从表二中我们已经知道了样本数据中平均月生活费支出的均值为595.04,现在我们来检验一下全校本科学生即总体的月平均生活费支出是否等于500。
1.检验统计量的确定
样本数据的样本量n为272,其大于30,可以认为该数据是一个大样本。
现在我们并不知道总体的月平均生活费支出是否服从正态分布,但是在样本量大的条件下,如果总体为正态分布,样本统计量服从正态分布:
如果总体为非正态分布,样本统计量也是渐进服从正态分布的。
所以在这种情况下,我们都可以把样本统计量视为正态分布,这时可以使用z统计量(z分布)。
即在总体标准差
已知时,有
而我们这里总体标准差
是未知的,此时可以用样本标准差s代替,上式可以写为:
2.提出假设
原假设
为:
全校本科学生月平均生活费支出u=500
备择假设
为:
全校本科学生月平均生活费支出u=500
3.spss操作及结果分析
在spss中点分析→比较均值→单样本T检验→检验变量选“平均月生活费”→检验值填“500”,得到的平均月生活费的假设检验的结果见表三。
表三平均月生活费的假设检验的结果
检验值=500
t
df
Sig.(双侧)
均值差值
差分的95%置信区间
下限
上限
平均月生活费
6.438
271
.000
95.037
65.98
124.10
从表三可以看到,检验的P值接近于0,其小于0.05,根据小拒大接的原则,拒绝原假设,表面全校学生的月平均生活费支出与500元有显著差异。
(3)平均月生活费的区间估计
1.数学模型的建立
样本数据的样本量n为272,其大于30,可以认为该数据是一个大样本。
现在我们并不知道总体的月平均生活费支出是否服从正态分布,但是在样本量大的条件下,样本均值
的抽样分布均为正态分布,其数学期望为总体均值
,方差为
。
经过标准化以后的随机变量服从标准正态分布,即
由上式和正态分布的性质,可以得出总体均值
在
置信水平下的置信区间为
式中,
称为置信下限,
称为置信上限;
是事先所确定的一个概率值,也称为风险值,它是总体均值不包括在置信区间的概率;
称为置信水平;
是标准正态分布右侧面积为
时的
值;
是总体均值的标准误;
是估计总体均值时的估计误差。
这里,我们并不知道全校本科学生的平均月生活费支出的方差,但是由于样本数据的样本量较大,所以上式中的总体方差
可以用样本方差
代替,这时总体均值
在
置信水平下的置信区间可以写为:
2.模型的求解
由表二可知,样本均值为595.04,样本均值的标准误
为14.761.当风险值
取0.05时,即置信水平
取95%时,全校学生月平均生活费支出的95%的置信区间为[595.04-1.96*14.761,595.04+1.96*14.761],即566.11到623元之间。
三、男女学生的平均月生活费的假设检验
(1)男女学生的平均月生活费的描述统计量
为了更好地研究全校本科男女学生的平均月生活费支出间是否有显著差异,我们先来看一下样本数据中男女学生的平均月生活费支出的一些描述统计量。
在spss中点数据→拆分文件→勾选“比较组”→分组方式选“性别”
然后点分析→描述统计→描述→变量选择“平均月生活费”,选项选择“均值、标准差、均值的标准误”,得到的平均月生活费的描述统计量见表四。
表四男女学生平均月生活费的描述统计量
性别
N
均值
标准差
统计量
统计量
标准误
统计量
男
平均月生活费
127
569.69
20.387
229.748
有效的N(列表状态)
127
女
平均月生活费
145
617.24
21.056
253.543
有效的N(列表状态)
145
从表四可以看到,样本数据中男生的平均月生活费支出的均值为596.69,标准差为229.748;女生的平均月生活费支出的均值为617.24.标准差为253.543。
单从样本数据中男女学生的平均月生活费支出的均值来看,全校本科男女学生的平均月生活费支出间是有差异的,但是这只是我们主观的看法,下面我们用两个总体均值之差的假设检验来探究全校本科男女学生的平均月生活费支出间是否有显著差异。
(2)男女学生的平均月生活费间的假设检验
1.检验统计量的确定
样本数据中男学生有127人,女学生有145人,均大于30,说明两个总体的样本量均较大,此时无论两个总体的分布是不是正态分布,可以证明的是,由两个独立样本算出来的
的抽样分布都是服从正态分布的,此时,作为检验统计量
的计算公式为:
式中,
分别为两个总体的均值,
分别为两个总体的方差。
这里,我们并不知道全校本科男学生和女学生的平均月生活费支出的方差,但是由于两个总体的样本量都较大,所以可以用样本方差
来替代总体方差
.此时,上式可以写为:
2.提出假设
原假设
为:
全校本科男女学生月平均生活费支出之差
,即全校本科男女学生的平均月生活费支出之间没有显著差别。
备择假设
为:
全校本科男女学生月平均生活费支出之差
,即全校本科男女学生的平均月生活费支出之间有显著差别。
3.spss操作及结果分析
在spss中点数据→拆分文件→勾选“分析所有个案,不创建组”,然后点分析→比较均值→独立样本T检验→检验变量选“平均月生活费”→分组变量选“性别编号”,定义组选择“使用指定值1和2”,得到的男女学生的平均月生活费间的假设检验的结果见表四。
表四男女学生的平均月生活费间的假设检验的结果
方差方程的Levene检验
均值方程的t检验
F
Sig.
t
df
Sig.(双侧)
均值差值
标准误差值
差分的95%置信区间
下限
上限
平均月生活费
假设方差相等
.484
.487
-1.612
270
.108
-47.556
29.500
-105.635
10.523
假设方差不相等
-1.623
269.679
.106
-47.556
29.308
-105.258
10.145
从表四可以看出,当原假设是男女学生的平均月生活费的方差相等时,检验所对应的P值是0.487,其大于0.05,根据小拒大接的原则,不能拒绝原假设,即没有证据表明方差是不相等的,故我们看假设方差相等时的假设检验的结果就可以了。
从假设方差相等时的假设检验的结果上来看,检验的P值为0.108,其大于0.05,根据小拒大接的原则,不能拒绝原假设,即没有证据表明男女学生的月平均生活费支出之间有显著差异。
4、估计乡镇地区学生的比例
(一)对学生按性别和来源进行分类汇总
为了估计乡镇地区学生的比例,我们先对学生按性别和来源进行分类汇总,在spss中点分析→描述统计→交叉表→行选择“性别”,列选择“家庭所在地区”→单元格中的百分比勾选“行”,得到如表五所示的汇总表。
表五按性别和家庭所在地区进行的分类汇总
家庭所在地区
合计
大型城市
乡镇地区
中小城市
性别
男
计数
26
46
55
127
性别中的%
20.5%
36.2%
43.3%
100.0%
女
计数
60
22
63
145
性别中的%
41.4%
15.2%
43.4%
100.0%
合计
计数
86
68
118
272
性别中的%
31.6%
25.0%
43.4%
100.0%
从表五可以看到,家庭所在地区为乡镇地区的学生占所有被抽中的学生的25%。
(3)乡镇地区学生比例的区间估计
1.数学模型的建立
样本数据的样本量n为272,其大于30,可以认为该数据是一个大样本。
由样本比例
的抽样分布可知,当样本量足够大时,比例
的抽样分布可用正态分布近似。
的数学期望为
;
的方差为
。
样本比例经标准化后的随机变量则服从标准正态分布,即
与总体均值的区间估计类似,在样本比例
的基础上加减估计误差
,即得总体比例
在
置信水平下的置信区间为:
用上式计算总体比例
的置信区间时,
值应该是已知的。
但实际情况不然,
值恰好是要估计的,所以,需要用样本比例
来替代
。
这时,总体比例的置信区间可表示为:
式中,
称为置信下限,
称为置信上限;
是显著性水平;
是标准正态分布右侧面积为
时的
值;
是估计总体比例时的估计误差。
2.模型的求解
从表五可以得到,家庭所在地区为乡镇地区的学生占所有被抽中的学生的25%。
所以全校本科学生中,乡镇学生比例的95%的置信区间为
即19.85%到30.15%之间。
五、单因素对月平均生活费支出的影响分析
(1)数学模型
1.单因素方差分析
单因素方差分析是指对单因素试验结果进行分析,检验因素对试验结果有无显著性影响的方法。
单因素方差分析是两个样本平均数比较的引伸,它是用来检验多个平均数之间的差异,从而确定因素对试验结果有无显著性影响的一种统计方法。
在数据中,总误差反映全部观测数据的误差;处理误差(组间误差)是由于不同处理造成的误差,它反映了处理对观测数据的影响,因此称为处理效应;随机误差(组内误差)是由于随机因素造成的误差,也简称为误差。
数据的误差用平方和表示,记为SS。
其中总平方和记为SST,其计算公式为:
它反映全部数据总误差大小的平方和。
处理平方和记为SSA,其计算公式为:
它反映处理误差大小的平方和,也称为组间平方和。
误差平方和记为SSE,其计算公式为:
它反映了随机误差大小的平方和,也称为组内平方和。
误差平方和的分解及其关系所图一所示。
图一误差平方和的分解及其关系
方差分析的基本原理就是要分析数据的总误差中有没有处理误差。
如果处理对观测数据没有显著影响,意味着没有处理误差。
这时,每种处理所对应的总体均值应该相等,如果存在处理误差,每种处理所对应的总体均值至少有一对不相等。
在只考虑一个因素的情况下,方差分析也就是要检验下面的假设:
注意:
拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等。
2.多重比较
多重比较的作用是在拒绝原假设的条件下,通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异。
多重比较方法有多种,如Fisher的LSD方法、Tukey-Kramer的HSD方法等。
其中LSD是最小显著差异(leastsignificantdifference)的缩写,该检验方法是由统计学家Fisher提出来的,因此也称为Fisher的最小显著差异方法,简称LSD方法。
LSD的适用场合是:
如果研究者在事先就已经计划好要对某对或某几对均值进行比较,不管方差分析的结果如何(拒绝或不拒绝原假设),都要进行比较,这时适合采用LSD方法。
我们在下面的操作中都是用LSD方法进行多重比较的。
(2)年级对月平均生活费支出的影响分析
不同年级的学生的月平均生活费支出可能有所不同,现在我们来探究年级对学生的月平均生活费支出是否有显著的影响。
方差分析中有三个基本假定:
(1)每个总体都应服从正态分布。
也就是说,对于因素的每一个水平,其观测值是来自正态分布总体的简单随机样本。
(2)各个总体的方差必须相同。
也就是说,各组观察数据是从具有相同方差的正态总体中抽取的。
(3)观测值是独立的
每个年级各抽取了60多个学生,样本量比较大,故对于因素的每一个
水平,其观测值均可以认为近似服从正态分布,所以满足了第一个假定。
由于抽取四个年级的学生是独立进行的,所以可以认为四组样本观测值是相互独立的,即满足了第三个假定。
对于第二个假定,我们需要进一步的验证,故我们在做方差分析时要顺带做一下方差齐性检验。
在spss中点分析→一般线性模型→单变量→因变量选择“平均月生活费”,固定因子选择“所在年级”→两两比较中的两两比较检验选择“所在年级”,假定方差齐性选择“LSD”→选项中勾选“方差齐性检验”,得到的年级对月平均生活费支出的影响分析结果如表六、表七和表八所示。
表六年级对支出影响的方差齐性检验
因变量:
平均月生活费
F
df1
df2
Sig.
.068
3
268
.977
检验零假设,即在所有组中因变量的误差方差均相等。
a.设计:
截距+所在年级
从表七可以看出,方差齐性检验的P值为0.977,大于显著性水平0.05,根据小拒大接的原则,应该接受原假设,此处的原假设是四个总体的方差相等,故满足方差齐性的假设,即满足第二个假定,可以进行方差分析。
表七年级对支出影响的方差分析表
因变量:
平均月生活费
源
III型平方和
df
均方
F
Sig.
校正模型
75378.112a
3
25126.037
.421
.738
截距
87257473.269
1
87257473.269
1462.896
.000
所在年级
75378.112
3
25126.037
.421
.738
误差
15985421.521
268
59647.095
总计
1.124E8
272
校正的总计
16060799.632
271
a.R方=.005(调整R方=-.006)
从表七可以看到,方差分析检验的P值为0.738,大于显著性水平0.05,根据小拒大接的原则,不能拒绝原假设,即认为没有证据表明年级对生活费支出有显著影响。
表八年级对支出影响的多重比较
平均月生活费
LSD
(I)所在年级
(J)所在年级
均值差值(I-J)
标准误差
Sig.
95%置信区间
下限
上限
1998级
1999级
-15.69
48.162
.745
-110.52
79.13
2000级
24.46
45.757
.593
-65.63
114.55
2001级
17.68
49.689
.722
-80.15
115.51
1999级
1998级
15.69
48.162
.745
-79.13
110.52
2000级
40.15
37.828
.289
-34.33
114.63
2001级
33.38
42.500
.433
-50.30
117.06
2000级
1998级
-24.46
45.757
.593
-114.55
65.63
1999级
-40.15
37.828
.289
-114.63
34.33
2001级
-6.77
39.753
.865
-85.04
71.50
2001级
1998级
-17.68
49.689
.722
-115.51
80.15
1999级
-33.38
42.500
.433
-117.06
50.30
2000级
6.77
39.753
.865
-71.50
85.04
基于观测到的均值。
误差项为均值方(错误)=59647.095。
从表七可以看到,在多重比较中,检验的各P值均大于显著性水平0.05,根据小拒大接的原则,不能拒绝原假设,这表明各年级之间的月平均生活费支出之间没有显著差异。
(3)地区对月平均生活费支出的影响分析
不同地区的学生的月平均生活费支出可能有所不同,现在我们来探究地区对学生的月平均生活费支出是否有显著的影响。
从表五可以看出,每个地区所抽取的样本量都比较大,故对于因素的每一个
水平,其观测值均可以认为近似服从正态分布,所以满足了第一个假定。
由于抽取三个地区的学生是独立进行的,所以可以认为三组样本观测值是相互独立的,即满足了第三个假定。
对于第二个假定,我们需要进一步的验证,故我们在做方差分析时要顺带做一下方差齐性检验。
在spss中点分析→一般线性模型→单变量→因变量选择“平均月生活费”,固定因子选择“家庭所在地区”→两两比较中的两两比较检验选择“家庭所在地区”,假定方差齐性选择“LSD”→选项中勾选“方差齐性检验”,得到的年级对月平均生活费支出的影响分析结果如表九、表十和表十一所示。
表九地区对支出影响的方差齐性检验
因变量:
平均月生活费
F
df1
df2
Sig.
1.282
2
269
.279
检验零假设,即在所有组中因变量的误差方差均相等。
a.设计:
截距+家庭所在地区
从表九可以看出,方差齐性检验的P值为0.279,大于显著性水平0.05,根据小拒大接的原则,应该接受原假设,此处的原假设是四个总体的方差相等,故满足方差齐性的假设,即满足第二个假定,可以进行方差分析。
表十地区对支出影响的方差分析表
因变量:
平均月生活费
源
III型平方和
df
均方
F
Sig.
校正模型
391308.716a
2
195654.358
3.359
.036
截距
89252281.148
1
89252281.148
1532.204
.000
家庭所在地区
391308.716
2
195654.358
3.359
.036
误差
15669490.917
269
58250.896
总计
1.124E8
272
校正的总计
16060799.632
271
a.R方=.024(调整R方=.017)
从表十可以看到,方差分析检验的P值为0.036,小于显著性水平0.05,根据小拒大接的原则,应该拒绝原假设,即有证据表明地区对生活费支出有显著影响。
表十一地区对支出影响的多重比较
平均月生活费
LSD
(I)家庭所在地区
(J)家庭所在地区
均值差值(I-J)
标准误差
Sig.
95%置信区间
下限
上限
大型城市
乡镇地区
85.12*
39.166
.031
8.01
162.23
中小城市
-4.11
34.220
.905
-71.48
63.26
乡镇地区
大型城市
-85.12*
39.166
.031
-162.23
-8.01
中小城市
-89.23*
36.746
.016
-161.58
-16.89
中小城市
大型城市
4.11
34.220
.905
-63.26
71.48
乡镇地区
89.23*
36.746
.016
16.89
161.58
基于观测到的均值。
误差项为均值方(错误)=58250.896。
*.均值差值在.05级别上较显著。
表十一给出的各P值表明,乡镇地区与大城市和中小城市之间的月平均生活费支出之间均有显著差异,而大城市与中小城市之间的差异则不显著。
六、双因素对月平均生活费支出的影响分析
(1)数学模型
双因素方差分析有两种类型:
一个是无交互作用的双因素方差分析,它假定因素A和因素B的效应之间是相互独立的,不存在相互关系;另一个是有交互作用的双因素方差分析,它假定因素A和因素B的结合会产生出一种新的效应。
只考虑主效应的误差分解如图二所示。
图二只考虑主效应的误差分解
考虑交互效应的误差分解如图三所示。
图三考虑交互效应的误差分解
(2)不考虑交互效应的性别和地区对月平均生活费支出的影响分析
不同性别和地区的学生的月平均生活费支出可能有所不同,现在我们来探究不考虑交互效应时的性别和地区两个因素对学生的月平均生活费支出是否有显著的影响。
在双因素方差分析中,每个观测值看作由行因素(性别)的2两个水平和列因素(家庭所在地区)的三个水平所组合成的6个总体中抽取的样本量为1的独立随机样本。
这六个总体中的每一个总体都应该服从正态分布且具有相同的方差。
由于每个总体的样本量较大,所以可以认为近似服从正态分布,对于第二个假定,我们需要进一步的验证,故我们在做方差分析时要顺带做一下方差齐性检验。
在spss中点分析→一般线性模型→单变量→因变量选择“平均月生活费”,固定因子选择“性别和家庭所在地区”→模型中的指定模型勾选“设定”,构建项选择“主效应”,并将“性别和家庭所在地区”选入模型→绘制中选择图“性别*家庭所在地区、家庭所在地区*性别”→选项中勾选“方差齐性检验”,得到的同时考虑性别和地区两个因素的影响但不考虑交互效应的分析结果如表十二和表十三所示。
表十二考虑性别和地区影响(只考虑主效应)分析的方差齐性检验
因变量:
平均月生活费
F
df1
df2
Sig.
.698
5
266
.625
检验零假设,即在所有组中因变量的误差方差均相
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 案例 研究 分析 大学生 月平均 生活费 估计 检验