中央财经大学统计学作业2文档格式.docx
- 文档编号:17427755
- 上传时间:2022-12-01
- 格式:DOCX
- 页数:20
- 大小:133.59KB
中央财经大学统计学作业2文档格式.docx
《中央财经大学统计学作业2文档格式.docx》由会员分享,可在线阅读,更多相关《中央财经大学统计学作业2文档格式.docx(20页珍藏版)》请在冰豆网上搜索。
总数
143
2300.00
496.183
41.493
2217.98
2382.02
表1-1不同学科上月工资的描述统计
学科与工资研究的方差分析表
上月工资
平方和
df
均方
F
显著性
组间
67893.092
33946.546
.136
.873
组内
34892106.908
140
249229.335
34960000.000
142
表1-2学科与工资研究的方差分析表
方差齐性检验
Levene统计量
df1
df2
.097
140
.908
表1-3学科与工资研究的方差齐性检验
图1-1学科与工资研究方差分析基本假设的检验
1、关于正态性的分析。
使用spss软件得出的分组直方图如图1-1所示,该图表明,在各个水平下上月工资都呈对称分布,没有极端值出现,因此可以认为不违背正态性假设。
根据表1-3的Levene检验的结果,由于表中的p值等于0.908,是个非常大的值,因此也不能拒绝等方差的原假设。
2、方差齐性检验。
表1-1表明,各组标准差差异不大,最大值与最小值之比等于1.081,明显小于2,因此可以认为是等方差的。
3、方差分析的结果分析。
检验中零假设和备择假设为:
H0:
μ1=μ2=μ3
H1:
μ1、μ2、μ3不全相等
表1-2中给出的p值等于0.873,大于我们通常要求的α=0.05,因此我们不能拒绝原假设,不能得出学科对上月工资有显著影响的结论,也就是说我们可能认为三个学科的上月工资相等。
(2)在方差分析中同时考虑学科和性别因素,用双因素方差分析模型分析学科和性别对上月平均工资的影响。
图1-2学科和性别与工资研究方差分析基本假设的检验
学科、性别与工资的无交互作用的双因素方差分析表
因变量:
源
III型平方和
Sig.
校正模型
6540680.489a
2180226.830
10.664
.000
截距
7.434E8
3635.933
性别
6472787.396
6472787.396
31.659
学科
244202.994
122101.497
.597
.552
误差
28419319.511
139
204455.536
总计
7.914E8
校正的总计
a.R方=.187(调整R方=.170)
表1-4学科、性别与工资的无交互作用的双因素方差分析表
学科、性别与工资的有交互作用的双因素方差分析表
6775774.725a
5
1355154.945
6.587
7.277E8
3537.387
6185326.723
30.066
228658.865
114329.433
.556
.575
性别*学科
235094.237
117547.118
.571
.566
28184225.275
137
205724.272
a.R方=.194(调整R方=.164)
表1-5学科、性别与工资的有交互作用的双因素方差分析表
使用spss软件得出的分组直方图如图1-2所示,该图表明,在各个水平各个性别下上月工资都呈对称分布,没有极端值出现,因此可以认为不违背正态性假设。
2、方差分析的结果分析
μ1=μ2=μ3=0(学科)
γ1=γ2=0
μ1、μ2、μ3不全为零
γ1、γ2不全为零
由表1-4学科一栏的p值等于0.552,说明在考虑了性别因素后,我们仍然不能拒绝原假设、认为不同学科之间的工资差异是显著的。
从性别对上月工资的影响来看,该变量对应的p值等于0.000,小于通常使用的α值,说明性别对于月工资的影响是显著的。
又由表1-5,我们发现其交互作用的p值等于0.566,大于通常的α,因此我们认为其交互作用对于工资的影响是显著的。
2、非参数检验。
(1)用非参数检验方法检验能否认为男生和女生上月工资的中位数相等。
Wilcoxon秩和检验中秩和的计算结果
秩均值
秩和
73
88.51
6461.00
70
54.79
3835.00
表2-1Wilcoxon秩和检验中秩和的计算结果
Wilcoxon秩和检验的检验统计量和p值
Mann-WhitneyU
1350.000
WilcoxonW
3835.000
Z
-4.877
渐近显著性(双侧)
精确显著性(双侧)
精确显著性(单侧)
点概率
a.分组变量:
性别
表2-2Wilcoxon秩和检验的检验统计量和p值
1、我们用Wilcoxon秩和检验来比较中位数。
检验的零假设和备择假设如下所示:
零假设:
女生上月工资和男生上月工资的中位数相等。
备择假设:
女生上月工资和男生上月工资的中位数不相等。
2、两个独立样本秩和检验结果分析
根据表2-1,男生工资的平均秩为88.51,女生工资的平均秩为54.79,说明从样本看男生的收入中位数要高于女生的收入中位数。
从表2-2看,WilcoxonW统计量为3835,用正态分布近似计算时的Z值为-4.877。
表中显示用正态分布计算时的p值(双侧检验)为0.000,与精确计算的p值0.000没有显著差异。
我们应该拒绝原假设,结论为男生和女生的工资中位数并不相等。
(2)用非参数检验方法检验学生上月工资和去年同月工资的中位数是否有显著变化。
Wilcoxon符号秩检验的p值
去年同月工资-上月工资
-1.336a
.181
.183
.092
.001
a.基于正秩。
b.Wilcoxon带符号秩检验
表2-3Wilcoxon符号秩检验的p值
差值序列中的正数和负数的个数汇总表
负差分a
69
正差分b
54
结c
20
a.去年同月工资<
b.去年同月工资>
c.去年同月工资=上月工资
表2-4差值序列中的正数和负数的个数汇总表
匹配样本符号检验的检验结果
-1.262
.207
.103
.029
a.符号检验
表2-5匹配样本符号检验的检验结果
1、根据题目,我们采取Wilcoxon符号秩检验的方法进行分析,确定原假设和备择假设为:
差值总体的中位数=0
差值总体的中位数≠0
2、分析Wilcoxon符号秩检验的结果如下:
由表2-3可知,精确检验的p值等于0.183,远大于我们通常采用的α=0.05,故不能拒绝原假设,也就是说没有明显证据表明去年同月工资和今年工资有显著性的差异。
表2-4和表2-5是符号检验的结果。
表2-4表明差值序列中有69个负数,54个正数,,表2-5表明采用精确检验(二项分布)计算的双侧检验值为0.207,也不能够拒绝原假设。
(3)用非参数检验方法不同学科学生平均学分绩点的中位数是否相等。
Kruskal-Wallis检验中计算的各组平均秩
平均学分绩点
76.96
42
67.60
71.22
表2-6Kruskal-Wallis检验中计算的各组平均秩
Kruskal-Wallis检验的检验统计量和p值a,b,c
卡方
1.153
渐近显著性
.562
a.KruskalWallis检验
b.分组变量:
学科
c.由于没有足够内存,无法计算某些或所有精确显著性。
表2-7Kruskal-Wallis检验的检验统计量和p值
1、选择多个独立样本的Kruskal-Wallis检验进行分析。
根据题目我们的原假设和备择假设为:
M1=M2=M3
M1、M2、M3不完全相等
2、由表2-6,各组的平均秩处于67.6-76.96之间。
表2-7表明,Kruskal-Wallis检验中使用卡方分布进行近似计算时的卡方统计量为1.153,自由度为2,相应的p值为0.562。
由于p值远大于α,所以没有足够证据证明原假设不成立,因此我们可能认为几个学科的平均绩点的中位数是相等的。
(4)检验学生的上月工资是否服从正态分布。
单样本Kolmogorov-Smirnov检验
正态参数a,b
最极端差别
绝对值
.083
正
负
-.045
Kolmogorov-SmirnovZ
.997
.273
.259
a.检验分布为正态分布。
b.根据数据计算得到。
表2-8单样本K-S检验的计算结果和相应的p值
1、我们采取单样本K-S检验进行分析,根据题目,我们的原假设和备择假设为:
学生的上月工资服从正态分布
学生的上月工资不服从正态分布
2、由表2-8,计算出的Dmax统计量的值为0.997,相对应的p值为0.273,远大于我们通常选取的α值,因此我们没有足够理由拒绝原假设,也就是说根据样本数据我们不能认为总体是非正态的。
(5)检验学生对专业的满意程度是否为离散的均匀分布。
对专业的满意度
观察数
期望数
残差
4
101.2
-97.2
32
-69.2
138
36.8
212
110.8
120
18.8
506
表2-9各组的频数和期望频数
检验统计量
278.862a
精确显著性
a.0个单元(.0%)具有小于5的期望频率。
单元最小期望频率为101.2。
表2-10统计量计算结果和相应的p值
1、根据题意,我们采取卡方拟合优度检验进行分析;
我们的原假设和备择假设是:
学生对专业的满意程度是离散的均匀分布
学生对专业的满意程度不是离散的均匀分布
2、表2-9中是各组的频数和期望频数,表2-10是统计量的计算结果和相应的p值。
根据表2-10,卡方等于278.962,自由度为4,对应的p值为0.000,远小于我们通常采用的α值,因此我们可以拒绝原假设,即认为学生对专业的满意程度不是离散的均匀分布。
3、回归分析。
(1)计算上月工资与平均学分绩点的相关系数并作假设检验。
相关性
Pearson相关性
.762**
显著性(双侧)
**.在.01水平(双侧)上显著相关。
表3-1相关系数的输出结果
如表3-1所示,上月工资和平均学分绩点的相关系数为0.762,与此同时,其p值为0.000,远小于我们通常选用的α值,通过了显著性检验。
(2)以上月工资为因变量,平均学分绩点为自变量做回归分析,分析模型的拟合效果和假设检验的结果。
系数a
模型
非标准化系数
标准系数
t
B
标准误差
试用版
(常量)
-1034.007
126.581
-8.169
1075.260
40.706
.762
26.415
a.因变量:
表3-2输出的回归系数
Anovab
回归
78519984.584
697.759
.000a
56715924.507
504
112531.596
1.352E8
505
a.预测变量:
(常量),平均学分绩点。
b.因变量:
表3-3方差分析表
模型汇总
R
R方
调整R方
标准估计的误差
.762a
.581
.580
335.457
表3-4输出的拟合优度
原假设H0:
两个变量之间的相关性并不显著
备择假设H1:
两个变量之间的相关性显著
1、SPSS输出的回归系数及t统计量值,有表3-2中的数据可知
①一元线性回归方程:
Yt=-1034.007+1075.26Xt
②t统计量为26.415,如果显著性水平为0.05,自由度为504,相应的tα/2临界值在1.96-1.972之间。
由于t的绝对值大于tα/2,则能够拒绝原假设,表明自变量X对因变量Y的影响是显著的,二者之间存在显著的线性关系。
③sig.即为双侧检验的P值,其0.000的取值同样说明有相当大的把握拒绝原假设,表明自变量对因变量的影响是显著的。
2、F检验结果,如表3-3
①得到的F统计量为697.759,如果显著性水平α=0.05,分子自由度为1,分母自由度为504时,F的临界值在3.84-3.92之间。
由于F大于Fα,可以拒绝原假设
②F检验的边际概率为0.000,同样表明方程整体线性关系显著。
3、拟合优度检验,由表3-4可知
①表中R为R的平方的正根,由于r的绝对值等于0.762,所以工资Y和绩点X的相关系数为0.762
②判定系数R的平方为0.581,其统计含义为:
在工资的离差中,有58.1%可以由工资与绩点之间的线性关系解释。
拟合程度一般。
③估计标准误等于335.475,其统计含义:
根据绩点对工资进行估计时,平均的估计误差为335.475元。
(3)以上月工资为因变量,平均学分绩点和性别为自变量做回归分析,分析模型的拟合效果和假设检验的结果。
-977.686
81.945
-11.931
1138.773
26.452
.807
43.050
-513.009
19.384
-.496
-26.465
表3-5回归系数及t统计量
1.115E8
55764862.633
1183.224
23706183.825
503
47129.590
(常量),性别,平均学分绩点。
表3-6方差分析表
拟合优度数据
.908a
.825
.824
217.094
表3-7输出的拟合优度
学分绩点与工资之间的相关性并不显著
学分绩点与工资之间的相关性显著
性别与工资之间的相关性并不显著
性别与工资之间的相关性显著
1、SPSS输出的回归系数及t统计量值,有表3-5中的数据可知
①二元线性回归方程:
Yt=-977.686+1138.773X-513.009S
②变量X的回归系数为1138.773,其统计含义为在性别一致的情况下,绩点每高1,月均工资升高1138.773:
变量S的回归系数为513.009,其统计含义为在绩点一致的情况下,女生工资会比男生低513.009
③变量X的t统计量为43.050,必然大于相应的t临界值,可拒绝原假设,认为自变量X与因变量Y显著相关。
变量S的t统计量的绝对值为26.465,必然大于相应的t临界值,可拒绝原假设,认为自变量S与因变量Y显著相关。
①得到的F统计量为1183.224,如果显著性水平α=0.05,分子自由度为2,分母自由度为503时,F的临界值在3.84-3.92之间。
①表中R为R的平方的正根,由于r的绝对值等于0.908,所以工资Y和绩点X以及性别S有着很强的相关性。
②判定系数R的平方为0.825,其统计含义为:
在工资的离差中,有82.5%可以由绩点和性别的二元线性回归方程所解释。
拟合程度较好。
③估计标准误等于217.094,其统计含义:
根据绩点和性别对工资进行估计时,平均的估计误差为217.094元。
(4)、
(2)和(3)中的模型你会选择哪一个模型用于预测?
为什么?
假设一名男生的平均学分绩点为3.5,试预测他的上月工资的点估计值和区间估计。
【*区间估计为选做】
答:
我会选择3的模型进行预测,因为3的拟合程度要好于2。
点估计:
Y=3008.0195
区间估计:
取置信度为95%,样本容量为143,区间估计结果为(2972.4395,3043.5995)
4、时间序列分析。
使用1998年-2007年我国的月度社会商品零售额(sale.xls)。
要求使用前9年的数据建立模型预测2007年的月度数值,并根据2007年的实际值和预测值分析预测效果。
要求:
5、时间序列分析
(1)该时间序列的季节指数
表5-1
期间
季节性因素(%)
108.8
101.0
94.9
92.3
94.5
6
94.4
7
8
92.4
9
99.5
10
104.3
11
105.2
12
120.5
(2)使用时间序列的分解模型进行预测
在SPSS中,对季节性分解后得到的STC项的数据对t建立合适的趋势模型。
表5-2
方程
线性
.914
1125.277
106
二次
.992
6284.943
105
表5-2中,二次模型的R方大于线性模型,说明二次模型比较合适。
表5-3
未标准化系数
标准化系数
Beta
-5.440
1.450
-.135
-3.753
t**2
.405
.013
1.126
31.403
(常数)
2533.779
34.230
74.021
由表5-3可知:
t,t方在模型中均显著,所以根据季节调整好的序列拟合二次趋势方程为:
表5-4
原序列预测值
Jan-07
7346.854912
Feb-07
6904.23779
Mar-07
6567.026856
Apr-07
6465.447937
May-07
6700.52628
Jun-07
6775.087056
Jul-07
6704.952592
Aug-07
6793.635156
Sep-07
7404.13728
Oct-07
7854.915397
Nov-07
8017.948448
Dec-07
9294.139695
在表5-4中,根据由表5-3推出的二次趋势方程算出趋势项,因为是乘法模型,乘上季节指数得到原序列的预测值。
(3)使用指数平滑方法进行预测
因为该时间序列数据既包含长期趋势又包含季节变动,所以选择三参数指数平滑法。
表5-5
一月2007
二月2007
三月2007
四月2007
五月2007
六月2007
七月2007
八月2007
九月2007
十月2007
十一月2007
十二月2007
7372.00
6716.24
6473.47
6365.77
6671.46
6537.76
6479.48
6540.19
7071.10
7525.76
7408.51
8320.44
(4)计算以上两种模型的MAPE值
1)时间序列分解模型:
MAPE=0.03968
2)三参数指数平滑:
MAPE=1.435
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中央财经大学 统计学 作业