应用统计分析复习要点和答案文档格式.docx
- 文档编号:16932195
- 上传时间:2022-11-27
- 格式:DOCX
- 页数:12
- 大小:850.69KB
应用统计分析复习要点和答案文档格式.docx
《应用统计分析复习要点和答案文档格式.docx》由会员分享,可在线阅读,更多相关《应用统计分析复习要点和答案文档格式.docx(12页珍藏版)》请在冰豆网上搜索。
参数估计,即利用样本信息推断总体特征;
假设检验,即利用样本信息判断对总体的假设是否成立。
二、计算题
1.在某地区随机抽取120家企业,按照利润额进行分组后结果如下:
按利润额分组(万元)
企业数(个)
300以下
19
300~400
30
400~500
42
500~600
18
600以上
11
合计
120
计算120家企业利润额的平均数和标准差(注:
第一组和最后一组的组距按相邻组计算)。
解:
2.某银行为缩短顾客到银行办理业务等待的时间,准备了两种排队方式进行试验。
为比较哪种排队方式使顾客等待的时间更短,两种排队方式各随机抽取9名顾客,得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟,第二种排队方式的等待时间(单位:
分钟)如下:
5.5
6.6
6.7
6.8
7.1
7.3
7.4
7.8
(3)总体不服从正态分布,σ未知,n=35,
=8900,s=500,置信水平为90%。
(注:
z统计量值为1.65)
(4)总体不服从正态分布,σ未知,n=35,
=8900,s=500,置信水平为99%。
z统计量值为2.58)
5.对消费者的一项调查表明,17%的人早餐饮料是牛奶。
某城市的牛奶生产商认为,该城市的人早餐饮用牛奶的比例更高。
为验证这一说法,生产商随机抽取550人的一个随机样本,其中115人早餐饮用牛奶。
在α=0.05的显著性水平下,检验该生产商的说法是否属实?
z统计量值为1.96)
6.一项包括了200个家庭的调查显示,每个家庭每天看电视的平均时间为7.25小时,标准差为2.5小时。
据报道,10年前每天每个家庭看电视的平均时间是6.7小时。
取显著性水平α=0.01,这个调查能否证明“如今每个家庭每天收看电视的平均时间增加了”?
7.下面是7个地区2000年的人均国内生产总值GDP(Y)和人均消费水平(X)的统计数据(注:
此题对应的t统计量值为2.57):
地区
人均GDP(千元)Y
人均消费水平(千元)X
Y-E(Y)
X-E(X)
(Y-E(Y))
×
(X-E(X))
(X-E(X))2
(Y-E(Y))2
北京
22.460
7.326
10.212
2.810
28.699
7.899
104.276
辽宁
11.226
4.490
-1.022
-0.026
0.026
0.001
1.045
上海
34.547
11.546
22.299
7.030
156.769
49.427
497.226
江西
4.851
2.396
-7.397
-2.120
15.679
4.493
54.722
河南
5.444
2.208
-6.804
-2.308
15.702
5.325
46.300
贵州
2.662
1.608
-9.586
-2.908
27.873
8.454
91.900
陕西
4.549
2.035
-7.699
-2.481
19.099
6.153
59.281
合计∑
85.739
31.609
263.847
81.751
854.751
(1)计算相关系数,说明二者之间的关系。
(2)人均GDP作自变量,人均消费水平作因变量,利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。
(3)计算判定系数和估计标准误差,并解释其意义。
(4)检验回归方程线性关系的显著性。
(α=0.05)
(5)如果某地区的人均GDP为5千元,预测其人均消费水平。
(6)求人均GDP为5千元时,人均消费水平95%的置信区间和预测区间。
8.随机抽取7家超市,得到其广告费支出(X)和销售额(Y)数据如下:
此题对应的t统计量值为2.57)
超市
销售额
(万元)Y
广告费支出(万元)X
A
1
-23
-7.143
164.286
51.020
529
B
32
2
-10
-6.143
61.429
37.735
100
C
44
4
-4.143
-8.286
17.163
D
40
6
-2
-2.143
4.286
4.592
E
52
10
1.857
18.571
3.449
F
53
14
5.857
64.429
34.306
121
G
54
20
12
11.857
142.286
140.592
144
294
57
447
288.857
1002
(2)广告费用支出作自变量,销售额作因变量,利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。
(5)如果某超市的广告费用支出为5万元,预测其销售额。
(6)求广告费用支出为5万元时,超市销售额95%的置信区间和预测区间。
列表分析
Coefficients
标准误差
tStat
P-value
Lower95%
Upper95%
下限95%
上限95%
Intercept
29.39911
4.807253
6.115573
0.001695
17.04167
41.75655
XVariable1
1.547478
0.463499
3.338688
0.020582
0.356016
2.738939
(1)r=63.86/(6.424*11.964)=0.831
显示两个变量之间高度相关,有很强的线性关系。
(2)
,代表广告费用每增加1万元,销售额增加1.54748万元。
(3)列表中可得:
判定系数R²
=0.6906,估计标准误差4.807253
(4)根据方差分析所示,Fα=6.608<F=11.14684,即广告费支出与销售额之间的线性关系显著。
(5)当广告支出为5万元时,销售额为y=29.399+1.54748*5=37.1364元。
(6)
三、论述题
1.简述样本量与置信水平、总体方差、估计误差的关系。
答:
(1)估计总体均值时样本量为n,则
(2)样本量n与置信水平1-α、总体方差σ²
、估计误差E之间的关系为:
①与置信水平成正比,在其他条件不变的情况下,置信水平越大,所需要的样本量越大;
②与总体方差成正比,总比的差异越大,所要求的样本量也越大;
③与总体方差成正比,样本量与估计误差的平方成反比,即可以接受的估计误差的平方越大,所需的样本量越小。
2.简述评价估计量的三个标准。
(15分)
评价估计量好坏的标准主要有:
无偏性、有效性和相合性。
①无偏性:
估计量抽样分布的数学期望等于被估计的总体参数;
②有效性:
对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效;
③一致性:
随着样本量的增大时,点估计量的值越来越接近被估总体的参数。
3.简要说明残差分析在回归分析中的作用。
残差是因变量的观测值y与根据估计的回归方程求出的预测值之差,它反映了用估计的回归方程去预测y而引起的误差。
回归模型中出现残差的前提条件是:
平均值及总和是0,标准误差符合正规分布。
因此在回归分析中,可以通过残差进行线性回归适用性检验:
①回归模型残差的正态性检验:
残差的直方图和累计概率图
②回归模型残差的独立性检验:
参数有Dw或D,D的取值范围是0<D<4,其统计学意义为:
D≈2,残差与自变量相互独立;
D<2,残差与自变量正相关;
D>2,残差与自变量负相关。
③残差的方差齐性检验。
另外,残差还可以检验奇异点,评判预测效果等。
这在回归分析中对模型的效果检验有着重要的作用。
4.简要误差分解的概念和基本原理。
(1)误差是测量值与真值之间的差值,误差分为系统误差和随机误差。
①系统误差是某一确定的因素引起的,它可以测量,有确定性,单向性,系统误差是可以消除的,在正确的操作中不应含系统误差。
②随时误差是不可测量的,它不能被避免,只能适当减小,就个体而言,它有不确定性,无规律可循,但在等精度条件下的多次测量,其大多数服从正态分布。
③还有一种是,过失误差是测量过失而产生的明显偏离真值的误差,是完全可以避免的。
(2)误差分解的原理:
是通过计算来比较因某一特定因素带来的样本值的差异与随机偶然因素对样本值的差异的大小,从而判断该因素对总体是否有统计意义。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 统计分析 复习 要点 答案