实验四区间估计与假设检验.docx
- 文档编号:5090507
- 上传时间:2022-12-13
- 格式:DOCX
- 页数:17
- 大小:333.70KB
实验四区间估计与假设检验.docx
《实验四区间估计与假设检验.docx》由会员分享,可在线阅读,更多相关《实验四区间估计与假设检验.docx(17页珍藏版)》请在冰豆网上搜索。
实验四区间估计与假设检验
实验4区间估计与假设检验
利用样本对总体进行统计推断,主要有两类问题:
一类是估计问题,另一类是检验问题。
参数估计是根据样本的统计量来对总体的参数进行估计,假设检验则是利用样本的统计量来检验事先对总体参数或分布特性所作的假设是否正确。
利用SAS软件中的INSIGHT模块和“分析家”功能以及编程的方法,均可以在不同的置信水平下求出总体参数的置信区间,在不同的检验(显著)水平下对总体的参数和分布特性进行检验。
在对总体参数作区间估计和假设检验之前,常常需要判断总体分布是否为正态分布。
检验数据是否来自正态分布总体,应用中常用分布拟合图、QQ图、分布检验等方法。
4.1实验目的
掌握使用SAS对总体参数进行区间估计与假设检验方法,掌握使用SAS对总体分布情况进行判断以及正态性检验的方法。
4.2实验内容
一、用INSIGHT对总体参数进行区间估计与假设检验
二、用“分析家”对总体参数进行区间估计与假设检验
三、编程对总体参数进行区间估计与假设检验
四、在INSIGHT和“分析家”模块中研究分布并使用UNIVARIATE过程对总体分布进行正态性检验
4.3实验指导
一、用INSIGHT对总体参数进行区间估计与假设检验
图4-1数据集Mylib.sy4_1
【实验4-1】已知某种灯泡的寿命服从正态分布,现从一批灯泡中抽取16只,测得其寿命如表4-1(sy4_1.xls)所示:
表5-1某种灯泡的寿命(单位:
小时)
1510
1450
1480
1460
1520
1480
1490
1460
1480
1510
1530
1470
1500
1520
1510
1470
求该灯泡平均使用寿命90%、95%及99%的置信区间,并指出置信区间长度与置信水平的关系。
假设上述数据已存放于数据集Mylib.sy4_1中,如图4-1所示,变量sm表示灯泡寿命。
实验步骤如下:
(1)启动INSIGHT模块,并打开数据集Mylib.sy4_1。
(2)选择菜单“Analyze(分析)”→“Distribution(Y)(分布)”。
在打开的“Distribution(Y)”对话框中选定分析变量:
sm,如图4-2左所示。
(3)单击“Output”按钮,在打开的对话框中选中“BasicConfidenceinterval(基本置信区间)”复选框,如图4-2右。
两次单击“OK”按钮,得到结果,如图4-3所示。
图4-2区间估计的设置
图4-395%置信区间
结果包括一个名为“95%ConfidenceIntervals(95%置信区间)”的列表,表中给出了均值(Mean)、标准差(StdDev)、方差(Variance)的估计值(Estimate)、置信下限(LCL)和置信上限(UCL)。
结果表明,根据抽样样本,灯泡平均使用寿命的置信水平为95%的置信区间为(1476.8034,1503.1966)。
(4)选择菜单“Tables(表)”→“BasicConfidenceInterval(基本置信区间)”→“Others(其他)”,在打开的“BasicConfidenceInterval”对话框中修改置信水平,如图4-4所示。
图4-490%、97.5%置信区间
可以看到,由于置信水平的提高,置信区间的长度在增加。
【实验4-2】正常人的脉搏平均每分钟72次,某医生测得10例“四乙基铅中毒”患者的脉搏数如表4-2(sy4_2.xls)所示:
表4-2“四乙基铅中毒”患者的脉搏数(次/min)
54
67
68
78
70
66
67
65
69
70
已知人的脉搏次数服从正态分布,试问“四乙基铅中毒”患者的脉搏和正常人的脉搏有无显著差异(a=0.05)?
这是一个单样本均值的双边检验问题。
若μ为“四乙基铅中毒”患者脉搏数的均值,需要通过样本数据检验如下假设:
H0:
μ=72,H1:
μ¹72。
图4-5数据集Mylib.sy4_2
假定上述数据存放在数据集Mylib.sy4_2中,如图4-5所示,脉搏次数用变量cs表示。
使用INSIGHT对均值进行检验的步骤如下:
(1)首先启动INSIGHT,并打开数据集Mylib.sy4_2,选择菜单“Analyze(分析)”→“Distribution(Y)(分布)”。
(2)在打开的“Distribution(Y)”对话框中选定分析变量:
选择变量cs,单击“Y”按钮,将变量移到右上方的列表框中。
单击“OK”按钮,得到变量的描述性统计量。
(3)选择菜单“Tables(表)”→“TestsforLocation(位置检验)”;在弹出的“TestsforLocation”对话框中输入72,单击“OK”按钮得到输出结果,如图4-6所示。
图4-6位置检验
结果显示,不等于72的观测有10个,其中有1个观测值大于72。
图中第一个检验为t检验(Student'st),需要假定变量服从正态分布,检验的p值为0.0366,这个检验在0.05水平下是显著的,可认为均值与72有显著差异。
第二个检验(Sign)是叫做符号检验的非参数检验,其p值为0.0215,在0.05水平下是显著的,第三个检验(SgnedRank)是叫做符号秩检验的非参数检验,其p值为0.0410,在0.05水平下也是显著的。
由于这三个检验的结论中的p值均小于0.05,所以应拒绝原假设,即总体的均值与72有显著差异。
因此,可认为“四乙基铅中毒”患者的脉搏和正常人的脉搏有显著差异。
二、用“分析家”对总体参数进行区间估计与假设检验
【实验4-3】用数据集SASUSER.GPA,求总体中女生比例的95%的置信区间(a=0.05)。
步骤如下:
(1)在“分析家”中打开数据集SASUSER.GPA,选择菜单“Statistics(统计)”→“HypothesisTests(假设检验)”→“OneSampleTestforaProportion(单样本比例检验)”。
(2)在打开的“OneSampleTestforaProportion”对话框中选择变量sex,单击“Variable”,将其移到“Variable”中,单击“LevelofInterest”下拉框右侧的下拉箭头,选“female”,如图4-7左所示。
(3)单击“Intervals”按钮,在打开的对话框中选定置信估计类型和置信水平,如图4-7右所示。
两次单击“OK”按钮,得到结果,如图4-8所示。
图4-7设置比例的置信区间
结果显示:
变量sex取值为“female”的比例的95%置信区间为(0.585,0.710)。
图4-8比例的置信区间
【实验4-4】生产工序的方差是工序质量的一个重要度量。
当方差较大时需要对工序进行改进以减小方差,现测得两部机器生产的部分袋茶重量如表4-3(sy4_4.xls)所示,设两个总体为正态总体,求两个总体方差比的95%的置信区间(a=0.01)。
表4-3两部机器生产的袋茶重量(单位:
克)
机器1
机器2
3.45
3.22
3.90
3.22
3.28
3.35
3.20
2.98
3.70
3.38
2.19
3.30
3.22
3.75
3.28
3.30
3.29
3.05
3.50
3.38
3.35
3.30
3.20
3.33
2.95
3.45
3.20
3.34
3.35
3.27
3.16
3.48
3.12
3.28
3.16
3.28
3.20
3.18
3.25
3.30
3.34
3.25
步骤如下:
图4-9数据集Mylib.sy5_4
(1)首先,将表中的数据生成数据集mylib.sy4_4,如图4-9所示,两部机器生产的袋茶重量分别用两个变量jq1和jq2表示。
(2)在分析家中打开数据集mylib.sy4_4后,选择菜单“Statistics(统计)”→“HypothesisTests(假设检验)”→“Two-SampleTestforVariance(双样本方差检验)”,打开“Two-SampleTestforVariance”对话框。
(3)在“Groupsarein”栏中选择“Twovariables”选项,并将变量jq1和jq2分别移至“Group1”和“Group2”框中;如图4-10左所示。
(4)单击“Intervals”按钮,在打开的对话框中选定置信估计类型和置信水平,如图4-10右所示。
两次单击“OK”按钮,得到分析结果,如图4-11所示。
图4-10设置方差比检验
图4-11双样本方差比的置信区间
结果显示,在95%的置信水平下,两个总体方差比的置信区间为(0.3827,2.3244)。
【实验4-5】某种电子元件的寿命(以小时记)服从正态分布。
现测得16只元件的寿命如表4-4(sy4_5.xls)所示:
表4-4某种电子元件的寿命
159
280
101
212
224
379
179
264
222
362
168
250
149
260
485
170
问是否有理由认为元件的平均寿命显著地大于225小时(a=0.05)?
图4-12数据集Mylib.sy4_5
这是一个单样本均值的单边检验问题。
若μ为元件的平均寿命,需要通过样本数据检验如下假设:
H0:
μ>=225,H1:
μ<225。
由于此时的方差未知,所以使用t检验法。
假定上述数据存放在数据集mylib.sy4_5中,灯泡寿命用变量sm表示,如图4-12所示。
步骤如下:
(1)在“分析家”中打开数据集mylib.sy4_5,选择菜单“Statistics(统计)”→“HypothesisTests(假设检验)”→“OneSamplet–testforaMean(单样本均值t-检验)”,打开“OneSamplet–testforaMean”对话框。
(2)选中变量“sm”,单击“Variable”按钮,将其移到“Variable”框中,单击选项按钮“Mean<”,在假设框“Mean>=”右边的文本框中填入原假设的均值数据225,如图4-13左所示。
(3)单击“OK”按钮,得到结果如图4-13右所示。
结果显示t统计量的p值为0.743>0.05,所以在0.05的显著水平下,不能拒绝平均寿命大于225小时的原假设。
图4-13设置均值检验
【实验4-6】有若干人参加了一个减肥锻炼,在一年后测量了他们的身体脂肪含量(身体脂肪含量的百分数),结果如表4-5(sy4_6.xls)所示:
表4-5男女生脂肪含量
男生组:
13.3
19
20
8
18
22
20
31
21
12
16
12
24
女生组:
22
26
16
12
21.7
23.2
21
28
30
23
试比较这些人中男性和女性的身体脂肪含量有无显著差异(a=0.05)。
图4-14数据集mylib.sy4_6
这是一个(独立)两样本均值检验问题,若μ1和μ2分别表示男性和女性身体脂肪的平均含量,则检验的是:
H0:
μ1–μ2=0,H1:
μ1–μ2¹0;
假定数据存放在数据集mylib.sy4_6中,如图4-14所示,将男女生脂肪含量的观测值记在同一分析变量z下,不同的样本用一个分类变量g的不同值加以区分,而且分类变量g只能取两个值(“m”表示男,“f”表示女),否则无法进行检验。
分析步骤如下:
(1)在“分析家”中打开数据集mylib.sy4_6。
(2)选择菜单“Statistics(统计)”→“HypothesisTests(假设检验)”→“TwoSamplet-TestforMeans(两样本均值的t-检验)”。
(3)在打开的“TwoSamplet-TestforaMeans”对话框中,将变量z和g分别选到“Dependent”和“Group”中,如图4-15左所示。
(4)单击“OK”按钮,得到结果如图4-15右所示。
结果显示,由于t统计量的p值=0.1031>0.05,所以在0.05的显著水平下,不能拒绝原假设,可以认为男性和女性的身体脂肪含量无显著差异。
图4-15双样本均值检验
三、编程对总体参数进行区间估计与假设检验
利用编程方法重做实验4-1和实验4-6。
【实验4-7】重做实验4-1。
(1)生成数据集
编程将表4-1中数据存放于数据集sy4_7中,变量名为sm,代码如下:
datasy4_7;
inputsm@@;
cards;
15101450148014601520148014901460
14801510153014701500152015101470
;
run;
(2)计算该灯泡平均使用寿命95%、99%及90%的置信区间,代码如下:
procttestdata=sy4_7;
run;
运行结果如图4-16所示。
图4-1695%的置信区间
procttestdata=sy4_7alpha=0.01;
run;
运行结果如图4-17所示。
图4-1799%的置信区间
procttestdata=sy4_7alpha=0.1;
run;
运行结果如图4-18所示。
图4-1890%的置信区间
【实验4-8】重做实验4-6
(1)生成数据集
将表4-5中数据存放于数据集sy4_8中,用变量z表示脂肪含量,分类变量g表示性别,代码如下:
datasy4_8;
inputzg$@@;
cards;
13.3m19m20m8m18m22m20m31m21m12m16m12m24m
22f26f16f12f21.7f23.2f21f28f30f23f
;
run;
(2)均值检验
procttesth0=0alpha=0.05data=sy4_8;
varz;
classg;
run;
代码运行结果除了给出变量z在95%置信水平下的均值、标准差的置信区间外,还给出对假设H0:
μ1–μ2=0,H1:
μ1–μ2¹0,所作的t-检验的p值,如图4-19所示。
结果显示无论是方差相等还是方差不等,t统计量的p值都>0.05,不能拒绝原假设:
μ1–μ2=0,可以认为,男性和女性的身体脂肪含量无显著差异。
图4-19样本均值的t–检验
【实验4-9】表4-6是一组鸟巢高度数据(sy4_9.xls),试用分布拟合图、QQ图和分布检验三种方法说明其是否服从正态分布。
表4-6鸟巢高度数据
15
3.5
3.5
7
1
7
5.75
27
15
8
4.75
7.5
4.25
6.25
5.75
5
8.5
9
6.25
5.5
4
7.5
8.75
6.5
4
5.25
3
12
3.75
4.75
6.25
3.25
2.5
绘制分布拟合图
图4-20数据集Mylib.sy4_9
假设上述数据存放在数据集Mylib.sy4_9中,高度变量名为height,如图4-20所示。
(1)在INSIGHT中打开Mylib.sy4_9,选择菜单“Analyze(分析)”→“Distribution(Y)(分布)”,打开“Distribution(Y)”对话框。
在数据集Mylib.sy4_9的变量列表中,选择height,然后单击“Y”按钮,height被选为分析变量,如图4-21左所示。
(2)单击“Output(输出)”按钮,在打开的对话框中单击“DensityEstimation(密度估计)”按钮(图4-21右),打开“DensityEstimation”对话框,选中“ParametricEstimation(参数估计)”栏下的“Normal(正态)”复选框,如图4-22左所示。
图4-21“Distribution(Y)”对话框
图4-22密度估计与拟合图
三次单击“OK”按钮,即可得到变量height的正态分布密度拟合图和参数估计,如图4-22右与图4-23所示。
图4-23height变量的参数密度估计
绘制QQ图
如果在图4-21右所示的“Distribution(Y)”对话框中选中“NormalQQPlot(正态QQ图)”复选框,如图4-24左所示,两次单击“OK”,则可以得到正态QQ图,如图4-24右所示。
图4-24正态QQ图
选择菜单“Curves(曲线)”→“QQRefLine(QQ参考线)”,打开“QQRefLine”对话框。
选择“Method(方法)”栏下的“LeastSquares(最小二乘)”,如图4-25左,单击“OK”按钮得到带参考线的QQ图(图4-25右)。
图4-25带参考线的QQ图
正态性检验
在INSIGHT中继续上述操作:
选择菜单“Curves(曲线)”→“TestforDistribution(分布检验)”,打开“TestforDistribution”对话框;
对话框中显示可做的检验有:
Normal(正态分布)、Lognormal(对数正态分布)、Exponential(指数分布)和Weibull,缺省做正态分布检验,如图4-26左所示。
图4-26做正态分布检验
单击“OK”按钮,得到变量height的经验分布和拟合的正态累计分布曲线图(图4-26右),以及正态分布检验表(图4-27)。
图4-27正态分布检验表
结果分析
从分布拟合图(图4-22右)和QQ图(图4-25右)可以看出height样本数据与正态分布有一定的差距。
正态分布检验结果汇总在分布检验表(图4-27)中,其中列举了拟合正态分布的均值6.8788(即样本均值)和标准差4.7918(即样本标准差),并提供了KolmogorovD统计量的数值0.2078,而相应的p值<0.01<0.05=α,所以应拒绝原假设,不能认为变量height的总体分布为正态分布。
【实验4-10】使用UNIVARIATE编程实现实验4-9中鸟巢高度的正态性检验
procunivariatedata=Mylib.sy4_9normal;
varheight;
run;
图4-28正态性检验
运行结果如图4-28所示。
结果表明,四种统计量的检验结果p值均很小(<0.05),应拒绝原假设,即不能认为height服从正态分布。
4.4上机演练
【练习4-1】生成来自标准正态总体的10000个随机数:
(1)求总体的平均值和方差的置信水平为90%的置信区间;
(2)改变随机数的个数,观察并总结样本均值、样本方差的变化以及总体均值和方差的置信区间的变化规律。
(y=RAND('normal',μ,σ);/*直接产生正态分布N(μ,σ2)的随机数据*/或者y=M+sqrt(S)rannor(seed);/*生成均值为M,方差为S的正态随机数,其中SEED可以为任意整数*/)
【练习4-2】从某大学总数为500名学生的“数学”课程的考试成绩中,随机地抽取60名学生的考试成绩如表4-6(lx4-2.xls)所示:
表4-6学生成绩
81
68
71
85
57
85
92
74
61
80
68
77
75
57
46
80
69
63
67
92
88
75
89
75
59
72
85
77
100
73
58
69
68
68
59
89
70
72
89
94
78
45
92
93
69
70
99
79
80
69
82
67
74
73
72
70
83
70
76
60
(1)分别求500名学生平均成绩的置信水平为98%、90%和85%的置信区间,并观察置信水平与置信区间的关系。
(2)分别求500名学生成绩的方差的置信水平为98%和85%的置信区间。
【练习4-3】装配一个部件时可以采用不同的方法,所关心的问题是哪一个方法的效率更高。
劳动效率可以用平均装配时间反映。
现从不同的装配方法中各抽取12件产品,记录下各自的装配时间如表4-7(lx4-3.xls)所示:
表4-7装配时间(单位:
分钟)
甲法:
31
34
29
32
35
38
34
30
29
32
31
26
乙法:
26
24
28
29
30
29
32
26
31
29
32
28
设两总体为正态总体,且方差相同。
问两种方法的装配时间有无显著不同(a=0.05)?
【练习4-4】使用练习4_2的60名学生的考试成绩数据(lx4-2.xls),试用分布拟合图、QQ图和分布检验三种方法说明其是否服从正态分布。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实验 区间 估计 假设检验