数理统计第一次实验报告.docx
- 文档编号:7707428
- 上传时间:2023-01-25
- 格式:DOCX
- 页数:18
- 大小:157.47KB
数理统计第一次实验报告.docx
《数理统计第一次实验报告.docx》由会员分享,可在线阅读,更多相关《数理统计第一次实验报告.docx(18页珍藏版)》请在冰豆网上搜索。
数理统计第一次实验报告
一.实验题目
实验1:
经验分布函数
(1)取
,n=100,产生n个服从
分布的随机数作为取自正态总体
的样本值
,在同一坐标下画出它的经验分布函数,并与总体分布函数进行比较。
(2)改变n,重做实验
(1),体会格列文科定理的内涵。
实验2:
直方图
假定某班60个男生身高(单位:
cm),数据如下:
166,169,181,173,165,169,170,163,175,164,171,162,156,159,173,168,167,165,172,170,180,177,161,170,164,163,172,167,157,165,168,174,165,168,162,163,159,163,167,173,161,160,165,160,173,164,166,152,163,164,176,160,164,167,158,172,167,168,167,170
现在希望通过这些数据来确定该班身高的分布。
解:
基本步骤:
第一步:
找出数据的最大值181,最小值152,极差R=181-152=29;
第二步:
分组定组距。
分组没有通用原则,通常数据个数
时,分成10组以上,当
时,一般5组左右。
分组数m确定后,可按
来确定组距d。
第三步:
定分点,定区间:
取起点a=151.5,终点181.5,从而作图区间为[151.5,181.5](取各组的边界值比身高多一位小数,为的是使每个身高都落在一个组的内部)。
第四步:
列出样本值落入各组的频数和频率。
第五步:
做频率直方图。
直方图是最常用的一种表现数据的方法,它通常把值域分成若干相等的区间,于是数据就按区间分成若干组,每组做成一个矩形,其高和该组中数据的多少成比例,其底为所属区间,这些矩形就是直方图,它给数据的分布一个直观的形象。
直方图以组距为底,以频率为高作矩形。
可以想象,若得到的数据很多,这时,直方图的分组增多,组距变得很小,画出的直方图顶端阶梯形近似一条曲线,于是可以用这条曲线近似描述该组数据的分布规律。
(2)改变实验
(1)中的组距,将得到的图形与
(1)得到的图形比较,你能得到什么结论?
实验3:
设样本
取自总体U(a,b),a,b为未知参数,试求a,b的矩估计和极大似然估计。
由计算可以得出a,b的矩估计量分别为:
,
极大似然估计分别为:
,
下面进行模拟:
(1)取a=0,b=1,N=50,产生N个服从U(a,b)分布的随机数当做样本,分别代入式中计算a,b的估计值,并与理论值0,1比较;
(2)将
(1)重复10次,用10次估计值的平均值作为a,b的估计,并与
(1)的结果比较,体会其中包含的概率思想。
实验4:
设总体X服从正态分布
,取
,从总体抽取10组容量为20的样本,分别以
和
作为总体均值
的估计量,计算10组估计值并描在图上。
(将点描在坐标轴上),从中你可以得到什么结论?
图1:
以
作为估计量
图2:
以
作为估计量
实验5:
已知
来自正态总体
,其中
,取
,求置信度为0.99的
置信区间。
二.分析与解答
实验1:
经验分布函数
首先产生100个服从N(5,1)分布的随机数作为样本值
.
rnorm(100,mean=5,sd=1)
根据产生的数据画出正态分布的经验分布函数:
w<-(rnorm(100,mean=5,sd=1))
curve(pnorm(x,mean(w),sd(w)),xlim=c(0,20),col="blue",lwd=3)
与总体正态分布函数进行比较:
x<-seq(0,20,length.out=100)
lines(x,pnorm(x,5,1),col="red")
legend("bottomright",legend=paste("m=",c(5,5),"sd=",c(1,1)),lwd=1,col=c("red","blue"))
当取n的值为200:
w=(rnorm(200,mean=5,sd=1))
curve(pnorm(x,mean(w),sd(w)),xlim=c(0,20),col="blue",lwd=3)
x<-seq(0,20,length.out=200)
lines(x,pnorm(x,5,1),col="green")
legend("bottomright",legend=paste("m=",c(5,5),"sd=",c(1,1)),lwd=1,col=c("green","blue"))
当取n的值为300:
w=(rnorm(300,mean=5,sd=1))
curve(pnorm(x,mean(w),sd(w)),xlim=c(0,20),col="blue",lwd=3)
x<-seq(0,20,length.out=300)
lines(x,pnorm(x,5,1),col="orange")
legend("bottomright",legend=paste("m=",c(5,5),"sd=",c(1,1)),lwd=1,col=c("blue","orange"))
设X1,X2,…,Xn是取自总体X的随机样本,Fn(x)是总体X的经验分布函数,当n→∞时由格列汶科定理知:
该定理当样本容量n充分大时,经验分布函数Fn(x)可以作为总体分布函数F(x)的一个良好的近似。
实验二:
直方图
基本步骤:
第一步:
找出数据的最大值181,最小值152,极差R=181-152=29;
第二步:
分组定组距。
分组没有通用原则,通常数据个数
时,分成10组以上,当
时,一般5组左右。
分组数m确定后,可按
来确定组距d。
第三步:
定分点,定区间:
取起点a=151.5,终点181.5,从而作图区间为[151.5,181.5](取各组的边界值比身高多一位小数,为的是使每个身高都落在一个组的内部)。
第四步:
列出样本值落入各组的频数和频率。
第五步:
做频率直方图。
直方图是最常用的一种表现数据的方法,它通常把值域分成若干相等的区间,于是数据就按区间分成若干组,每组做成一个矩形,其高和该组中数据的多少成比例,其底为所属区间,这些矩形就是直方图,它给数据的分布一个直观的形象。
直方图以组距为底,以频率为高作矩形。
可以想象,若得到的数据很多,这时,直方图的分组增多,组距变得很小,画出的直方图顶端阶梯形近似一条曲线,于是可以用这条曲线近似描述该组数据的分布规律。
【实验步骤】
Ø第一步自定义绘制频数直方图的函数
HIST<-function(data,m){
res<-1:
m;lable<-1:
m;
A<-min(data)-1;
B<-max(data)+1;
dis<-(max(data)-min(data))%/%m+1;
for(jin1:
m){
for(iin1:
length(data)){
if(data[i]>A+(j-1)*dis&&data[i]<=B-(m-j)*dis)res[j]=res[j]+1;
}
lable[j]=paste(as.character(A+(j-1)*dis),"~",as.character(B-(m-j)*dis));
}
barplot(res,width=1,names.arg=lable);
}
变量data用于存放数据,变量m表示分组数
Ø第二步改变分组个数,多次试验
m=5的结果:
M=10的结果:
M=15的结果:
【实验结论】
组距越小,分组越细,对数据分布的刻画就越精确,相反的,如果采用较大的组距,更方便从整体上反应数据的大致分布情况。
实验三:
(1)首先产生50个服从U(0,1)分布的随机数
runif(50,min=0,max=1)
矩估计:
根据公式
首先计算出均值和方差:
x1<-mean(x)
x2<-var(x)
将计算的结果带入求取a的估计值:
a1<-(x1-sqrt(3*x2))
同理
根据公式
可求出b的估计量:
将运算重复10次,用10次估计值的平均值作为a,b的矩估计值
a<-vector(mode="numeric",length=0)
for(iin1:
10)
{
a[i]<-i
}
a2=0;
for(iin1:
10)
{
x<-runif(50,min=0,max=1)
x1<-mean(x)
x2<-var(x)
a[i]<-(x1-sqrt(3*x2))
a2=a2+a[i]
}
a2/10
同理将10次计算的结果求出平均值作为b的估计值
a<-vector(mode="numeric",length=0)
for(iin1:
10)
{
a[i]<-i
}
b2=0;
for(iin1:
10)
{
x<-runif(50,min=0,max=1)
x1<-mean(x)
x2<-var(x)
a[i]<-(x1+sqrt(3*x2))
b2=b2+a[i]
}
b2/10
极大似然估计:
x<-runif(50,min=0,max=1)
b1=min(x)
b2=max(x)
将运算重复10次,用10次估计值的平均值作为a,b的极大似然估计值
a<-vector(mode="numeric",length=0)
for(iin1:
10)
{
a[i]<-i
b[i]<-i
}
b1=0
b2=0
for(iin1:
10)
{
x<-runif(50,min=0,max=1)
a[i]=min(x)
b[i]=max(x)
b1=b1+a[i]
b2=b2+b[i]
}
实验结论:
矩估计法生成的结果是$0.003933=,1.004076=$
极大似然估计法生成的结果是$0.007297,0.9797615=$
从而可得出,两种结果都还是比较接近理论值的,在此情况下,极大似然估计的估计效果比矩估计效果更理想
实验4:
【实验步骤】
在R中输入以下代码:
r<-matrix(rnorm(10*20),10,20)#抽取10组容量为20的样本
MEAN<-1:
10
MIN<-1:
10#计算每一组样本的均值和最小值
plot(0,ylim=c(-5,2),col="white");
for(iin1:
10){MEAN[i]=mean(r[i,]);points(MEAN[i],pch=1,col="blue");
MIN[i]=min(r[i,]);points(MIN[i],pch=0,col="green");}#在同一坐标轴上画出图像,蓝色表示均值,绿色表示最小值
【实验结论】
若取每次试验的样本容量为200,结论如下图:
若取每次试验的样本容量为2000,结论如下图:
可以看出如下几个结论:
1.可以证明,样本均值是μ的无偏估计量,图上的样本均值集中在μ的取值附近;
2.重复多次抽取样本,样本均值的离散程度(变化程度)小,而样本中最小值的离散程度比较高;
3.随着每次试验的样本容量的增加,样本均值的取值会越来越集中于0,而样本最小值则会越来越小。
实验5:
实验目的:
已知
来自正态总体
,其中
,取
,求置信度为0.99的
置信区间。
实验过程:
分析该题目,此题为在已知方差
的情况下,求出置信度为0.99的置信区间。
取定
=5
首先产生100个服从N(5,1)的随机变量
rnorm(100,5,1)
若置信度为0.95则可根据R语言函数t.test直接计算出置信区间。
当置信度为0.99时,
由正态分布的方差已知时,我们首先计算均值的置信区间
书上的公式为x¯±(σ/n√)z1−σ/2,其中Zp表示的是正态分布N(0,1)下侧的p分位数。
我们用R来实现求得这一结果的过程。
编写函数
先用mean(x)求出样本的平均值,然后用qnorm(1-alpha/2)求出Z1-a/2,
w.test<-function(x,n,s,a)
{
mean<-mean(x)
ans<-c(mean-s*qnorm(1-a/2,mean=0,sd=1,lower.tail=TRUE)/sqrt(n),
mean+s*qnorm(1-a/2,mean=0,sd=1,lower.tail=TRUE)/sqrt(n))
ans
}
x<-rnorm(100,5,1)
w.test(x,100,1,0.01)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数理统计 第一次 实验 报告