概率统计实验指导书23.docx
- 文档编号:16915259
- 上传时间:2023-04-24
- 格式:DOCX
- 页数:40
- 大小:205.75KB
概率统计实验指导书23.docx
《概率统计实验指导书23.docx》由会员分享,可在线阅读,更多相关《概率统计实验指导书23.docx(40页珍藏版)》请在冰豆网上搜索。
概率统计实验指导书23
概率统计
实验指导书
理学院实验中心
数学专业实验室编写
2009.12
实验二统计分析
1引
1.问题:
湖中有鱼,其数不知。
现在请你想一个办法,能将湖中的鱼数大致估计出来。
2.分析:
有两种方法。
[方法一]设湖中有
条鱼。
先捕出r条鱼,做上记号后放回湖中(设记号不会消失)。
让湖中的鱼充分混合后,再从湖中捕出s条鱼,设其中有T条鱼标有记号,则T是随机变量,且服从超几何分布
。
应用极大似然估计思想,寻找N,使
达到最大,得
。
于是取
作为湖中鱼数的一种估计,其中
表示不超过x的最大整数。
[方法二]用矩估计法.因为T服从超几何分布,其数学期望是
,此即捕s条鱼得到有标记的鱼的总体平均数。
而现在只捕一次,出现t条有标记的鱼。
由矩估计法,令总体一阶原点矩等于样本一阶原点矩,即
,也得
。
3.问题的解决:
由上面的分析,要想估计出湖中的鱼数,首先需要取到样本数据,然后利用样本数据,采用统计中的点估计法对总体进行估计,其属于统计分析中的一部分。
本节重点进行与统计分析相关的实验。
2实验目的
1、利用常用的统计量描述样本数据的集中和分散程度,并对总体特征进行归纳和分析。
2.学习用MATLAB对总体均值、方差进行估计。
3.学习用MATLAB处理假设检验的相关问题。
4.解决“引”中的实际问题。
3实验内容
1.使用MATLAB对样本数据进行处理
MATLAB提供了若干对数据进行统计分析的命令,这些命令作用到一个矩阵上会对各列分别作用,得到一个行向量,现将这些命令列举如下:
max最大分量;
mean平均值;
std标准差;
sum分量和;
product分量积;
cumsum元素累和;
min最小分量;
median中位数;
sort按不增次序排序;
hist直方图;
diff差分函数;
cumprod元素累计积
此外,命令corrcoef计算相关系数矩阵,格式为R=corrcoef(X),X为输入矩阵,它的行元素为观测值,列元素为变量,返回相关系数矩阵R,矩阵R的元素为R(i,j);
命令cov计算协方差矩阵,格式为C=cov(X),X若为单个向量,cov(X)返回包含方差的标量;X若为矩阵,X的每一列表示一个变量而行元素为观测值。
cov(X)计算结果为协方差矩阵C,矩阵C的元素为C(i,j),它与R(i,j)的关系如下:
。
注方差命令var(X)与diag(cov(X))所返回的结果相同;标准差命令std(X)等价于sqrt(diag(cov(X)));cov(x,y)(其中x,y为等长度的列向量)与cov([x,y])的计算结果相同。
例1有一大批糖果,现从中随机地取8袋,称得重量X(单位:
g)如下:
505.0507.0489.0502.0504.0511.0488.0528.0
求这组数据的均值、方差、标准差等。
解输入下列语句:
data1=[505,507,489,502,504,511,488,528]
mean(data1)%求data1的均值
运行得结果
ans=504.2500
再运行
std(data1)%求data1的标准差S
得结果
ans=12.6463
再运行
hist(data1)%画出data1的直方图
例2随机地抽查某班10名学生的数学、政治、外语三门课程的考试成绩如表1所示,试求各科的平均分数、标准差、协方差及相关系数矩阵。
表1学生成绩表
序号
科目
1
22
3
4
5
6
7
8
9
10
数学
政治
外语
78
82
67
91
85
76
67
81
72
57
63
52
80
80
65
63
72
76
69
83
68
82
93
88
75
82
78
85
88
75
解在MATLAB中,首先建立数据的M文件,从File菜单中选择M-File,即可打开一个编辑器,输入如下语句并以data.m命名。
functiondata=x
data=[788267;918576;678172;576352;808065;
637276;698368;829388;758278;858875];
在MATLAB命令窗口中输入
mean(data)%求数据的平均值
得到结果
ans=74.700080.900071.7000
第一列为数学的平均分74.7,第二列为政治的平均分80.9,第三列为外语的平均分71.7.
输入
std(data)%求数据的标准差
得到结果
ans=10.57308.30609.5574
第一列为数学的标准差10.5730,第二列为政治的标准差8.3060,第三列为外语的标准差9.5574
下面求数据的相关系数矩阵,输入
corrcoef(data)
得到
ans=1.00000.80430.5400
0.80431.00000.7736
0.54000.77361.0000
cov(data)%求协方差矩阵
得到结果
ans=111.788970.633354.5667
70.633368.988961.4111
56.566761.411191.3444
2.参数估计
MATLAB统计工具箱中,有专门计算总体均值、标准差的点估计和区间估计的程序。
将概率函数中的后三个字母由“pdf”变为“fit”即为相应总体的估计函数。
如,对于正态总体,命令是
[mu,sigma,mucisigmaci]=normfit[X,alpha]
其中,X是样本(数组),alpha是显著性水平
(alpha默认时设定为0.05),输出mu和sigma是总体均值
和标准差
的点估计,muci和sigmaci是总体均值
和标准差
的区间估计。
当X是矩阵(列为变量)时输出行向量。
一般情况下,如果确定总体为正态总体,则使用上面的normfit函数,如果无法保证这个假设成立,有两种处理办法:
一是取容量充分大的样本,仍可按照上面给出的估计公式计算,因为根据概率论的中心极限定理,只要样本足够大(实用中取
),均值就近似地服从正态分布;二是采用其他分布的估计函数,下面列出常见分布的估计函数格式,至于其他估计函数的用法可参见MATLAB的帮助系统。
(1)[muhat,muci]=expfit(X,alpha)
%在显著性水平
下,求指数分布的数据X的均值的点估计及其区间估计
(2)[lambdahat,lambdaci]=poissfit(X,alpha)
%在显著性水平
下,求泊松分布的数据X的参数
的点估计及其区间估计
例3用
分布产生
个随机样本,估计其均值和标准差(
)。
解输入语句
r=normrnd(10,2,100,1);
[musigmamucisigmaci]=normfit(r)
运行结果如下:
mu=9.8437
sigma=1.9138
muci=9.463910.2234
sigmaci=1.68032.2232
结果表明,该随机样本的均值的点估计为9.8437,区间估计为[9.4639,102234],标准差的点估计为1.9138,区间估计为[1.6803,2.2232].
3、假设检验
在总体服从正态分布的情况下,可用命令进行假设检验。
(1)总体方差
已知时,总体均值的检验使用Z-检验,语句格式为
[h,sig,ci,z]=ztest(x,m,sigma,alpha,tail)
检验数据x的关于均值的某一假设是否成立,其中sigma为已知方差
,alpha为显著性水平
,究竟检验什么假设取决于tail的取值:
tail=0,检验假设“x的均值等于m”;
tail=1,检验假设“x的均值大于m”;
tail=-1,检验假设“x的均值小于m”;
tail的默认值为0,alpha的默认值为0.05。
返回值h为一个布尔值,h=1表示可以拒绝假设,h=0表示不可以拒绝假设;z为统计量
的值,其中n为样本中数据的个数;sig为Z统计量在假设成立下的概率,ci为均值的
置信区间。
注ztest命令输出参数中的最后一个参数z,若不需要显示,通常被省略。
(2)总体方差
未知时,总体均值的检验使用t-检验,语句格式为
[h,sig,ci]=ttest(x,m,alpha,tail)
检验数据x的关于均值的某一假设是否成立,其中参数的取值和意义以及返回值的含义类同于上面的ztest函数,只是此函数的统计量为t统计量,
。
(3)两总体均值的假设检验使用t-检验,语句格式为
[h,sig,ci]=ttest2(x,y,alpha,tail)
检验数据x,y的关于均值的某一假设是否成立,其中参数的取值和意义以及返回值的含义也类同于上面的ztest函数,只是此函数的统计量为t统计量,
,其中m,n分别为样本x,y中数据的个数。
例4用
分布产生
个随机样本,分别在总体方差已知(
)和未知的情况下检验总体均值
和
。
解假设检验分别为
与
总体方差已知时用Z-检验,未知时用t-检验,程序如下:
x=normrnd(5,1,100,1);%产生
随机数100个
m=mean(x)%计算样本均值
[h0,sig0,ci0,z0]=ztest(x,5,1)%Z检验
[h1,sig1,ci1,z1]=ztest(x,5.25,1)
[ht0,sigt0,ci,t0]=ttest(x,5,1)%t检验
[ht1,sigt1,ci,t1]=ttest(x,5.25)
运行结果如下:
m=4.9901
h0=0;sig0=0.9213;ci0=4.79415.1861;z0=-0.0987
h1=1;sig1=0.0094;ci1=4.79145.1861;z1=-2.5987
ht0=0;sigt0=0.9214;cit0=4.79225.1881;
ht1=1;sigt1=0.0106;cit1=4.79225.1881
从以上结果可知,样本均值
,同时
(1)对Z-检验和t-检验都接受了
的假设,拒绝了
的假设。
(2)对Z-检验,在
下样本统计量z0=-0.0987
在
下的概率为sig0=0.9213(2*normcdf(z0)),样本对总体均值
的区间估计为[4.7941,5.1861];
(3)对Z-检验,在
下样本统计量z1=-2.5987
在
下的概率为sig1=0.0094(2=*normcdf(z1)),样本对总体均值
的区间估计同样为[4.7941,5.1861];
(4)对t-检验,在
下的概率为sigt0=0.9214(=2*tcdf(t0,n-1)),其中,t0可由公式
计算得到,对总体均值
的区间估计为[4.7922,5.1881];
(5)对t-检验,在
下的概率为sigt1=0.0094,
的区间估计为[4.7922,5.1881];
特别指出,ztest中的输出sig是
下的概率
,其中
,
,
偏离
越大,
越大,sig=
越大,所以可以认为sig给出了接受
(此时sig>a)或拒绝
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 概率 统计 实验 指导书 23