统计工具箱.docx
- 文档编号:25000061
- 上传时间:2023-06-03
- 格式:DOCX
- 页数:15
- 大小:89.77KB
统计工具箱.docx
《统计工具箱.docx》由会员分享,可在线阅读,更多相关《统计工具箱.docx(15页珍藏版)》请在冰豆网上搜索。
统计工具箱
七.统计工具箱的简介
7.1统计工具箱的功能及应用步骤
1.基本功能
(1)提供了常见的20多中概率分布的分布密度函数、分布函数逆分布函数,参数估计函数和随机数生成函数;
(2)提供多种概率分布的分布参数和置信区间的估计方法;
(3)提供包括单因子方差分析、双因子方差分析和多因子方差分析方法;
(4)提供多元线性回归,非线性回归,一般线性拟合,多项式拟合等功能;
(5)提供多种有效的假设检验,分布的检验,非参数检验等功能;
(6)提供多种判别分析,主成分分析,因子分析等方法。
2.应用步骤
(1)根据实际中所研究的概率统计问题,建立问题的数学模型,选择适当的概率分布密度函数合分布函数,对有关的概率分布参数作相应的估计;
(2)对所需要的数学模型作适当的回归或拟合;
(3)对所建立的模型作必要的分析和检验;
6.2统计工具箱的函数使用方法
1常见分布的随机数产生
常见分布的随机数的使用格式与上面相同
表4-1随机数产生函数表
函数名
调用形式
注释
Unifrnd
unifrnd(A,B,m,n)
[A,B]上均匀分布(连续)随机数
Unidrnd
unidrnd(N,m,n)
均匀分布(离散)随机数
Exprnd
exprnd(Lambda,m,n)
参数为Lambda的指数分布随机数
Normrnd
normrnd(MU,SIGMA,m,n)
参数为MU,SIGMA的正态分布随机数
chi2rnd
chi2rnd(N,m,n)
自由度为N的卡方分布随机数
Trnd
trnd(N,m,n)
自由度为N的t分布随机数
Frnd
frnd(N1,N2,m,n)
第一自由度为N1,第二自由度为N2的F分布随机数
gamrnd
gamrnd(A,B,m,n)
参数为A,B的
分布随机数
betarnd
betarnd(A,B,m,n)
参数为A,B的
分布随机数
lognrnd
lognrnd(MU,SIGMA,m,n)
参数为MU,SIGMA的对数正态分布随机数
nbinrnd
nbinrnd(R,P,m,n)
参数为R,P的负二项式分布随机数
ncfrnd
ncfrnd(N1,N2,delta,m,n)
参数为N1,N2,delta的非中心F分布随机数
nctrnd
nctrnd(N,delta,m,n)
参数为N,delta的非中心t分布随机数
ncx2rnd
ncx2rnd(N,delta,m,n)
参数为N,delta的非中心卡方分布随机数
raylrnd
raylrnd(B,m,n)
参数为B的瑞利分布随机数
weibrnd
weibrnd(A,B,m,n)
参数为A,B的韦伯分布随机数
binornd
binornd(N,P,m,n)
参数为N,p的二项分布随机数
geornd
geornd(P,m,n)
参数为p的几何分布随机数
hygernd
hygernd(M,K,N,m,n)
参数为M,K,N的超几何分布随机数
Poissrnd
poissrnd(Lambda,m,n)
参数为Lambda的泊松分布随机数
2.常见的概率密度分布函数,见下表:
分布类型
数学表达式
调用函数
说明
二项分布B(n,p)
Y=binopdf(X,N,P)
N为正整数,
0
泊松分布P(λ)
Y=poisspdf(X,Lambda)
X为非负整数
连续均匀分布U(a,b)
Y=unifpdf(X,A,B)
A
正态分布
Y=normpdf(X,Mu,Sigma)
Sigma>0
指数分布
Y=exppdf(X,Mu)
Mu>0
例1.计算正态分布
>>x=[-2:
0.1:
2];
>>f=normpdf(x,0,1)
f=
Columns1through10
0.05400.06560.07900.09400.11090.12950.14970.17140.19420.2179
Columns11through20
0.24200.26610.28970.31230.33320.35210.36830.38140.39100.3970
Columns21through30
0.39890.39700.39100.38140.36830.35210.33320.31230.28970.2661
Columns31through40
0.24200.21790.19420.17140.14970.12950.11090.09400.07900.0656
Column41
1.0540
画出图像:
>>plot(x,f)
2.累积分布函数与逆累积分布函数
累积分布函数(cdf)与逆累积分布函数(icdf或inv)
分布类型
数学表达式
累积分布函数
逆累积分布函数
二项分布B(n,p)
B=binocdf(X,N,P)
X=binoinv(B,N,P)
泊松分布P(λ)
P=poisscdf(X,Lambda)
X=Poissinv(P,Lambda)
连续均匀分布U(a,b)
U=unifcdf(X,A,B)
X=unifinv(U,A,B)
正态分布
N=normcdf(X,Mu,Sigma)
X=norminv(N,Mu,Sigma)
指数分布
E=expcdf(X,Mu)
X=expinv(E,Mu)
例2.用正态分布说明cdf与inv函数之间的关系
>>x=[-2:
0.5:
2];
>>xnew=norminv(normcdf(x,0,1),0,1);
>>x
x=
-2.0000-1.5000-1.0000-0.500000.50001.00001.50002.0000
>>xnew
xnew=
-2.0000-1.5000-1.0000-0.500000.50001.00001.50002.0000
例3.利用逆累积分布函数计算正态分布的80%置信区间
>>p=[0.013,0.813];
>>x=norminv(p,0,1)
x=
-2.22620.8890
3.参数估计
参数估计式统计推断问题,即当总体分布的数学形式已知,用有限个参数表示估计的问题。
它可以分为点估计和区间估计两个方面。
在参数模型中,最常用的是极大似然法。
统计工具箱采用极大似然法给出了常用的概率分布模型参数的点估计和区间估计值。
其函数通常以”fit”结尾。
常用分布的参数估计函数
表4-7参数估计函数表
函数名
调用形式
函数说明
binofit
PHAT=binofit(X,N)
[PHAT,PCI]=binofit(X,N)
[PHAT,PCI]=binofit(X,N,ALPHA)
二项分布的概率的最大似然估计
置信度为95%的参数估计和置信区间
返回水平α的参数估计和置信区间
poissfit
Lambdahat=poissfit(X)
[Lambdahat,Lambdaci]=poissfit(X)
[Lambdahat,Lambdaci]=poissfit(X,ALPHA)
泊松分布的参数的最大似然估计
置信度为95%的参数估计和置信区间
返回水平α的λ参数和置信区间
normfit
[muhat,sigmahat,muci,sigmaci]=normfit(X)
[muhat,sigmahat,muci,sigmaci]=normfit(X,ALPHA)
正态分布的最大似然估计,置信度为95%
返回水平α的期望、方差值和置信区间
betafit
PHAT=betafit(X)
[PHAT,PCI]=betafit(X,ALPHA)
返回β分布参数a和b的最大似然估计
返回最大似然估计值和水平α的置信区间
unifit
[ahat,bhat]=unifit(X)
[ahat,bhat,ACI,BCI]=unifit(X)
[ahat,bhat,ACI,BCI]=unifit(X,ALPHA)
均匀分布参数的最大似然估计
置信度为95%的参数估计和置信区间
返回水平α的参数估计和置信区间
expfit
muhat=expfit(X)
[muhat,muci]=expfit(X)
[muhat,muci]=expfit(X,alpha)
指数分布参数的最大似然估计
置信度为95%的参数估计和置信区间
返回水平α的参数估计和置信区间
gamfit
phat=gamfit(X)
[phat,pci]=gamfit(X)
[phat,pci]=gamfit(X,alpha)
γ分布参数的最大似然估计
置信度为95%的参数估计和置信区间
返回最大似然估计值和水平α的置信区间
weibfit
phat=weibfit(X)
[phat,pci]=weibfit(X)
[phat,pci]=weibfit(X,alpha)
韦伯分布参数的最大似然估计
置信度为95%的参数估计和置信区间
返回水平α的参数估计及其区间估计
Mle
phat=mle('dist',data)
[phat,pci]=mle('dist',data)
[phat,pci]=mle('dist',data,alpha)
[phat,pci]=mle('dist',data,alpha,p1)
分布函数名为dist的最大似然估计
置信度为95%的参数估计和置信区间
返回水平α的最大似然估计值和置信区间
仅用于二项分布,pl为试验总次数
说明各函数返回已给数据向量X的参数最大似然估计值和置信度为(1-α)×100%的置信区间。
α的默认值为0.05,即置信度为95%。
常用的数据样本统计量函数
对于实际采集到的样本数据,常常要用一些统计量来描述数据的分布情况,即研究数据的集中程度和分散程度,并通过这些统计量来对数据的总体特征进行分析研究。
函数
功能
函数
功能
Max
最大元素
mad
平均绝对偏差
Min
最小元素
range
样本极差
Sum
元素和
std
标准差
Sort
递增排序
moment
任意阶中心矩
Geomean
几何均值
cov
协方差矩阵
Harmmean
调和均值
corrcoef
相关系数
Mean
算术平均值
median
中位元素
Var
方差
例3.求随机矩阵X和Y的协方差和相关系数
>>rand('seed',0)
>>X=rand(10,1);
>>Y=rand(10,1);
>>CX=cov(X);
>>CY=cov(Y);
>>Cxy=cov(X,Y)
Cxy=
0.1154-0.0764
-0.07640.0919
>>CX
CX=
0.1154
>>PX=corrcoef(X)
PX=
1
>>Pxy=corrcoef(X,Y)
Pxy=
1.0000-0.7418
-0.74181.0000
方差分析及回归分析
方差分析、回归分析是分析实验数据的一种方法,是数理统计中的一个重要分支。
它可以通过数据的分析,弄清除与研究对象有关的各个因素以及他们之间相互作用的影响,其线性模型的一般形式为
其中y为实验中观测值向量,x为模型的系数矩阵,β为参数向量,ε为随机误差向量
函数分类
函数
功能
方差分析
anoval1
单因素方差分析
anoval2
多因素方差分析
回归分析
regress
多重线性回归
lscov
给定方差矩阵回归
ridge
岭回归
stepwise
逐步回归
多项式回归
ployfit
多项式拟合
ployval
多项式预测
ployconf
给出置信区间的多项式预测
1.在Matlab统计工具箱中使用命令regress()实现多元线性回归,调用格式为
b=regress(y,x)
或
[b,bint,r,rint,statsl=regess(y,x,alpha)
其中因变量数据向量y和自变量数据矩阵x按以下排列方式输入
对一元线性回归,取k=1即可。
alpha为显著性水平(缺省时设定为0.05),输出向量b,
bint为回归系数估计值和它们的置信区间,r,
rint为残差及其置信区间,
stats是用于检验回归模型的统计量,有三个数值,第一个是R2,其中R是相关系数,第二个是F统计量值,第三个是与统计量F对应的概率P,当P<α时拒绝H0,回归模型成立。
画出残差及其置信区间,用命令rcoplot(r,rint)
例4:
已知某湖八年来湖水中COD浓度实测值(y)与影响因素湖区工业产值(x1)、总人口数(x2)、捕鱼量(x3)、降水量(x4)资料,建立污染物y的水质分析模型。
(1)输入数据
x1=[1.376,1.375,1.387,1.401,1.412,1.428,1.445,1.477]
x2=[0.450,0.475,0.485,0.500,0.535,0.545,0.550,0.575]
x3=[2.170,2.554,2.676,2.713,2.823,3.088,3.122,3.262]
x4=[0.8922,1.1610,0.5346,0.9589,1.0239,1.0499,1.1065,1.1387]
y=[5.19,5.30,5.60,5.82,6.00,6.06,6.45,6.95]
(2)保存数据(以数据文件.mat形式保存,便于以后调用)
savedatax1x2x3x4y
loaddata(取出数据)
(3)执行回归命令
x=[ones(8,1),x1’,x2’,x3’,x4’];
[b,bint,r,rint,stats]=regress(y’,x);
得结果:
b=(-13.9849,13.1920,2.4288,0.0754,-0.1897)’
stats=(0.9846,47.9654,0.0047)
即
=-13.9849+13.1920xl+2.4288x2+0.0754x3-0.1897x4
R2=0.9846,F=47.9654,P=0.0047
2. 多项式曲线拟合函数:
polyfit()
调用格式:
p=polyfit(x,y,n)
[p,s]=polyfit(x,y,n)
说明:
x,y为数据点,n为多项式阶数,返回p为幂次从高到低的多项式系数向量p。
矩阵s用于生成预测值的误差估计。
(见下一函数polyval)
例2:
由离散数据
x
0
.1
.2
.3
.4
.5
.6
.7
.8
.9
1
y
.3
.5
1
1.4
1.6
1.9
.6
.4
.8
1.5
2
拟合出多项式。
程序:
x=0:
.1:
1;
y=[.3.511.41.61.9.6.4.81.52]
n=3;
p=polyfit(x,y,n)
xi=linspace(0,1,100);
z=polyval(p,xi);%多项式求值
plot(x,y,’o’,xi,z,’k:
’,x,y,’b’)
legend(‘原始数据’,’3阶曲线’)
结果:
p=
16.7832-25.745910.9802-0.0035
多项式为:
16.7832x3-25.7459x2+10.9802x-0.0035
曲线拟合图形:
也可由函数给出数据。
例3:
x=1:
20,y=x+3*sin(x)
程序:
x=1:
20;
y=x+3*sin(x);
p=polyfit(x,y,6)
xi=1inspace(1,20,100);
z=polyval(p,xi);%多项式求值函数
plot(x,y,’o’,xi,z,’k:
’,x,y,’b’)
legend(‘原始数据’,’6阶曲线’)
结果:
p=
0.0000-0.00210.0505-0.59713.6472-9.729511.3304
再用10阶多项式拟合
程序:
x=1:
20;
y=x+3*sin(x);
p=polyfit(x,y,10)
xi=linspace(1,20,100);
z=polyval(p,xi);
plot(x,y,'o',xi,z,'k:
',x,y,'b')
legend('原始数据','10阶多项式')
结果:
p=
Columns1through7
0.0000-0.00000.0004-0.01140.1814-1.806511.2360
Columns8through11
-42.086188.5907-92.815540.2671
可用不同阶的多项式来拟合数据,但也不是阶数越高拟合的越好。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 工具箱