书签分享收藏举报版权申诉 / 15

立即下载加入VIP,免费下载

当前位置：首页 > 人文社科 > 文学研究 > 统计工具箱.docx

统计工具箱.docx

文档编号：25000061
上传时间：2023-06-03
格式：DOCX
页数：15
大小：89.77KB

统计工具箱.docx

《统计工具箱.docx》由会员分享，可在线阅读，更多相关《统计工具箱.docx（15页珍藏版）》请在冰豆网上搜索。

统计工具箱.docx

统计工具箱

七．统计工具箱的简介

7．1统计工具箱的功能及应用步骤

1．基本功能

（1）提供了常见的20多中概率分布的分布密度函数、分布函数逆分布函数，参数估计函数和随机数生成函数；

（2）提供多种概率分布的分布参数和置信区间的估计方法；

（3）提供包括单因子方差分析、双因子方差分析和多因子方差分析方法；

（4）提供多元线性回归，非线性回归，一般线性拟合，多项式拟合等功能；

（5）提供多种有效的假设检验，分布的检验，非参数检验等功能；

（6）提供多种判别分析，主成分分析，因子分析等方法。

2．应用步骤

（1）根据实际中所研究的概率统计问题，建立问题的数学模型，选择适当的概率分布密度函数合分布函数，对有关的概率分布参数作相应的估计；

（2）对所需要的数学模型作适当的回归或拟合；

（3）对所建立的模型作必要的分析和检验；

6．2统计工具箱的函数使用方法

1常见分布的随机数产生

常见分布的随机数的使用格式与上面相同

表4-1随机数产生函数表

函数名

调用形式

注释

Unifrnd

unifrnd（A,B,m,n）

[A,B]上均匀分布（连续）随机数

Unidrnd

unidrnd（N,m,n）

均匀分布（离散）随机数

Exprnd

exprnd（Lambda,m,n）

参数为Lambda的指数分布随机数

Normrnd

normrnd（MU,SIGMA,m,n）

参数为MU，SIGMA的正态分布随机数

chi2rnd

chi2rnd（N,m,n）

自由度为N的卡方分布随机数

Trnd

trnd（N,m,n）

自由度为N的t分布随机数

Frnd

frnd（N1,N2,m,n）

第一自由度为N1,第二自由度为N2的F分布随机数

gamrnd

gamrnd（A,B,m,n）

参数为A,B的

分布随机数

betarnd

betarnd（A,B,m,n）

参数为A,B的

分布随机数

lognrnd

lognrnd（MU,SIGMA,m,n）

参数为MU,SIGMA的对数正态分布随机数

nbinrnd

nbinrnd（R,P,m,n）

参数为R，P的负二项式分布随机数

ncfrnd

ncfrnd（N1,N2,delta,m,n）

参数为N1，N2，delta的非中心F分布随机数

nctrnd

nctrnd（N,delta,m,n）

参数为N，delta的非中心t分布随机数

ncx2rnd

ncx2rnd（N,delta,m,n）

参数为N，delta的非中心卡方分布随机数

raylrnd

raylrnd（B,m,n）

参数为B的瑞利分布随机数

weibrnd

weibrnd（A,B,m,n）

参数为A,B的韦伯分布随机数

binornd

binornd（N,P,m,n）

参数为N,p的二项分布随机数

geornd

geornd（P,m,n）

参数为p的几何分布随机数

hygernd

hygernd（M,K,N,m,n）

参数为M，K，N的超几何分布随机数

Poissrnd

poissrnd（Lambda,m,n）

参数为Lambda的泊松分布随机数

2.常见的概率密度分布函数，见下表：

分布类型

数学表达式

调用函数

说明

二项分布B（n,p）

Y=binopdf（X,N,P）

N为正整数，

0

泊松分布P（λ）

Y=poisspdf（X,Lambda）

X为非负整数

连续均匀分布U（a,b）

Y=unifpdf（X,A,B）

A

正态分布

Y=normpdf（X,Mu,Sigma）

Sigma>0

指数分布

Y=exppdf（X,Mu）

Mu>0

例1．计算正态分布

>>x=[-2:

0.1:

2];

>>f=normpdf（x,0,1）

f=

Columns1through10

0.05400.06560.07900.09400.11090.12950.14970.17140.19420.2179

Columns11through20

0.24200.26610.28970.31230.33320.35210.36830.38140.39100.3970

Columns21through30

0.39890.39700.39100.38140.36830.35210.33320.31230.28970.2661

Columns31through40

0.24200.21790.19420.17140.14970.12950.11090.09400.07900.0656

Column41

1.0540

画出图像：

>>plot（x,f）

2.累积分布函数与逆累积分布函数

累积分布函数（cdf）与逆累积分布函数（icdf或inv）

分布类型

数学表达式

累积分布函数

逆累积分布函数

二项分布B（n,p）

B=binocdf（X,N,P）

X=binoinv（B,N,P）

泊松分布P（λ）

P=poisscdf（X,Lambda）

X=Poissinv（P,Lambda）

连续均匀分布U（a,b）

U=unifcdf（X,A,B）

X=unifinv（U,A,B）

正态分布

N=normcdf（X,Mu,Sigma）

X=norminv（N,Mu,Sigma）

指数分布

E=expcdf（X,Mu）

X=expinv（E,Mu）

例2．用正态分布说明cdf与inv函数之间的关系

>>x=[-2:

0.5:

2];

>>xnew=norminv（normcdf（x,0,1）,0,1）;

>>x

x=

-2.0000-1.5000-1.0000-0.500000.50001.00001.50002.0000

>>xnew

xnew=

-2.0000-1.5000-1.0000-0.500000.50001.00001.50002.0000

例3．利用逆累积分布函数计算正态分布的80%置信区间

>>p=[0.013,0.813];

>>x=norminv（p,0,1）

x=

-2.22620.8890

3．参数估计

参数估计式统计推断问题，即当总体分布的数学形式已知，用有限个参数表示估计的问题。

它可以分为点估计和区间估计两个方面。

在参数模型中，最常用的是极大似然法。

统计工具箱采用极大似然法给出了常用的概率分布模型参数的点估计和区间估计值。

其函数通常以”fit”结尾。

常用分布的参数估计函数

表4-7参数估计函数表

函数名

调用形式

函数说明

binofit

PHAT=binofit（X,N）

[PHAT,PCI]=binofit（X,N）

[PHAT,PCI]=binofit（X,N,ALPHA）

二项分布的概率的最大似然估计

置信度为95%的参数估计和置信区间

返回水平α的参数估计和置信区间

poissfit

Lambdahat=poissfit（X）

[Lambdahat,Lambdaci]=poissfit（X）

[Lambdahat,Lambdaci]=poissfit（X,ALPHA）

泊松分布的参数的最大似然估计

置信度为95%的参数估计和置信区间

返回水平α的λ参数和置信区间

normfit

[muhat,sigmahat,muci,sigmaci]=normfit（X）

[muhat,sigmahat,muci,sigmaci]=normfit（X,ALPHA）

正态分布的最大似然估计，置信度为95%

返回水平α的期望、方差值和置信区间

betafit

PHAT=betafit（X）

[PHAT,PCI]=betafit（X,ALPHA）

返回β分布参数a和b的最大似然估计

返回最大似然估计值和水平α的置信区间

unifit

[ahat,bhat]=unifit（X）

[ahat,bhat,ACI,BCI]=unifit（X）

[ahat,bhat,ACI,BCI]=unifit（X,ALPHA）

均匀分布参数的最大似然估计

置信度为95%的参数估计和置信区间

返回水平α的参数估计和置信区间

expfit

muhat=expfit（X）

[muhat,muci]=expfit（X）

[muhat,muci]=expfit（X,alpha）

指数分布参数的最大似然估计

置信度为95%的参数估计和置信区间

返回水平α的参数估计和置信区间

gamfit

phat=gamfit（X）

[phat,pci]=gamfit（X）

[phat,pci]=gamfit（X,alpha）

γ分布参数的最大似然估计

置信度为95%的参数估计和置信区间

返回最大似然估计值和水平α的置信区间

weibfit

phat=weibfit（X）

[phat,pci]=weibfit（X）

[phat,pci]=weibfit（X,alpha）

韦伯分布参数的最大似然估计

置信度为95%的参数估计和置信区间

返回水平α的参数估计及其区间估计

Mle

phat=mle（'dist',data）

[phat,pci]=mle（'dist',data）

[phat,pci]=mle（'dist',data,alpha）

[phat,pci]=mle（'dist',data,alpha,p1）

分布函数名为dist的最大似然估计

置信度为95%的参数估计和置信区间

返回水平α的最大似然估计值和置信区间

仅用于二项分布，pl为试验总次数

说明各函数返回已给数据向量X的参数最大似然估计值和置信度为（1-α）×100%的置信区间。

α的默认值为0.05，即置信度为95%。

常用的数据样本统计量函数

对于实际采集到的样本数据，常常要用一些统计量来描述数据的分布情况，即研究数据的集中程度和分散程度，并通过这些统计量来对数据的总体特征进行分析研究。

函数

功能

函数

功能

Max

最大元素

mad

平均绝对偏差

Min

最小元素

range

样本极差

Sum

元素和

std

标准差

Sort

递增排序

moment

任意阶中心矩

Geomean

几何均值

cov

协方差矩阵

Harmmean

调和均值

corrcoef

相关系数

Mean

算术平均值

median

中位元素

Var

方差

例3．求随机矩阵X和Y的协方差和相关系数

>>rand（'seed',0）

>>X=rand（10,1）;

>>Y=rand（10,1）;

>>CX=cov（X）;

>>CY=cov（Y）;

>>Cxy=cov（X,Y）

Cxy=

0.1154-0.0764

-0.07640.0919

>>CX

CX=

0.1154

>>PX=corrcoef（X）

PX=

1

>>Pxy=corrcoef（X,Y）

Pxy=

1.0000-0.7418

-0.74181.0000

方差分析及回归分析

方差分析、回归分析是分析实验数据的一种方法，是数理统计中的一个重要分支。

它可以通过数据的分析，弄清除与研究对象有关的各个因素以及他们之间相互作用的影响，其线性模型的一般形式为

其中y为实验中观测值向量，x为模型的系数矩阵，β为参数向量，ε为随机误差向量

函数分类

函数

功能

方差分析

anoval1

单因素方差分析

anoval2

多因素方差分析

回归分析

regress

多重线性回归

lscov

给定方差矩阵回归

ridge

岭回归

stepwise

逐步回归

多项式回归

ployfit

多项式拟合

ployval

多项式预测

ployconf

给出置信区间的多项式预测

1.在Matlab统计工具箱中使用命令regress（）实现多元线性回归，调用格式为

b=regress（y，x）

或

[b，bint，r，rint，statsl=regess（y，x，alpha）

其中因变量数据向量y和自变量数据矩阵x按以下排列方式输入

对一元线性回归，取k=1即可。

alpha为显著性水平（缺省时设定为0.05），输出向量b，

bint为回归系数估计值和它们的置信区间，r，

rint为残差及其置信区间，

stats是用于检验回归模型的统计量，有三个数值，第一个是R2，其中R是相关系数，第二个是F统计量值，第三个是与统计量F对应的概率P，当P<α时拒绝H0，回归模型成立。

画出残差及其置信区间，用命令rcoplot（r，rint）

例4：

已知某湖八年来湖水中COD浓度实测值（y）与影响因素湖区工业产值（x1）、总人口数（x2）、捕鱼量（x3）、降水量（x4）资料，建立污染物y的水质分析模型。

（1）输入数据

x1=[1.376,1.375,1.387,1.401,1.412,1.428,1.445,1.477]

x2=[0.450,0.475,0.485,0.500,0.535,0.545,0.550,0.575]

x3=[2.170,2.554,2.676,2.713,2.823,3.088,3.122,3.262]

x4=[0.8922,1.1610,0.5346,0.9589,1.0239,1.0499,1.1065,1.1387]

y=[5.19,5.30,5.60,5.82,6.00,6.06,6.45,6.95]

（2）保存数据（以数据文件.mat形式保存，便于以后调用）

savedatax1x2x3x4y

loaddata（取出数据）

（3）执行回归命令

x=[ones（8,1），x1’,x2’,x3’,x4’]；

[b，bint，r，rint，stats]=regress（y’,x）;

得结果：

b=（-13.9849，13.1920，2.4288，0.0754，-0.1897）’

stats=（0.9846，47.9654，0.0047）

即

=-13.9849+13.1920xl+2.4288x2+0.0754x3-0.1897x4

R2=0.9846，F=47.9654，P=0.0047

2. 多项式曲线拟合函数：

polyfit（）

调用格式：

p=polyfit（x,y,n）

[p,s]=polyfit（x,y,n）

说明：

x,y为数据点，n为多项式阶数，返回p为幂次从高到低的多项式系数向量p。

矩阵s用于生成预测值的误差估计。

（见下一函数polyval）

例2：

由离散数据

x

0

.1

.2

.3

.4

.5

.6

.7

.8

.9

1

y

.3

.5

1

1.4

1.6

1.9

.6

.4

.8

1.5

2

拟合出多项式。

程序：

x=0:

.1:

1;

y=[.3.511.41.61.9.6.4.81.52]

n=3;

p=polyfit（x,y,n）

xi=linspace（0,1,100）;

z=polyval（p,xi）;%多项式求值

plot（x,y,’o’,xi,z,’k:

’,x,y,’b’）

legend（‘原始数据’,’3阶曲线’）

结果：

p=

16.7832-25.745910.9802-0.0035

多项式为：

16.7832x3-25.7459x2+10.9802x-0.0035

曲线拟合图形：

也可由函数给出数据。

例3：

x=1:

20,y=x+3*sin（x）

程序：

x=1:

20;

y=x+3*sin（x）;

p=polyfit（x,y,6）

xi=1inspace（1,20,100）;

z=polyval（p,xi）;%多项式求值函数

plot（x,y,’o’,xi,z,’k:

’,x,y,’b’）

legend（‘原始数据’,’6阶曲线’）

结果：

p=

0.0000-0.00210.0505-0.59713.6472-9.729511.3304

再用10阶多项式拟合

程序：

x=1:

20;

y=x+3*sin（x）;

p=polyfit（x,y,10）

xi=linspace（1,20,100）;

z=polyval（p,xi）;

plot（x,y,'o',xi,z,'k:

',x,y,'b'）

legend（'原始数据','10阶多项式'）

结果：

p=

Columns1through7

0.0000-0.00000.0004-0.01140.1814-1.806511.2360

Columns8through11

-42.086188.5907-92.815540.2671

可用不同阶的多项式来拟合数据，但也不是阶数越高拟合的越好。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 统计工具箱

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：统计工具箱.docx
链接地址：https://www.bdocx.com/doc/25000061.html

统计工具箱.docx

热门标签