模式识别概率密度估计.ppt
- 文档编号:2641698
- 上传时间:2022-11-04
- 格式:PPT
- 页数:86
- 大小:1.34MB
模式识别概率密度估计.ppt
《模式识别概率密度估计.ppt》由会员分享,可在线阅读,更多相关《模式识别概率密度估计.ppt(86页珍藏版)》请在冰豆网上搜索。
1第三章概率密度函数的估计2前一章我们讨论了各种决策规则,在设计分类器时,总是假定先验概率和类条件密度函数是已知的。
在实际工作中,先验概率和类条件密度函数都可能未知。
需要利用样本设计分类器。
3利用样本设计分类器的方法有两种:
1)从样本中估计先验概率和类条件密度函数,然而按前一章的方法2)不作估计,直接利用样本设计分类器在用第一种方法时,需要从收集的样本中去估计先验概率和类条件密度函数。
这就要用到估计理论。
讨论如何估计(估计的方法),估计的好坏、性质。
4从样本中估计概率密度函数时,有以下一些情况:
概率密度估计参数估计(分布形式已知,但参数要估计)非参数估计(分布形式未知,直接估计密度函数)有监督的参数估计(样本类别已知)无监督的参数估计(样本类别未知)最大似然估计(把待估参数看作是确定的)贝叶斯估计(把待估参数看作是随机的)Parzen窗估计KN近邻估计KN近邻分类法5参数估计中的一些基本概念:
1)统计量:
针对不同的要求所构造的样本的函数,包含了总体的信息;2)参数空间:
未知参数全部可允许值的集合;3)点估计:
构造一个统计量作为待估参数的值,即估计参数值;4)区间估计:
估计待估参数可能取值的区间。
63.1常数参数的估计一般要估计的参数可能是标量、向量、矩阵。
不失一般性,假定待估参数是向量。
在最大似然估计中,把待估参数看作是确定的常数。
而贝叶斯估计则把看作是随机变量,它的先验密度是已知的。
7一.最大似然估计令是随机向量x的密度函数中的向量参数(其分量是标量)。
记x的密度函数为,令是观测x所得到的N个样本。
在估计问题中,这些样本本身也是随机变量,可以用一个联合密度函数表示。
假定这些样本是独立的。
是的函数。
它是的似然函数。
8只要导数存在,使似然函数最大的可以通过解下面的似然方程或对数似然方程得到:
的最大似然估计是,在N个观测样本的基础上,选择这样的,它使似然函数最大。
换句话说,选择的应使落在(样本)的附近小区域内最大。
(当均匀分布时,发生概率最大)N个观测样本9由于对数函数是单调增的,所以这两个方程完全是等价的。
用时哪个方便,就用哪个。
例例11:
计算机通道输出请求出现率的估计假定计算机的某一通道输出请求的时间间隔T按如下的指数函数分布:
假定观察了N+1个请求,间隔时间为,希望估计参数的大小(称为到达率)10解解:
输出请求间的间隔假定为独立的。
似然函数(联合密度函数)为而(对数似然方程)11例例22:
多元正态密度函数均值的估计。
(上面的例子估计了一个标量参数,本例估计一个向量参数。
)已知随机变量x是正态分布的,协方差矩阵K已知,均值m未知。
给出N个样本x
(1),x
(2),x(N),求均值的最大似然估计。
解解:
似然函数是样本的联合密度函数12对数似然函数为样本联合密度函数的对数:
将上式对m求导并令它等于0,有K是一个常数矩阵即均值的最大似然估计等于样本均值。
13例例33:
已知x服从均匀分布似然函数为解解:
给出了N个样本x
(1),x
(2),x(N)在用求导数的方法解似然方程时(求极值),有时可能遇到一些问题:
有多个极值点;或没有极值点。
下面看一个例子。
14对数似然函数为欲使上两式等于0,必须无穷大才行。
而因为不能大于最小的样本值不能小于最大的样本值15同时为使似然函数最大,要最小,而最小的可能值是。
,(似然函数在最大值的地方没有零斜率)16二.估计量的性质估计量的性质(注意语言中的断句、分词)(注意语言中的断句、分词)参数的一个估计量是样本的函数:
所以估计量本身也是一个随机向量。
因此可以在统计的意义上描述它的性质,建立评价“估计好坏”的标准。
1.无偏性(unbiased)若,则称是无偏的,否则称为有偏的。
若,则称是渐进无偏的。
172.一致性(consistent)若对任意小的正数,有称估计的序列为在概率上收敛于。
则称是一致的。
()有的人定义一致性为()这称为在均方(meansquare)意义上收敛于。
183.有效性(efficient)若和都是的估计当时,称估计比有效。
样本容量N固定使取得最小值的估计在大多数情况下,可以认为这两种定义等价。
实际上,()的定义比()更强。
即当称为的有效估计。
19*Cramer-Rao定理:
如果是的任一无偏估计,则估计的任一分量的方差满足式中,是下面矩阵J的逆矩阵的对角线元素:
如果是无偏的,且比有效,则是一致估计。
可以证明,最大似然估计是一致的。
()矩阵J称为Fisher信息矩阵。
20满足()或()的等式的估计是所有估计中最有效的,称为最小方差估计。
当最小方差估计存在时,它一定是最大似然估计。
称为CramerRao不等式。
当是标量时,()式化为()21*证明:
由于是无偏的,有是最小方差估计的必要和充分条件是:
式中是一个矩阵,它的元素是的函数,但不能是的函数。
22将上式对求导,有a23由前面的定义()构造一个随机向量由()式和有:
24由于相关矩阵是半正定的,上式的行列式大于、等于0(i+1)+1+i+1=2i+3奇数25式中是J的i行i列的代数余子式。
,J的逆矩阵的对角线元素。
当为最小方差估计时,相关矩阵的行列式为0,zi的分量是线性相关的,所以有例例44:
例2中关于均值的估计是无偏的。
解解:
26若各个样本xx(i)是独立的,它们也是不相关的,所以估计的协方差矩阵是的协方差减小。
27它比有效。
又由于无偏是m的最小方差估计。
是m的一致估计。
又由于具有的形式。
28如果对待估参数有一些先验知识,这时可以把待估参数看作一个随机向量,用一个密度函数来刻画,那么这时可以使用贝叶斯估计。
3.2贝叶斯估计最大似然估计把待估参数看作确定的量,它用于对未知参数没有先验知识或不愿意作某些假定的时候。
贝叶斯估计和贝叶斯决策是一样的思路。
一.贝叶斯估计29引入一个连续的损失函数,定义贝叶斯风险为:
式中(贝叶斯风险)(条件风险)30这时,若假定是非负的,也是非负的,最小和最小R是等价的。
而使它们最小的估计称贝叶斯估计。
注意它和前面的是不同的。
这里是参数。
是联合密度函数31前式是一样的。
对于所有实际的应用用符号“”是为了表示是一个随机向量。
32二.常用的损失函数,均方估计和最大后验估计为了求贝叶斯估计,我们需要先定义(先给出)损失函数的形式。
不同的损失函数会带来不同的贝叶斯估计值。
下面分析两种常用的损失函数的形式。
1.平方误差损失函数和均方估计,误差的二次函数33而为了得到使最小的,只要即估计是的后验密度的均值。
这个估计称为均方估计,因为它使均方误差最小。
34求解均方估计的步骤可以归纳如下:
1)确定的先验分布;而2)由样本集,求联合分布;3)利用贝叶斯公式,求的后验分布4)求352.均匀损失函数和最大后验估计损失函数为当时,这时当时,36区域是,任意小,这样,为使最小,积分项应最大。
而积分项,所以应使最大,称为最大后验估计。
由贝叶斯公式如果先验概率是均匀的(在感兴趣区),这时最大等价于最大。
这时最大后验估计即最大似然估计。
37例例55:
正态分布均值的贝叶斯估计令x
(1),x
(2),x(N)是从已知协方差矩阵Kx和未知均值m的正态分布中抽取的。
假定均值本身的分布为正态N(m0,Km)分布(先验密度)利用贝叶斯公式,可得后验密度,是正态的,其均值为38由于既是后验密度的均值,也是后验密度的最大值,所以既是均方估计也是最大后验估计当都是一维时有:
3940样本均值和先验均值的线性组合,系数和为1,且都是正的。
411)当N0时,,全部由先验均值定2)当时,由样本均值定3)当时,先验信息非常可靠,4)当时,先验的推测不可靠,5)一般情况下,c为小于无穷大的非负实数,当样本足够多时,对、m0的假设就不重要了,由先验均值定由样本均值定42这节讨论直接从样本中估计密度函数的方法。
主要介绍两种方法:
3.3概率密度函数估计的非参数方法(非参数估计)前两节讲的参数估计方法要求(假定)密度函数的形式是已知的。
但实际工作中往往是:
1.密度函数的形式不知道;2.密度函数的形式不是典型的常见分布,不能写成某些参数的函数。
43一.Parzen窗估计Parzen窗法KN近邻法先估计类条件密度函数,然后用在似然比检验中由类条件密度函数的估计,直接导致似然比检验1.基本思路(以一维随机变量的密度函数的估计为例)对随机变量x,假定得到了N个独立的样本,x
(1),x
(2),x(N),它的密度函数p(x)可以用一个直方图近似,每一小区间的宽度为,中点为。
44样本落在小区间内的概率可以近似为如果样本数足够多,则概率(上述事件)可以用频率()近似。
所以密度可以用近似。
45把上述的思路一般化,定义如下的窗函数:
则是以为中心的x的函数。
对落在内的样本,其函数值均为,对落在方窗外的样本,函数值为0。
46这时一个样本贡献,共有K个,换个角度,即是N个窗的迭加。
函数r称为核函数,势函数或者Parzen窗函数。
核函数(窗函数)也可以是其它的形状,常用的有4748矩形窗估计出的容易产生不连续(钉子状,spiked)为了满足使估计出的是正的,而且积分为1(是密度函数),窗函数要满足:
下面对上述方法作些理论和实际应用上的分析。
如果把区间2h(在多维时是体积V)固定,当样本数越来越多时,概率,但得到的密度却是空间的平均值,而非某一点的;49要得到,而不是的平均值,则体积V(2h)0,但当V0时,若样本数有限,则假定有相当多的样本N可以利用。
这时由于,下标表示总样本数。
50这时若满足:
窗函数若满足:
使空间平均密度点的频率收敛于概率落在小区域内的样本同总数相比是低阶无穷大51(比更快的0)这时,是渐近无偏和均方一致的。
2.随机向量密度函数的估计(定量的分析,另种分析方法)有一随机向量x,R是包含待估密度点的一个小区域。
记x在R内的概率P,根据积分中值定理,为式中是区域R的体积。
而是区域R中的某一点。
52当是连续的,且R取的足够小时,有,所以为了从一组样本x
(1),x
(2),x(N)中估计P,我们要看N个样本中有多少落在区域R内。
假定各样本独立,则N个样本中有K个落在R中的概率服从二项分布:
()53上述二项分布的均值和方差为:
P的最大似然估计,是要求,使得()最大。
对()求导,并令其等于0,有54这个估计是无偏的,这个估计也是一致的,(无偏且有效)因为估计的方差为当N变大时,方差变为无限小,所以有效,无偏且有效一致估计。
55由估计出的,有Parzen窗估计定义区域R是超立方体:
定义核函数为:
而()56这时()式为核函数的选择和一维时一样,也可选择其它的函数,如57在选择核函数或核函数的参数时,应该注意的是:
若核函数太“窄”,则估计出的密度有可能不连续,呈现钉子状;若核函数太“宽”,则估计出的密度有可能太平滑,不能显示分布的细节。
在实际问题中,核函数的选择取决于1)待估密度函数的形式;2)样本数的多少。
58二.KN近邻估计在Parzen窗估计中,由于核和体积是固定的,所以若样本分布不均匀,就不能得到满意的估计。
解决的办法是:
不使用固定的区域,而是固定落在区域内的样本数,例如KN个,而区域则由的邻域中正好包含KN个样本定。
之所以用符号KN,表示K的选择和总样本数有关。
当把KN近邻法估计出的密度函数直接用于分类时,可以导致非常简单和有效的分类法。
59这样作的好处是:
KN近邻估计的公式仍然为:
样本多的地方,体积用的小些,提高分辨率;样本少的地方,体积用的大些,中间补些值,平滑一些。
60近邻法在以下的条件下,将收敛于61三.近邻分类法以两类问题为例,1和2。
定义体积V是一个超球,中心在,半径是r,区域是:
令每类的超球的半径所确定的超球正好包含该类的K个样本。
是前面讲过的任一种距离。
令Ni(i1,2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别 概率 密度 估计