最小风险的Bayes决策.pptx
- 文档编号:30845218
- 上传时间:2024-02-02
- 格式:PPTX
- 页数:46
- 大小:1.35MB
最小风险的Bayes决策.pptx
《最小风险的Bayes决策.pptx》由会员分享,可在线阅读,更多相关《最小风险的Bayes决策.pptx(46页珍藏版)》请在冰豆网上搜索。
最小风险的最小风险的BayesBayes决策决策让错误率最小的Bayes决策是重要的但,错误率最小的Bayes决策是否最佳?
正常细胞误判为癌细胞癌细胞误判为正常细胞不同性质的错误会引起不同程度的损失(后果)评价决策的优劣:
总损失比总错误率更恰当最小风险的最小风险的BayesBayes决策就是把各决策就是把各种分类错误而引起的损失考虑进种分类错误而引起的损失考虑进去的去的BayesBayes决策法则决策法则1风险的表示风险的表示例:
例:
病理切片X,要确定其中有没有癌细胞(用1表示正常,2表示异常)P(1|X)与P(2|X)分别表示了两种可能性的大小若X为正常细胞,判断为2,损失为21若X为癌细胞,判断为1,损失为12X判断为1,其风险R1(X)=12P(2|X)X判断为2,其风险R2(X)=21P(1|X)损失和误判概率的加权和可损失和误判概率的加权和可以有效的表示决策风险以有效的表示决策风险2决策空间的相关符号决策空间的相关符号n观察向量观察向量n状态空间状态空间n决策空间决策空间n损失函数损失函数n期望损失(条件风险)期望损失(条件风险)(A)311,.,.,Tddxxxx=x为一随机向量11,.,.,TcccwwwwW=为个自然状态11,.,.,Taaaaaaa=为个决策状态A():
),jijijilawwla真实状态为而判断为的损失(1(|)(,)(,)(|)iijcijjjRXEPXalawlaww=最小风险的最小风险的BayesBayes决策规则决策规则n最小风险的最小风险的BayesBayes决策规则:
使期望损失决策规则:
使期望损失最小的决策状态即为最小风险的最小的决策状态即为最小风险的BayesBayes决策决策n定义期望风险定义期望风险:
最小风险的最小风险的BayesBayes决策使平均决策使平均风险最风险最小小!
期望风险期望风险R反映对整个特征反映对整个特征空间上所有的空间上所有的X的取值采用的取值采用相应的决策相应的决策(x)所带来的平均风险4(|)iRXaia()()(|)()RXRXpdXXXa=最小风险的最小风险的BayesBayes决策规则步骤决策规则步骤
(1)在已知)在已知P(j),P(X|j),j=1,,c及给出待识别的及给出待识别的X的情况下,的情况下,根据贝叶斯公式计算出后验概率:
根据贝叶斯公式计算出后验概率:
(2)利用计算出的后验概率及决策表,计算出采取)利用计算出的后验概率及决策表,计算出采取i,i=1,,a的条件风的条件风险险(3)对对
(2)
(2)中得到的中得到的aa个条件风险值个条件风险值R(i|X),i=1,R(i|X),i=1,,aa进行比较,找进行比较,找出使条件风险最小的决策出使条件风险最小的决策kk,则,则kk就是最小风险贝叶斯决策就是最小风险贝叶斯决策51(|)()(|),1,.,(|)()jjjcjjjpXPPXjcpXPwwwww=1(|)(,)(|),1,.,ciijjjRXPXiaalaww=1.(|)min(|)kiiaRXRXaa=例状态状态损失损失决策决策12120061决策表决策表n在例1条件的基础上,并且已知11=0,(11表示(1,1)的简写),12=6,21=1,22=0,按最小风险贝叶斯决策进行分类。
P
(1)0.9,P
(2)0.1p(X|1)0.2,p(X|2)0.46计算后验概率:
计算后验概率:
P(1|X)0.818,P(2|X)0.182计算条件风险:
计算条件风险:
找最小的条件风险:
找最小的条件风险:
最小风险的最小风险的BayesBayes决策为决策为22!
72111(|)(|)1.092jjjRXPXalw=2212(|)(|)0.818jjjRXPXalw=12(|)(|)RXRXaa决策规则的进一步探讨决策规则的进一步探讨n二类问题的决策规则二类问题的决策规则:
n另一种决策规则:
另一种决策规则:
n先验概率的决策规则:
先验概率的决策规则:
似然比似然比821(|)(|)RXRXaa1222221111()(|)()(|)PXPXllwllw-122222211111()()()()()()pPpPllwwllww-XX112222221111()()()=xi()()ijgxgx=(),1,2.,igxic=最小错误概率决策最小错误概率决策n判别函数的不同形式:
判别函数的不同形式:
12()(|)iigxPxw=()()()iiigxPxPww=()log()log()iiigxPxPww=+最小风险决策最小风险决策n判别函数判别函数n判别函数不唯一,更一般地,(其中判别函数不唯一,更一般地,(其中为为单调增函数)均可作为判别函数单调增函数)均可作为判别函数13()(|)iigxRxa-=()ifgx()fxBayesBayes分类器分类器14决策界决策界同一决策规同一决策规则则下判别函下判别函数形式可以数形式可以不同,但决不同,但决策界相同策界相同!
15()()ijgxgx=决策界决策界同一决策规同一决策规则则下判别函下判别函数形式可以数形式可以不同,但决不同,但决策界相同策界相同!
16()()ijgxgx=二类分类器二类分类器1712()(|)(|)gxPxPxww=-1122()()()loglog()()pxPgxpxPwwww=+12()()()gxgxgx=-例例有一家医院为了研究癌症的诊断,对一大批人作了一次普查,给有一家医院为了研究癌症的诊断,对一大批人作了一次普查,给每人打了试验针,然后进行统计,得到统计数字:
每人打了试验针,然后进行统计,得到统计数字:
(1)这批人中,每)这批人中,每1000人有人有5个癌症病人;个癌症病人;
(2)这批人中,每)这批人中,每100个正常人有个正常人有1人对试验的反应为阳性;人对试验的反应为阳性;(3)这批人中,每)这批人中,每100个癌症病人有个癌症病人有95人对试验的反应为阳人对试验的反应为阳性。
性。
假如正常人用表示,癌症病人用表示。
以试假如正常人用表示,癌症病人用表示。
以试验结果作为特征,特征值为阳或阴。
根据统计数字,得到如下验结果作为特征,特征值为阳或阴。
根据统计数字,得到如下概率:
概率:
现在有一某甲,试验结果为阳性,按最小错误率贝叶斯决现在有一某甲,试验结果为阳性,按最小错误率贝叶斯决策规则,问诊断结果是什么?
策规则,问诊断结果是什么?
181205.0)(95.0)(99.0)(01.0)(,005.0)(,995.0)(221121阴,阳,阴阳pppppp后验概率:
后验概率:
判决比较判决比较判断正常概率判断正常概率1911112222()()()()0.010.9950.00995()()()()0.950.0050.00475pxppppxpppwwwwwwww=阳阳1122(|)()(|)()pxppxpwwww1111122()()()()()()()0.010.99567.7%0.010.9950.950.005pppppppwwwwwww=+=阳阳阳阳风险评估假设假设11=0,12=3,21=1,22=0,按,按最小风险贝叶斯决策最小风险贝叶斯决策为某甲诊断:
为某甲诊断:
由于由于R1(X)R2(X)即决策为即决策为2的条件风险小于决策为的条件风险小于决策为1的条件风险,因此诊断某甲为的条件风险,因此诊断某甲为癌癌症病人。
症病人。
采用最小风险贝叶斯决策,采用最小风险贝叶斯决策,各种损失的确定是关键各种损失的确定是关键问题:
问题:
11=0,12=2,21=1,22=0,按最小风险贝叶斯决策的诊断,按最小风险贝叶斯决策的诊断又如何呢?
又如何呢?
2000995.0)()()()()(01425.0)()()()()(222211212221211111pxppxpxRpxppxpxR分别写出两种情况的决策面方程1.2.决策面方程决策面方程g(x)=0g(x)=021112212()(|)()(|)()0.995(|)0.005(|)gxpxppxppxpxwwwwww=-=-12199(|)(|)0pxpxww-=212111222111122212()(|)(|)(|)(|)(|)()(|)()199(|)3(|)0gxRxRxPxPxPxPPxPPxPxaalwlwlwwlwwww=-=-=-=-=前面介绍了在一般的概率统计分布情况下的前面介绍了在一般的概率统计分布情况下的统计决策理论,这一节我们要讨论最常用的统计决策理论,这一节我们要讨论最常用的正态分布情况正态分布情况在模式识别中,正态分布假设是对各种随机在模式识别中,正态分布假设是对各种随机变量使用得最普遍的假设变量使用得最普遍的假设这这主要有两方面的原因:
主要有两方面的原因:
11)正态分布在数学上比较简便)正态分布在数学上比较简便22)正态分布在物理上的合理性)正态分布在物理上的合理性正态分布的正态分布的BayesBayes决策法则决策法则22数学上简便性数学上简便性正态分布是数学上最简单的一种正态分布是数学上最简单的一种分布。
它的一些特殊情况揭示了统计判别方法中许分布。
它的一些特殊情况揭示了统计判别方法中许多重要的性质多重要的性质在模式识别技术的研究中,需要用训练样本集来设在模式识别技术的研究中,需要用训练样本集来设计分类器,还需用测试样本集来检验分类器的分类计分类器,还需用测试样本集来检验分类器的分类效果,并对不同的分类器的性能进行比较效果,并对不同的分类器的性能进行比较用正态分布模型描述训练样本集与测试样本集在数用正态分布模型描述训练样本集与测试样本集在数学上实现起来也比较方便学上实现起来也比较方便23物理上的合理性物理上的合理性如果同一类样本在特征空如果同一类样本在特征空间内的确较集中地分布在其类均值的附近,远间内的确较集中地分布在其类均值的附近,远离均值处分布较少,那么一般情况下以正态分离均值处分布较少,那么一般情况下以正态分布模型近似往往是比较合理的布模型近似往往是比较合理的人们也往往因数学分析复杂程度考虑而不得不人们也往往因数学分析复杂程度考虑而不得不采用这种模型,当然使用时应注意结果是否合采用这种模型,当然使用时应注意结果是否合理或关注其可接受的程度理或关注其可接受的程度24单变量正态分布单变量正态分布单变量正态分布单变量正态分布概率密度函数定义为:
概率密度函数定义为:
单变量正态分布概率密度函数单变量正态分布概率密度函数p(x)完全可由完全可由与与2两个参数确定,记作两个参数确定,记作N(,2)25222211()exp2()()
(2)()ExxpxdxExxpxxpxdxmsmmmsps-=轾-骣=-犏琪桫犏=-正态分布描述了一个随机实变量在整个实数域上的分布正态分布描述了一个随机实变量在整个实数域上的分布规律规律因此它属于因此它属于概率密度函数类概率密度函数类,不是我们所讨论的先验概,不是我们所讨论的先验概率率P(j),也不是后验概率,也不是后验概率P(j|X),而是,而是p(x|j)正态分布的样本主要集中分布在其均值附近,其分散正态分布的样本主要集中分布在其均值附近,其分散程度可用标准差来衡量,程度可用标准差来衡量,愈大分散程度也越大。
愈大分散程度也越大。
从从正态分布的总体中抽取样本,约有正态分布的总体中抽取样本,约有95%95%的样本都落在的样本都落在区间内,而且其峰值为区间内,而且其峰值为26(2,2)msms-+2/1)(p211(|)exp22jjjxPXmwsps轾骣-犏=-琪琪犏桫臌多元是指样本以多个变量来描述,或具有多个属性,一般多元是指样本以多个变量来描述,或具有多个属性,一般用用d维特征向量表示,维特征向量表示,Xx1,xdT。
d维特征维特征向量的正态分布用下式表示向量的正态分布用下式表示多维(元)正态分布:
多维(元)正态分布:
其中其中是是X的均值向量,也是的均值向量,也是d维,维,EX1,2,dT是是dd维协方差矩阵,而维协方差矩阵,而1是是的逆矩阵,的逆矩阵,|是是的行列式的行列式因为参数因为参数与与对分布具有决定性,记作对分布具有决定性,记作p(X)N(,)27112211()exp()()2
(2)Tdpmmp-轾=-犏臌XXX()()2TijijddEs轾=-=臌xx一个向量或矩阵的期望是由其元素的期望组成的一个向量或矩阵的期望是由其元素的期望组成的协方差矩阵有两个特性:
协方差矩阵有两个特性:
1.1.是一个对称矩阵:
是一个对称矩阵:
多维正态密度由多维正态密度由个参数决定个参数决定2.2.是正定的:
主对角元素都是各分量的方差,一般情况下都是正定的:
主对角元素都是各分量的方差,一般情况下都是大于零的值是大于零的值如果协方差矩阵中的所有非对角线元素均为零,则如果协方差矩阵中的所有非对角线元素均为零,则P(X)就变成就变成X的各分量的单变量正态密度的乘积的各分量的单变量正态密度的乘积28()2ij()()iiTijijExExxijms=-dddddd222122222212212122112
(1)2ddd+图示为一个二维正态密度的示意图,如果把图示为一个二维正态密度的示意图,如果把等概率密度点画出来,它们就是一族同心的等概率密度点画出来,它们就是一族同心的椭圆椭圆291.1.参数和对分布具有决定性:
从正态总体中参数和对分布具有决定性:
从正态总体中抽取的样本落在一个密集区域里抽取的样本落在一个密集区域里这个区域的中心由均值向量决定这个区域的中心由均值向量决定区域的形状由协方差矩阵决定区域的形状由协方差矩阵决定2.2.等密度点的轨迹为一超椭球面(可证明)等密度点的轨迹为一超椭球面(可证明)且超椭球面的主轴方向由的特征向量决定,且超椭球面的主轴方向由的特征向量决定,主轴的长度与相应的特征值成正比主轴的长度与相应的特征值成正比多元正态分布性质多元正态分布性质30m1()()TCmm-=XX112211()exp()()2
(2)TdpDmmp-轾=-=犏臌XXX把这个超椭球的中心平移到坐标原点,超椭球把这个超椭球的中心平移到坐标原点,超椭球的方程变为的方程变为设设X在超椭球上,在超椭球上,X到超椭球中心的距离为到超椭球中心的距离为求超椭球主轴的问题是一个求条件极值的问求超椭球主轴的问题是一个求条件极值的问题,构造题,构造Lagrange函数:
函数:
可得超椭球主轴的必要条件:
可得超椭球主轴的必要条件:
多元正态分布性质多元正态分布性质311TC-=XX12TXX1(,)()TTLCll-=-XXXXX10l-=XX为向量为向量X到均值向量的到均值向量的Mahalanobis距离距离(马哈诺比斯,马马哈诺比斯,马氏距)的平方氏距)的平方等概率密度点的轨迹是一个到均等概率密度点的轨迹是一个到均值向量的值向量的Mahalanobis距离距离为为常数的超椭球常数的超椭球记记3221()()Trmm-=-XXmm3.不相关不相关独立独立33112211()exp()()2
(2)Tdpmmp-轾=-犏臌gXXX2211()11()exp22()diiiiiiidiixppxmsps=轾-=-犏臌=gX多元正态分布下的最小错误率贝叶斯决策及其多元正态分布下的最小错误率贝叶斯决策及其判别函数和决策面判别函数和决策面对于最小错误率的贝叶斯决策,其类的判别函数为:
对于最小错误率的贝叶斯决策,其类的判别函数为:
由于对数函数是单值单调递增函数,并根据正态分布密度函由于对数函数是单值单调递增函数,并根据正态分布密度函数的特点,显然式中取自然对数更便于分析,于是类的判数的特点,显然式中取自然对数更便于分析,于是类的判别函数可以表示为别函数可以表示为:
由于判决是比较和的大小,去掉与类别无关的项不由于判决是比较和的大小,去掉与类别无关的项不会影响分类判别的结果,故可简化为会影响分类判别的结果,故可简化为34iw()()(),1,2,/iiigpicpww=xxLiw()igx()jgx()()()()111lnln22Tiiiiiigpw-=-S-S+xxx()()()()111ln2lnln222Tiiiiiidgppw-=-S-S+xxx()112211exp()()2)/(2Tiiiidipwmmp-轾=-犏臌xgXX三种不同情况的探讨:
三种不同情况的探讨:
1.第一种情况:
第一种情况:
各类分布的协方差矩阵相同,而且各特征统计独立且各类分布的协方差矩阵相同,而且各特征统计独立且有相同的方差有相同的方差,这时,协方差矩阵是对角阵,对角,这时,协方差矩阵是对角阵,对角线元素均为线元素均为代入判别函数代入判别函数得新判别函数为:
得新判别函数为:
为欧氏距离:
为欧氏距离:
352s2s22()ln()2iiigPmws-=+XXim-X221()()(),1.Tiiidjijjxicmmmm=-=-=-=XXX()()()()111lnln22Tiiiiiigpw-=-S-S+xxx222122.001|diiisssss-S=S=S=MOMLI,I=如果如果c个类的先验概率都相同,式中个类的先验概率都相同,式中项可忽略项可忽略这时最小错误概率的这时最小错误概率的Bayes决策法则可叙述为:
若要对模式决策法则可叙述为:
若要对模式X分类,只要测量出从待分类模式向量分类,只要测量出从待分类模式向量X到每一类均值向量到每一类均值向量的欧氏距离,然后把的欧氏距离,然后把X归到距离最近的那归到距离最近的那个均值向量所属的类别即可个均值向量所属的类别即可如果如果c个类的先验概率不相等,则表明距离的平方个类的先验概率不相等,则表明距离的平方必须用方差规范化后减去再用以分类必须用方差规范化后减去再用以分类在实际应用时,可以不计算欧氏距离:
把在实际应用时,可以不计算欧氏距离:
把展开后,可得判别函数:
展开后,可得判别函数:
36()iPwln()iPwim-X2im-X2sln()iPw()()Tiimm-XX0()Tiiigw=+XWX22()ln()2iiigPmws-=+XX21iims=W021ln()2TiiiiwPmmws=-+决策面由线性方程决策面由线性方程决定,决定,即即式中式中:
该方程式确定了通过该方程式确定了通过并正交于向量并正交于向量W的超平面。
如的超平面。
如图所示是一个二维二类模式的图所示是一个二维二类模式的例子。
如果例子。
如果,则点,则点就离开先验概率大的那就离开先验概率大的那个类的均值向量而朝先验概率个类的均值向量而朝先验概率较小的那类方向移动较小的那类方向移动决策规则为决策规则为37()()ijgg=XX00()T=-XXWijmm=-W202()1()ln()2()iijijjijPPwsmmmmwmm=-X()()ijPPww0X()max(),1.kjjggjc=XX此时判别函数变为:
此时判别函数变为:
1)若各类的先验概率相等,则也可以忽略)若各类的先验概率相等,则也可以忽略,这时决策法则可以这样描述:
,这时决策法则可以这样描述:
对一个模式分类,计算它与每一类均值向量间的对一个模式分类,计算它与每一类均值向量间的Mahalanobis距离平方距离平方,而后把它分到与之最近的均值向量所属的类别中去即可,而后把它分到与之最近的均值向量所属的类别中去即可2)如果各类的先验概率不同)如果各类的先验概率不同,则决策应有利于先验概率较先验概率较大的那一类大的那一类把展开,忽略无关项,判别函数变成:
2.第二种情况:
第二种情况:
式中:
式中:
38iS=S11()()()ln()2TiiiigPmmw-=-S-+XXXln()iPw1()()Tiimm-S-XX1()()Tiimm-S-XX0()Tiiigw=+XWX1iim-=W11ln()2Ti0iiiwPmmw-=+1)如果各类的先验概率相等,)如果各类的先验概率相等,则这个决策面同均值向量连线的则这个决策面同均值向量连线的交点在连线的中点交点在连线的中点2)若各类的先验概率不相等,)若各类的先验概率不相等,则决策界面就离开先验概率较大则决策界面就离开先验概率较大的那个类的均值向量而朝先验概的那个类的均值向量而朝先验概率较小的那类方向移动率较小的那类方向移动因为线性判别函数,所以决策面仍是一个超平面,决策面决策面仍是一个超平面,决策面仍然满足方程仍然满足方程式中式中:
390()0T-=WXX1()ijmm-=-W01()ln()1()()2()()ijijijTijijPPwwmmmmmmmm-=+-S-X这是一般的情况,各类的协方差矩阵是不相同的,这是一般的情况,各类的协方差矩阵是不相同的,判别函数有如下形式:
判别函数有如下形式:
式中式中这时决策面是超二次曲面这时决策面是超二次曲面如果两类和相邻,则决策面为如果两类和相邻,则决策面为3.3.第三种情况:
任意第三种情况:
任意40iS()()()()1011lnln22TiiiiiiTTiiigpWwww-=-S-S+=+xxxxxx121iiW1iiiw-=S()1011lnln22Tiiiiiiwpw-=-S-S+iRjR00()()0TTijijijWWWWww-+-+-=xxx()()ijgg=XX决策面式超二次曲面,随着决策面式超二次曲面,随着变化呈现不同变化呈现不同的超二次曲面:
超球面、超抛物面、超双曲面等的超二次曲面:
超球面、超抛物面、超双曲面等41,()iijpmw,离散情况的贝叶斯决策离散情况的贝叶斯决策以上几节所讨论的特征向量可以是以上几节所讨论的特征向量可以是dd维特征空间中的维特征空间中的任一点,即为连续的随机向量。
但在许多的模式识别问任一点,即为连续的随机向量。
但在许多的模式识别问题中,特征向量是一个离散型随机向量,仅可取个题中,特征向量是一个离散型随机向量,仅可取个离散值中的一个。
此时,我们仍可以利用贝叶离散值中的一个。
此时,我们仍可以利用贝叶斯公式计算斯公式计算式中42xxccVVV,21iiippppxxx/)/(jcjjppp1/xx11)最小错误率的贝叶斯决策法则仍为:
)最小错误率的贝叶斯决策法则仍为:
如果对于一切成立,则决策如果对于一切成立,则决策22)最小风险的)最小风险的BayesBayes决策法则仍是:
决策法则仍是:
如果,则对应的决策如果,则对应的决策可以看出,贝叶斯决策规则仍然不变:
可以看出,贝叶斯决策规则仍然不变:
43ijxx/jippi)/(min)/(,2,1xxicikaRaRkaa对于二类分类问题,通常采用下述形式的判别函数:
对于二类分类问题,通常采用下述形式的判别函数:
下面考虑一个两类模式的分类问题。
设特征向量下面考虑一个两类模式的分类问题。
设特征向量,它的各个分量是,它的各个分量是00或者或者11的二值特征,并且各特征相的二值特征,并且各特征相互独立,并令:
互独立,并令:
以一种特别分类模型来说明。
这类模型中,对模式的每一维以一种特别分类模型来说明。
这类模型中,对模式的每一维特征需要给出一个特征需要给出一个“是是”与与“否否”的答案,的答案,“是是”表示该模表示该模式具有对应特征,其值就为式具有对应特征,其值就为11,否则不具有对应特征,其值,否则不具有对应特征,其值就为就为004412()(/)(/)gPPww=-xxx1122(/)()()loglog(/)()PPgPPwwww=+xxx12(,)Tdxxx=鬃x1
(1)iipPxw
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最小 风险 Bayes 决策