贝叶斯网络祥解PPT格式课件下载.ppt
- 文档编号:14137718
- 上传时间:2022-10-19
- 格式:PPT
- 页数:81
- 大小:2.29MB
贝叶斯网络祥解PPT格式课件下载.ppt
《贝叶斯网络祥解PPT格式课件下载.ppt》由会员分享,可在线阅读,更多相关《贝叶斯网络祥解PPT格式课件下载.ppt(81页珍藏版)》请在冰豆网上搜索。
队0和队1。
假设65%的比赛队0胜出,剩余的比赛队1获胜。
队0获胜的比赛中只有30%是在队1的主场,而队1获胜的比赛中75%是主场获胜,如果下一场比赛在队1的主场进行,哪一支球队最有可能胜出?
8.1贝叶斯定理,【例】两个球队比赛,队0:
胜率65%,客场获胜率30%队1:
胜率35%,主场获胜率75%,问题:
如果下一场比赛在队1的主场进行,哪一支球队最有可能获胜?
基本概念:
X、Y是两个随机变量,则联合概率P(X=x,Y=y)条件概率P(X=xlY=y),二者之间有关系:
P(X,Y)=P(YlX)P(X)=P(XlY)P(Y),即:
这就是贝叶斯定理,8.1贝叶斯定理,我们现在来解决前面提出的问题:
设:
变量:
东道主球队变量:
获胜球队、可以在,中取值,则:
队取胜的概率,解:
P(Y=1X=1)=,=,=,=,=0.5738,队取胜的概率,队取胜时队1作为东道主的概率,队作为东道主时取胜的概率,P(X=1,Y=1)=0.75,P(X=1,Y=0)=0.3,P(Y=1)=1-P(Y=0)=0.35,P(Y=0)=0.65,8.1贝叶斯定理,假设X和Y是一对随机变量,X表示属性集,Y表示类变量。
P(X,Y)表示他们的联合概率P(Y)称为Y的先验概率P(X)是X的先验概率P(Y|X)是后验概率,或在条件X下,Y的后验概率。
P(X|Y)是条件Y下,X的后验概率对于分类问题,希望确定P(Y|X)给定观测数据元组X,假设X属于某特定类Y成立的概率。
换言之,给定X的属性描述,找出元组X属于类Y的概率。
贝叶斯定理:
8.1贝叶斯定理,例预测一个贷款者是否会拖欠还款。
图8.4中的训练集中有如下属性:
有房、婚姻状况和年收入。
若前还款的贷款者属于类Yes,还清贷款的贷款者属于类No。
假设给定一测试记录有如下属性集:
X=(有房=否,婚姻状况=已婚,年收入=$120K)。
要分类该记录,我们需要利用训练数据中的可用信息计算后验概率P(Yes|X)和P(No|X)。
如果P(Yes|X)P(No|X),那么记录分类为Yes,反之,分类为No。
8.2朴素贝叶斯分类,朴素贝叶斯(naiveBayes):
基于条件概率的贝叶斯定理提出的。
通过分析每个“独立的”属性所起的作用,可以确定一个条件概率。
将不同的属性对预测所起的作用组合起来就可以用于分类。
这种方法之所以被称为“朴素的”是因为它假设各种属性值之间是独立的。
对于属性集,因为之间相互独立,即,8.2朴素贝叶斯分类,分类测试记录时,朴素贝叶斯分类器对每个类Y计算后验概率:
其中P(X)是固定的常数,先验概率P(Y)可以通过训练集中每类样本所占的比例估计。
只要找出使最大的类别y即可。
分类法预测X的类标号为,当且仅当换言之,预测的类标号是使最大的类。
8.2朴素贝叶斯分类,的计算视属性的性质有所不同,下面我们描述几种估计分类属性和连续属性的条件概率的方法。
对于分类属性,可以用类Y中属性值等于的样本比例来估计条件概率。
例如,在图8.4给出的训练集中还清贷款的7个人中3个人有房,条件概率P(有房=是|No)等于3/7。
拖欠还款的人中单身的条件概率P(婚姻状况=单身Yes)=2/3。
(1)估计分类属性的条件概率,8.2朴素贝叶斯分类,朴素贝叶斯分类法使用两种方法估计连续属性的类条件概率:
1、可以先把离散化,然后计算属于类Y的训练样本落在对应离散区间的比例估计。
离散化的方法在数据挖掘概论一章中讨论过了。
估计误差由离散化方法和离散区间的数目决定。
如果离散区间的数目太大,则就会因为每一个区间中训练记录太少而不能对做出可靠的估计。
相反,如果区间数目太小,有些区间就会含有来自不同类的记录,因此失去了正确的决策边界。
(2)估计连续属性的条件概率,8.2朴素贝叶斯分类,2、也可以假设服从某种概率分布,然后用训练样本估计其中的参数。
正态分布通常被用来表示连续属性的类条件概率分布。
如果某个数值属性是正态分布,我们使用下式计算对每个类Y,属性X的类条件概率:
(2)估计连续属性的条件概率,其中,是所给数值属性的均值,可以用类Y的所有训练记录关于X的样本均值来估计。
是属性的方差,可以用这些训练记录的样本方差来估计。
8.2朴素贝叶斯分类,例考虑图8.4中年收入这一属性。
该属性关于类No的样本均值和方差如下:
(2)估计连续属性的条件概率,给定一测试记录,应征税的收入等于120K美元,其拖欠贷款为否的类条件概率计算如下:
8.2朴素贝叶斯分类,例还是以图8.4中的数据集为例,预测测试记录X=(有房=否,婚姻状况=已婚,年收入=$120K)的类标号。
我们可以计算每个分类属性的类条件概率,同时利用前面介绍的方法计算连续属性的样本均值和方差,然后利用这些数据计算后验概率P(No|X)和P(Yes|X)。
数据元组有三个属性:
是否有房、婚姻状况和年收入。
类标号属性拖贷款有两个不同值(即是,否)。
希望分类的元组为X=(有房=否,婚姻状况=已婚,年收入=$120K)每个类的先验概率P(Y)可以根据训练元组中属于该类的记录所占的比例来估计:
P(Yes)=3/10=0.3P(No)=7/10=0.7,8.2朴素贝叶斯分类,贷款分类问题的朴素贝叶斯分类器,P(有房=是|No)=3/7P(有房=否|No)=4/7P(有房=是|Yes)=0P(有房=否|Yes)=1P(婚姻状况=单身|No)=2/7P(婚姻状况=离异|No)=1/7P(婚姻状况=已婚|No)=4/7P(婚姻状况=单身|Yes)=2/3P(婚姻状况=离异|Yes)=1/3P(婚姻状况=已婚|Yes)=0年收入:
如果类=No:
样本均值=110样本方差=2975如果类=Yes:
样本均值=90样本方差=25,8.2朴素贝叶斯分类,使用上面的概率,类条件概率计算如下:
P(X|No)=P(有房=否|No)P(婚姻状况=已婚|No)P(年收入=$120K|No)=4/74/70.0072=0.0024P(X|Yes)=P(有房=否|Yes)P(婚姻状况=已婚|Yes)P(年收入=$120K|Yes)=101.210-9=0可得到No类的后验概率,其中是个常量。
同理,可以得到类Yes的后验概率等于0,因为它的类条件概率等于0。
因为,所以对于元组X,朴素贝叶斯分类器预测元组X的类为No。
8.2朴素贝叶斯分类,贝叶斯技术的一个重要问题是某个属性值的计数为0。
例如前面的例子,拖欠贷款的值为Yes的已婚客户的数目为0。
这种情况下,这个属性的类条件概率等于0,则整个类的后验概率就等于0。
简单地使用记录比例来估计类条件概率的方法显得太脆弱了,尤其是当训练样本很少而属性数目很大时。
一种更极端的情况是,当训练集不能覆盖那么多的属性时,我们可能就无法分类某些测试记录。
属性值的计数为0问题,8.2朴素贝叶斯分类,拉普拉斯校准或拉普拉斯估计法:
以法国数学家PierreLaplace(17491827)的名字命名,假定训练数据库D很大,使得需要的每个计数加上一个小常数k造成的估计概率的变化可以忽略不计,但可以方便地避免概率值为零。
计算概率的对应条件概率变成:
属性值计数为0问题的解决,其中,k是称为等价样本大小的参数,p为属性可能值总数的等分。
如果属性有两个可能值,则p为0.5。
8.2朴素贝叶斯分类,例在8.4例子中,条件概率P(婚姻状况=已婚|Yes)0,因为类中没有训练样例含有该属性值。
使用拉普拉斯估计法,因为属性婚姻状况有3种可能值,所以k=,p=1/3,则条件概率不再是:
P(婚姻状况=已婚|Yes)=(0+31/3)/(3+3)=1/6如果假设对类Yes的所有属性p=1/3对类No的所有属性p=2/3,则P(X|No)=P(有房=否|No)P(婚姻状况=已婚|No)P(年收入=$120K|No)=6/106/100.0072=0.0026P(X|Yes)=P(有房=否|Yes)P(婚姻状况=已婚|Yes)P(年收入=$120K|Yes)=4/61/61.210-9=1.310-10类No的后验概率,而类Yes的后验概率,尽管分类结果不变,但是避免了零概率值。
属性值计数为0问题的解决,8.2朴素贝叶斯分类,首先它易于使用。
当变量之间的关系很简单时,这种技术通常会产生很好的效果。
该分类与决策树和神经网络分类法的各种比较实验表明,在某些领域,贝叶斯分类法足以它们相媲美。
理论上讲,与其他所有分类算法相比,贝叶斯分类具有最小的错误率。
贝叶斯分类器的健壮的。
因为在从数据中估计条件概率时,孤立的噪声点被平均。
通过在建模和分类时忽略样例,朴素贝叶斯分类器也可以处理属性值遗漏问题。
如果是无关属性,那么几乎变成了均匀分布。
的类条件概率不会对总的后验概率的计算产生影响。
朴素贝叶斯分类器的优点,8.3贝叶斯信念网络,朴素贝叶斯分类法假定类条件独立,即给定元组的类标号,假定属性的值可以有条件地相互独立。
这一假定简化了计算,但似乎太严格了,在实践中,变量之间的依赖可能存在。
贝叶斯信念网络说明联合条件概率分布,该方法不要求给定类的所有属性都条件独立,而是允许在变量的子集间定义类条件独立性。
提供一种因果关系的图形模型,可以对其进行学习。
训练后的贝叶斯信念网络可以用于分类。
贝叶斯网络最初是由R.Howard和J.Matheson于1981年提出来的.早期的贝叶斯网络主要在专家系统中用来表述不确定的专家知识。
90年代以来,贝叶斯学习一直是机器学习研究的重要方向。
由于概率统计与数据挖掘的天然联系,数据挖掘兴起后,贝叶斯网络日益受到重视,再次成为引人注目的热点。
近两年研究者们进一步研究了直接从数据中学习并生成贝叶斯网络的方法,包括贝叶斯方法、类贝叶斯方法和非贝叶斯方法,为贝叶斯网络用于数据挖掘和知识发现开辟了道路。
这些新的方法和技术还在发展之中,但是己经在一些数据建模问题中显示出令人瞩目的效果。
8.3贝叶斯信念网络,贝叶斯信念网络(BayesianBeliefNetworks,BBN)也称作信念网络、贝叶斯网络和概率网络,用图形表示一组随机变量之间的概率关系。
贝叶斯网络主要由两个部分组成:
一、贝叶斯网络的概念,有向无环图其中的每一个结点代表一个随机变量;
每一条弧(两个结
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 贝叶斯 网络