朴素贝叶斯算法PPT文件格式下载.ppt
- 文档编号:14000424
- 上传时间:2022-10-16
- 格式:PPT
- 页数:13
- 大小:124KB
朴素贝叶斯算法PPT文件格式下载.ppt
《朴素贝叶斯算法PPT文件格式下载.ppt》由会员分享,可在线阅读,更多相关《朴素贝叶斯算法PPT文件格式下载.ppt(13页珍藏版)》请在冰豆网上搜索。
就把此待分类项归于哪个类别。
通俗来说,就好比你在街上看到一个黑人,我问你你猜这个人哪里来的,你十有八九猜非洲。
为什么呢?
因为黑人中非洲人的比率最高,当然人家也可能是美洲人或亚洲人,但在没有其它可用信息下,我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础。
条件概率:
表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。
其基本求解公式为:
为了得出,我们不加证明的给出贝叶斯定理。
贝叶斯分类的基础贝叶斯定理,先验概率和后验概率,先验概率:
由以往的数据分析得到的概率。
后验概率:
得到信息之后再重新加以修正的概率。
朴素贝叶斯算法流程,1.设为一个待分类项,而每个为的一个特征属性。
且特征属性之间相互独立(此处是朴素贝叶斯的假设)。
2.设为一个类别集合。
3.计算。
4.如果则。
接下来,由于假设各个特征属性都是条件独立的,那么根据贝叶斯定理有如下推导,因为分母对于所有类别为常数,因此将分子最大化即可。
即:
朴素贝叶斯分类例子,数据样本用属性age,income,student和creditrating描述。
类别属性buyscomputer具有两个不同值(即yes,no)。
设对应于类buyscomputer=“yes”,而对应于类buyscomputer=“no”。
我们分类的未知样本为:
X=(age=30,income=medium,student=yes,credit_rating=fair).,1.我们需要最大化P(X|)P(),i=1,2。
每个类的先验概率P()可以根据训练样本计算:
P(buys_computer=yes)=9/14=0.643P(buys_computer=no)=5/14=0.357,2.计算后验概率P(X|),i=1,2(假设属性独立),P(age=“30”|buys_computer=“yes”)=0.222P(age=“30”|buys_computer=“no”)=0.600P(income=“medium”|buys_computer=“yes”)=0.444P(income=“medium”|buys_computer=“no”)=0.400P(student=“yes”|buys_computer=“yes”)=0.667P(student=“yes”|buys_computer=“no”)=0.200P(credit_rating=“fair”|buys_computer=“yes”)=0.667P(credit_rating=“fair”|buys_computer=“no”)=0.400P(X|buys_computer=“yes”)=0.2220.4440.6670.667=0.044P(X|buys_computer=“no”)=0.6000.4000.2000.400=0.019,3.对每个类,计算P(X|)P()P(X|buys_computer=“yes”)P(buys_computer=“yes”)=0.0440.643=0.028P(X|buys_computer=“no”)P(buys_computer=“no”)=0.0190.357=0.007因此,对于样本X,朴素贝叶斯分类预测buys_computer=”yes”。
朴素贝叶斯算法存在的问题及应用,朴素贝叶斯分类器(NaiveBayesClassifier,或NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。
同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。
理论上,NBC模型与其他分类方法相比具有最小的误差率。
但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。
朴素贝叶斯算法目前在过滤垃圾邮件和文字分类方面得到很好的应用。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 朴素 贝叶斯 算法