书签分享收藏举报版权申诉 / 87

立即下载加入VIP,免费下载

当前位置：首页 > 高中教育 > 初中教育 > 条件随机场CRF.ppt

条件随机场CRF.ppt

文档编号：2119430
上传时间：2022-10-27
格式：PPT
页数：87
大小：1.28MB

条件随机场CRF.ppt

《条件随机场CRF.ppt》由会员分享，可在线阅读，更多相关《条件随机场CRF.ppt（87页珍藏版）》请在冰豆网上搜索。

条件随机场CRF.ppt

条件随机场CRF北京10月机器学习班邹博2014年12月14日思考：

给定文本标注词性o他估算当前的赤字总额在9月份仅仅降低到18亿。

oNN、NNS、NNP、NNPS、PRP、DT、JJ分别代表普通名词单数形式、普通名词复数形式、专有名词单数形式、专有名词复数形式、代词、限定词、形容词2复习：

MarkovBlanketo一个结点的MarkovBlanket是一个集合，在这个集合中的结点都给定的条件下，该结点条件独立于其他所有结点。

o即：

一个结点的MarkovBlanket是它的parents,children以及spouses（孩子的其他parent）3MarkovBlanket补充知识：

SerumCalcium（血清钙浓度）高于2.75mmo1/L即为高钙血症。

许多恶性肿瘤可并发高钙血症。

以乳腺癌、骨肿瘤、肺癌、胃癌、卵巢癌、多发性骨髓瘤、急性淋巴细胞白血病等较为多见，其中乳腺癌约1/3可发生高钙血症。

毒素4图像模型o考察X8的马尔科夫毯（Markovblanket）5无向图模型o有向图模型，又称作贝叶斯网络（DirectedGraphicalModels,DGM,BayesianNetwork）o在有些情况下，强制对某些结点之间的边增加方向是不合适的。

o使用没有方向的无向边，形成了无向图模型（UndirectedGraphicalModel,UGM）,又被称为马尔科夫随机场或者马尔科夫网络（MarkovRandomField,MRForMarkovnetwork）6条件随机场o设X=（X1,X2Xn）和Y=（Y1,Y2Ym）都是联合随机变量，若随机变量Y构成一个无向图G=（V,E）表示的马尔科夫随机场（MRF），则条件概率分布P（Y|X）称为条件随机场（ConditionalRandomField,CRF）o注：

大量文献将MRF和CRF混用，包括经典著作。

后面将考察为何会有该混用。

7DGM转换成UGM8DGM转换成UGM9条件独立的破坏o靠考察是否有，则计算U的祖先图（ancestralgraph）：

10MRF的性质o成对马尔科夫性nparewiseMarkovpropertyo局部马尔科夫性nlocalMarkovpropertyo全局马尔科夫性nglobalMarkovpropertyo表述说明：

随机变量Y=（Y1,Y2Ym）构成无向图G=（V,E），结点v对应的随机变量是Yv。

11考察结点间的独立性12成对马尔科夫性o设u和v是无向图G中任意两个没有边直接连接的结点，G中其他结点的集合记做O；则在给定随机变量Yo的条件下，随机变量Yu和Yv条件独立。

o即：

P（Yu,Yv|Yo）=P（Yu|Yo）*P（Yv|Yo）13局部马尔科夫性o设v是无向图G中任意一个结点，W是与v有边相连的所有结点，G中其他结点记做O；则在给定随机变量Yw的条件下，随机变量Yv和Yo条件独立。

o即：

P（Yv,Yo|Yw）=P（Yv|Yw）*P（Yo|Yw）14全局马尔科夫性o设结点集合A，B是在无向图G中被结点集合C分开的任意结点集合，则在给定随机变量YC的条件下，随机变量YA和YB条件独立。

o即：

P（YA,YB|YC）=P（YA|YC）*P（YB|YC）15三个性质的等价性o根据全局马尔科夫性，能够得到局部马尔科夫性；o根据局部马尔科夫性，能够得到成对马尔科夫性；o根据成对马尔科夫性，能够得到全局马尔科夫性；o可以反向思考：

满足这三个性质（或其一）的无向图，称为概率无向图模型。

16复习：

隐马尔科夫模型17HMM的确定oHMM由初始概率分布、状态转移概率分布A以及观测概率分布B确定。

18HMM的参数oQ是所有可能的状态的集合nN是可能的状态数oV是所有可能的观测的集合nM是可能的观测数19HMM的参数oI是长度为T的状态序列，O是对应的观测序列oA是状态转移概率矩阵o其中oaij是在时刻t处于状态qi的条件下时刻t+1转移到状态qj的概率。

20HMM的参数oB是观测概率矩阵o其中，nbik是在时刻t处于状态qi的条件下生成观测vk的概率。

o是初始状态概率向量：

o其中，ni是时刻t=1处于状态qi的概率。

21HMM的参数总结oHMM由初始概率分布、状态转移概率分布A以及观测概率分布B确定。

和A决定状态序列，B决定观测序列。

因此，HMM可以用三元符号表示，称为HMM的三要素：

22HMM的两个基本性质o齐次假设：

o观测独立性假设：

23HMM的3个基本问题o概率计算问题n给定模型和观测序列，计算模型下观测序列O出现的概率P（O|）o学习问题n已知观测序列，估计模型的参数，使得在该模型下观测序列P（O|）最大o预测问题n即解码问题：

已知模型和观测序列，求对给定观测序列条件概率P（I|O）最大的状态序列I24概率计算问题o直接算法n暴力算法o前向算法o后向算法n这二者是理解HMM的算法重点25直接计算法o按照概率公式，列举所有可能的长度为T的状态序列，求各个状态序列I与观测序列的联合概率P（O,I|），然后对所有可能的状态序列求和，从而得到P（O|）26直接计算法o状态序列的概率是：

o对固定的状态序列I，观测序列O的概率是：

27直接计算法oO和I同时出现的联合概率是：

o对所有可能的状态序列I求和，得到观测序列O的概率P（O|）28直接计算法o对于最终式o分析：

加和符号中有2T个因子，I的遍历个数为NT，因此，时间复杂度为O（TNT），过高。

29前向算法o定义：

给定，定义到时刻t部分观测序列为o1,o2ot且状态为qi的概率为前向概率，记做：

o可以递推的求得前向概率t（i）及观测序列概率P（O|）30前向算法o初值：

o递推：

对于t=1,2T-1o最终：

31后向算法o定义：

给定，定义到时刻t状态为qi的前提下，从t+1到T的部分观测序列为ot+1,ot+2oT的概率为后向概率，记做：

o可以递推的求得后向概率t（i）及观测序列概率P（O|）32后向算法o初值：

o递推：

对于t=T-1,T-2,1o最终：

33后向算法的说明o为了计算在时刻t状态为qi条件下时刻t+1之后的观测序列为ot+1,ot+2oT的后向概率t（i），只需要考虑在时刻t+1所有可能的N个状态qj的转移概率（aij项），以及在此状态下的观测ot+1的观测概率（bjot+1）项，然后考虑状态qj之后的观测序列的后向概率t+1（j）34前向后向概率的关系o根据定义，证明下列等式35单个状态的概率o求给定模型和观测O，在时刻t处于状态qi的概率。

o记：

36单个状态的概率o根据前向后向概率的定义，37的意义o在每个时刻t选择在该时刻最有可能出现的状态it*，从而得到一个状态序列I*=i1*,i2*iT*，将它作为预测的结果。

o给定模型和观测序列，时刻t处于状态qi的概率为：

38两个状态的联合概率o求给定模型和观测O，在时刻t处于状态qi并且时刻t+1处于状态qj的概率。

39两个状态的联合概率o根据前向后向概率的定义，40期望o在观测O下状态i出现的期望：

o在观测O下状态i转移到状态j的期望：

41学习算法o若训练数据包括观测序列和状态序列，则HMM的学习非常简单，是监督性学习；o若训练数据只有观测序列，则HMM的学习需要使用EM算法，是非监督学习。

42再次分析二项分布的参数估计o极大似然估计o简单的例子n10次抛硬币的结果是：

正正反正正正反反正正o假设p是每次抛硬币结果为正的概率。

则：

o得到这样的实验结果的概率是：

43极大似然估计MLEo目标函数：

o最优解是：

p=0.7n即：

使用样本的均值可以作为全体的均值估计o一般形式：

44直接推广上述结论o假设已给定训练数据包含S个长度相同的观测序列和对应的状态序列（O1,I1）,（O2,I2）（Os,Is），那么，可以直接利用极大似然估计的上述结论，给出HMM的参数估计。

45监督学习方法o转移概率aij的估计：

n设样本中时刻t处于状态i时刻t+1转移到状态j的频数为Aij，则o观测概率bik的估计：

n设样本中状态i并观测为k的频数为Bik，则o初始状态概率i的估计为S个样本中初始状态为qi的概率。

46Baum-Welch算法o若训练数据只有观测序列，则HMM的学习需要使用EM算法，是非监督学习。

47Baum-Welch算法o所有观测数据写成O=（o1,o2oT），所有隐数据写成I=（i1,i2iT），完全数据是（O,I）=（o1,o2oT,i1,i2iT），完全数据的对数似然函数是lnP（O,I|）o假设是HMM参数的当前估计值，为待求的参数。

48EM过程o根据o函数可写成49极大化o极大化Q，求的参数A,B,o由于该三个参数分别位于三个项中，可分别极大化o注意到i满足加和为1，利用拉格朗日乘子法，得到：

50初始状态概率o对上式相对于i求偏导，得到：

o对i求和，得到：

o从而得到初始状态概率：

51转移概率和观测概率o第二项可写成：

o仍然使用拉格朗日乘子法，得到o同理，得到：

52预测算法o近似算法oViterbi算法53预测的近似算法o在每个时刻t选择在该时刻最有可能出现的状态it*，从而得到一个状态序列I*=i1*,i2*iT*，将它作为预测的结果。

o给定模型和观测序列，时刻t处于状态qi的概率为：

o选择概率最大的i作为最有可能的状态n会出现此状态在实际中可能不会发生的情况54Viterbi算法oViterbi算法实际是用动态规划解HMM预测问题，用DP求概率最大的路径（最优路径），这是一条路径对应一个状态序列。

o定义变量i（t）：

在时刻t状态为i的所有路径中，概率的最大值。

55Viterbi算法o定义：

o递推：

o终止：

56团o无向图G中任何两个结点均有边连接的子集，称作G的团（Clique）。

若C是G的一个团，并且不能再加入任何一个G的结点使其称为团，则C称作G的最大团（MaximalClique）。

57下图的最大团是什么？

58Hammersley-Clifford定理oUGM的联合分布可以表示成最大团上的随机变量的函数的乘积的形式；这个操作叫做UGM的因子分解（Factorization）。

59Hammersley-Clifford定理oUGM的联合概率分布P（Y）可以表示成如下形式：

o其中，C是G的最大团，是C上定义的严格正函数，乘积是在UGM所有的最大团上进行的，被称作势函数（PotentialFunction）。

60线性链条件随机场o设X=（X1,X2Xn）和Y=（Y1,Y2Ym）都是联合随机变量，若随机变量Y构成一个无向图G=（V,E）表示的马尔科夫随机场（MRF），则条件概率分布P（Y|X）称为条件随机场（ConditionalRandomField,CRF）o即：

o其中，表示与结点v相连的所有结点wo一种重要而特殊的CRF是线性链条件随机场（LinearChainConditionalRandomField），可用于标注等问题。

这时，条件概率P（Y|X）中，Y表示标记序列（或称状态序列），X是需要标注的观测序列。

61线性链条件随机场o线性链条件随机场的无向图模型62线性链条件随机场的定义o设X=（X1,X2Xn），Y=（Y1,Y2Yn）均为线性链表示的随机变量序列，若在给定随机变量序列X的条件下，随机变量序列Y的条件概率分布P（Y|X）构成条件随机场，即满足马尔科夫性o则称P（Y|X）为线性链条件随机场。

在标注问题中，X表示观测序列，Y表述对应的输出标记序列或称状态序列。

63线性链条件随机场的参数化形式o设P（Y|X）为线性链条件随机场，则在随机变量X取值为x的条件下，随机变量Y取值为y的条件概率有以下形式：

o其中，o上式中，tk和sl是特征函数，kl是对应的权值，Z（x）是规范化因子。

64参数说明otk是定义在边上的特征函数，称为转移特征，依赖于当前和前一个位置；osl是定义在结点上的特征函数，称为状态特征，依赖于当前位置；otk和sl都依赖于位置，是局部特征函数；o通常，tk和sl取值为1或者0；满足特征条件时取1，否则取0；oC

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 条件随机 CRF

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：条件随机场CRF.ppt
链接地址：https://www.bdocx.com/doc/2119430.html

条件随机场CRF.ppt

热门标签