几种统计模式识别方案的比较.docx
- 文档编号:25525822
- 上传时间:2023-06-09
- 格式:DOCX
- 页数:12
- 大小:22.89KB
几种统计模式识别方案的比较.docx
《几种统计模式识别方案的比较.docx》由会员分享,可在线阅读,更多相关《几种统计模式识别方案的比较.docx(12页珍藏版)》请在冰豆网上搜索。
几种统计模式识别方案的比较
摘要:
模式识别是对表征事物或现象的各种形式的(数值的,文字的和逻辑关系的)信息进行处理和分析,以达到对事物或现象进行描述、辨认、分类和解释的目的,是信息科学和人工智能的重要组成部分。
而统计决策理论是处理模式分类问题的基本理论之一,它对模式分析和分类器的设计有着实际的指导意义。
本文归纳总结了统计模式识别的不同方案的详细性能,比较了它们的原理、算法、属性、应用场合、错误率等。
关键词:
统计模式识别贝叶斯决策方法几何分类法监督参数统计法非监督参数统计法聚类分析法
ComparisonofSeveralKindsofStatisticalPatternRecognitionSchemes
Abstract:
Patternrecognitiondealswithandanalysestheinformationwhichsignifyallkindsofthingsandphenomena(numbervalues,Charactersandlogicrelation),inordertodescribe,recognize,classifyandinterpretthem.Itisoneoftheimportantpartsofinformationscienceandartificialintelligence.Whilestatisticalpatternrecognitionisoneofthebasicstheoryofclassifyingandisrealdirectivesignificanceinanalyzingandclassifyingofpattern.We
sumupthedetailedperformanceofsummarizingdifferentschemeswhichcountsthepatternrecognitioninthistext,Comparetheirprinciple,algorithm,attribute,usingoccasion,etc.
1引言
模式识别诞生于20世纪20年代,随着40年代计算机的出现,50年代人工智能的兴起,模式识别在60年代初迅速发展成为一门学科。
它所研究的理论和方法在很多科学和技术领域中得到了广泛的重视,推动了人工智能系统的发展,扩大了计算机应用的可能性。
模式识别方法大致可以分为四类,即统计决策法、句法结构法、模糊判决法和人工智能法。
其中,统计决策论发展较早,理论也较成熟。
其要点是提取待识别模式的一组统计特征,然后按照一定准则所确定的决策函数进行分类判决。
统计模式识别方法是建立在概率论与数理统计的基础上,它用特征向量来描述模式。
不同的模式用不同条件概率分布表示,然后判别未知模式属于哪一种分布。
分类方法主要有贝叶斯决策方法、线性可分的几何分类法、非线性可分的几何分类法、监督参数统计法、非监督参数统计法及聚类分析法。
下文将对它们的性能进行详细地介绍。
2几点统计识别方法介绍及比较
2.1贝叶斯决策方法
运用统计决策理论设计的分类系统又称为分类器。
贝叶斯决策是一种统计模式识别决策法,它有如下基本假定:
1.各类别总体的概率分布是已知的
2.被决策的分类数是一定的
3.被识别的事物或对象有多个特征观测值
当被识对象用n随机向量X表示,二我们已知分类的先验概率的条件概率密度函数,便可根据贝叶斯公式,求解后验概率,并按后验概率的大小来判别分类,这就是贝叶斯决策方法。
下面介绍三种判别准则。
(1)最小错误概率贝叶斯判别准则
设有R类样本,分别为w1,w2,…wR,已知每类的先验概率为P(wi),其中i=1,2,…,R。
对于待识别的随机向量X,已知每类的条件概率密度为P(X|wi),则根据贝叶斯公式有后验概率:
P(wi|X)=(P(X|wi)*P(wi))/(∑P(X∣wi)*P(wi))
(1)
根据计算得出得后验概率,取最大得后验概率P(wi|X)所属的wi类,判决X属于wi类。
表示为:
P(wi|X)>P(wj|X)则X属于wi
其中i,j=1,2,…,R,且存在j≠i,这就是贝叶斯判别准则。
若按统计理论定义“似然比”为:
l(X)=P(X|wi)/P(x|wi)
取判别阀值:
θji=P(wj)/P(wi)
则有贝叶斯判别准则的似然比表示形式:
l(X)>P(wj)/P(wi)则X属于wi
对于两类模式集(w1,w2)的分类,贝叶斯判别准则简单表示为:
若P(w1|X)>P(w2|X)则X属于w1
若P(w2|X)>P(w1|X)则X属于w2
贝叶斯判别准则实质上是最小错误概率的贝叶斯判别准则。
(2)最小风险贝叶斯判别准则
在决策理论中,称所采取的决定为决策或行动。
每个决策或行动都会带来一定的损失。
该损失用λ表示,它是与本该属于wi但采取的决策为αj所造成的损失有关。
由此定义损失函数为λ(αj|wi)=λij(i,j=1,2,…,R)。
对样本X属于wi,有贝叶斯公式已知后验概率为P(wi|X),而采取决策αj时,它的条件损失为:
(2)
i=1,2,…,R
在决策论中,把采取决策αj的条件损失称为条件风险。
对随机向量X取不同观察值时,同样采取αj时,其条件风险是不同的。
因此α又是X的函数,写成α(X)。
由此,总的风险为:
(3)
总的风险反应对整个特征空间上所有X采取决策α(X)所带来的平均风险,而条件风险只反映对某一X值采取决策αj所带来的风险。
若
每个条件风险都是最小,则总风险也最小。
由此得到最小风险贝叶斯决策准则为:
(4)
于是,αk就是最小风险贝叶斯决策。
对于两类模式集()来说,由判别区域R1和R2。
则总风险为
其中:
为X,且被分为R1的“损失”;
为X,且被分为R1的“损失”;
为X,且被分为R2的“损失”;
为X,且被分为R2的“损失”。
有全概率等于1可推出:
代入上式,经整理,得
若要总风险R最小,必须是积分号内有
<
满足此式,便可判别X或X
反之,>
便可判别X或X
若用似然比表示
则有准则
(3)聂曼-皮尔逊判别准则
由最小风险贝叶斯准则可见,设计该分类器时,必须预知先验概率P(ωi),并预先给定λij,特别是要有足够的经验,以给定λij,因为该准则和损失函数λij有很大关系,需要足够的先验知识。
聂曼-皮尔逊(Neyman-Pearson)准则提供另一种方案,即设法限制某一错误概率,而同时使另一错误概率为最小。
取式1中
得到
当先验概率P(ω1)和P(ω2)已知时,ε1和ε2分别表示两类的错误率。
在ε1,ε2两个错误率中取定一个(例如取定ε2)并使ε1为最小,这就使聂曼-皮尔孙判别准则,也称为在限定一类错误率条件下是另一类错误率为最小的两类决策准则。
在某些场合下,有它的实际意义。
2.2几何分类法(判别函数法)
一个模式经某种数学变换后,映射为一特征向量,并表示为特征空间的一个点。
同一类的点构成点集,表示一类ωi。
不同类的点集(ωi,i=1,2,…,n)总是互相有不同程度的分离。
若能几何的方法,找出一种不依赖于条件概率密度的分离函数,把特征空间划分为对应于不同类别的子空间,便可实现模式分类。
因此,把这种分类方法称为几何分类法,把这种分离函数成为判别函数。
从而,几何分类法也通常称为判别函数法。
判别函数可以是线性的或非线性的。
利用已知类别的训练集,通过统计方法,可以求的判别函数的具体形式和参数,然后用来判别未知样本属何类别。
这种方法虽属统计分类方法,但无需依赖于条件分布密
度的知识,因此在一些场合下,比基于贝叶斯公式的概率分类法简单。
2.2.1线性可分的几何分类法
对特征向量X在二维平面上,存在一直线方程形式的线性判别函数:
式中x1、x2分别为二维平面坐标变量,ω1、ω2、ω3为方程函数。
则在二维坐标中构成两个模式集(ω1,ω2)。
将某一未知类别的样本X代入g(X),如为正值,则它属于ω1类;如为负值,则属于ω2类。
即
当X是三维的,判别函数为一平面方程。
当n维(n>3)时判别函数为一超平面,要进行模式分类,就要确定判别函数的形式及其参数。
基于线性判别函数的模式分类器称为线性分类器。
设计线性分类器的主要步骤是:
首先已知一组有类别的样本训练集。
第二,选择一个准则函数,该函数既与样本集X与W有函数关系,又能反映分类器性能。
第三,用最优化技术求出准则函数的极值解W*,从而得到线性判别函数优化解。
线性分类器的准则函数及其最优化解有多种成熟的技术。
这里只介绍一种具有代表性的方法—感知器方法。
模式识别是对人的思维的一种模拟。
由苏联学者罗森布拉特提出的感知器的概念。
感知器主要是一种人脑的模型,而不仅仅是模式识别装
置。
它实现了人工神经网络的工程模型。
它用权函数连接网络的各个元素,构成一种非线性网络,对输入信号作出某种响应,并通过一定方式传达到其它元素,并能产生输出信号,这就使感知器的简单物理概念。
若把感知器的R个输出元素,看作是R类模式,当某个被识样本由输入元素输入网络,使输出元素中第i个元素输出最大,则可判定被识样本属第i个模式。
这样就把感知器构造成一个线性分类器。
利用感知器原则,构造一个准则函数J:
式中A为常数,常取A=0.5。
当g(X)=WTX>0,J(W,X)=0。
当g(X)=WTX<0,J(W,X)>0。
因此,这个准则函数的极小值为0,即
minJ(W,X)=0
这时,准则函数J的最优化解为:
求最优解的常用算法是梯度下降法,即一出初值W
(1)=常数,通过下式迭代:
(5)
式中,k—迭代次数;
C—有助于收敛的校正系数。
把
其中符号函数:
代入式(5),得
这就使感知器准则的梯度下降算法。
当,表示分类正确,则W(k+1)=W(k),对此给与“赏”或“不罚”,权向量不变。
当,表示分类错误,对此给与“罚”,使W(k)加一个正比于X(k)的分量。
常称此为“赏—罚”概念。
用全部模式训练一轮后,只要有一个样本判错,则需进行下一轮迭代,求出新的。
反复迭代,直到全部训练及获得正确分类,迭代才结束。
这时的就是所求的,从而求得线性判别函数。
2.2.2非线性可分的几何分类法
非线性分类理论为划分样本空间提供了最通用的方法,由于样本空间往往是非常复扎杂的,此非线性鉴别器函数,可以写成如下的通用形式:
1.分段线性判别函数
把每一类分为若干个子类,即令;我们不是选择各个子类的均值为代表点设
计最小距离分类器,而是对于每个子类定义一个线性判别函数
式中和分别为对子类的权向量和阀值权。
如果我们定义类的线性判别函数为
对于c类问题,可以定义c个判别函数并得到决策规则:
若
则决策
从直观上看,对于任意样本向量x,必有某个子类的判别函数值较其他各子类的判别函数值为最大。
假如具有最大值的判别函数是,则
把归到子类所属的类,即类。
这样得到的决策面也是分段线性的,其决策面方程是由各子类的判别函数确定的。
如果第I类的第n个子类和第I类的第m个子类相邻,则这段决策面的方程是
2.二次判别函数
二次判别函数的一般表达式为
其中W是实对称矩阵,w为d维向量。
为确定判别函数,需要确定个不同的系数。
2.3监督参数统计法
2.3.1KNN法及其衍生法
KNN法,也称K最近邻法,是模式识别的标准算法之一。
其基本原理是先将已经分好类别的训练样本点“记入”多维空间中,然后将待分类的未知样本也记入空间。
考察未知样本的K个近邻,若近邻中某一类样本最多,则可以将未知样本也判为该类。
在多维空间中,各点间的距离通常规定为欧几里得空间距离。
KNN法的好处是它对数据结构没有特定的要求,只要用每个未知点的近邻属性类来判别就行了;KNN法也不需要训练过程。
KNN法的一个缺点就是它没有对训练点作信息压缩,因此每判断一个新的未知点都要将所有对已知点的距离全部算一遍,计算工作量较大。
一种简化的算法称为类重心法,即将训练中每类样本点的重心求出,然后判别未知样本点与各类的重心的距离;未知样本与哪一类重心距离最近,即将未知样本归于哪一类;这
一类方法因过分简单而使结果的可靠性降低,但因计算简易,有时仍然可以应用。
ALKNN法是KNN法的一种改良,在KNN法中,对所有的类取相同的K值;而ALKNN法对K值的选取是根据每类样本的数目和分散程度进行的,对不同的类可以选取不同的K值;当各类的Ki值选定后,用一定的算法对类中样本的概率进行估计,并根据概率大小对他们进行类的划分。
在ALKNN法中,以xi与类gi的Ki个近邻中最远的一个样本的距离r为半径,以x为中心,计算相应的超球的体积;并认为超球体积越小,类gi在xi处的概率密度越大,这一概率密度可由下式计算:
P(x/gi)=(Ki–1)/{n[v(x/gi)]}
此处v(x/gi)为类gi的超球体积。
对于未知样本,哪一类计算的P(x/gi)最大,即归入哪一类。
此法的错误率为
P*<=P<=P*(2–c/(c-1)P*)
上式可以粗略表示为
P*<=P<=2P*P*为贝叶斯错误率
近邻法错误率在贝叶斯错误率P*和两倍贝叶斯错误率2P*之间。
这种近邻法的缺点就是:
1.须将所有的样本存入计算机中,每次决策都要计算待识别样本x与全部训练样本之间的距离并进行比较;因此使存储量和计算量都比较大。
2.虽然在所有情况下,对未知样本x都可以进行决策,但当错误代价很大时,会产生较大的风险。
3.我们对近邻法的分析都是近似的,就是说要求样本数趋向于无穷大,这在任何场合都是无法实现的。
2.3.2Fisher判别分析法
Fisher判别分析法的基本原理就是将多维空间样本点分布的图象投影到二维或者一维,投影方向选择的原则是使两类样本点尽可能分开。
求投影方向,得到两类点分开的最佳的方向和次佳方向,由这两个方向张成二维平面,可使投影形成二维分类图;垂直于分界线的法线代表使样本向一类或者二类转化的方向。
Fisher方法在工业优化计算中常用,当工业生产实际作业区偏在优化区一侧时,生产上的“优类”工况和“劣类”工况就可以用Fisher方法分开;相反,如果优化区在生产实际作业区的中心区,用Fisher方法就不能将“优、劣”样本分开这时就得用其他的模式识别算法。
2.4非监督参数统计法
1.基于概率密度函数估计的直接方法
单峰子集(类)的分离方法:
投影方法和基于对称集性质的单峰子集分离法。
在没有任何类条件概率分布的先验知识情况下,我们只能把特征空间分为若干个区域在每个区域的混合密度应该是单峰的。
以后我们把这些区域叫做单峰区域。
每一个单峰区域和一个类别相对应。
2.于样本空间相似性度量的间接聚类方法
动态聚类方法是一种普遍采用的方法,它具有3个要点:
(1)选定某种距离度量作为样本间的相似性度量。
(2)确定某个评价聚类结果质量的准则函数。
(3)给定某个初始分类,然后用迭代算法找出使准则函数取极值的
最好聚类结果。
主要有以下方法:
C-均值算法、基于样本和核的相似性度量的动态聚类算法、近邻函数准则算法和分级聚类方法。
2.5聚类分析法
在没有训练集的情况下,对一批没有类别的被识别样本进行自动分类,要按照样本之间的相似程度分类,即俗语讲的“物以类聚,人以群分”,这种分类方法称为聚类分析,它是一种无教师的非监督的分类方法。
(1)模式相似性与距离度量
模式相似性可以用相似性函数表示。
常用的相似性函数有距离函数和夹角函数。
距离函数是用特征空间中,两特征点的距离作为相似性度量。
对于特征空间中的点X和Y的距离,用d(X,Y)表示。
它应满足下列条件:
根据不同应用,距离函数可采用不同定义,常用的距离函数有以下几种。
1)明氏(Minkowsky)距离
(6)
2)欧氏(Euclidean)距离
当明氏距离的=2时,
(7)
3)曼氏(Manhattan)距离
当明氏距离的=1时,
(8)
4)类块(Cityblock)距离
(9)
这是引入权值ωi,对式(8)的修正。
距离函数还有很多其他的定义方法,在此不再一一列举。
具体应用上述距离函数时,要注意特征分量(检测的物理量)的量纲。
例如测量长度时,用密或毫米作量纲,其计算结果差异很大,因此常使特征数据归一化。
相似性的夹角函数使用特征向量X,Y的矢量夹角的余弦来表示,即式中θ—两向量的夹角;
|X|—X的幅值。
则有
显然θ1<θ2,即<,故认为X与Z1更相似些也就是X与Z1同一类(ωi)。
(2)聚类分析的基本方法
若有未知类别的n个样本,要把它们分到C类中,可以有不同的聚类方法,如何评价聚类的好坏,需要决定一个聚类准则。
聚类准则的确定有两种方法,一是凭经验,根据分类问题,选择一种准则(例如以距离函数作相似性度量),用不断修改阀值,来达到某种最佳分类。
另一种方法是确定一种函数,当该函数取最小值时,人未达到最佳分类。
下面介绍聚类分析中的近邻函数法。
近邻函数法
a.基于最邻近规范的试探法设有n个样本:
X1,X2,……,Xn。
取任一样本(例如取X1)为聚类中心Z1,则有X1=Z1。
选取一非负的阀值T1。
然后计算X2到Z1的距离D21,距离函数可以选择上述任一种,通常选用欧氏距离。
计算距离结果,如果D21 若D21>T1,则建立一个新的聚类中心Z2,且X2=Z2。 下一步,取第三个样本X3,分别按距离函数计算X3到Z1、Z2的距离D31、D32。 若D31 若D31>T1且D32>T1,则X3与X1、X2都不同类。 并需建立第三个聚类中心Z3=X3。 用上述方法对全部样本计算距离,比较阀值,决定聚类。 这种方法计算简单。 当具有一些模式分布先验知识,以指导阀值选取及初始点选择,便可较快获得结果。 b.最大最小距离法这种方法以欧氏距离为度量,先选择相距最远的两点为中心,分别计算各种本到这两中心的距离Di1和Di2,i=1,2,…,n。 对每个i点取两个距离Di1和Di2中的最小: min(Di1,Di2),检测全部min(Di1,Di2)中的最大者是否大于|Z1-Z2|/2来判决聚类。 故称最大最小距离法。 以下图十点为例,具体步骤如下: 第一步: 任意取X1为第一个聚类中心,即X1=Z1。 第二步: 确定离X1最远的标本,如图的X6,令X6=Z2。 第三步: 逐个计算各样本X1,X2,…,Xn与Z1及Z2的距离Di1,Di2。 Di1=|Xi-Z1|,Di2=|Xi-Z2| 若存在max{min(Di1,Di2),i=1,2,…,n}>|Z1-Z2|/2,则令Xi=Z3(图中X7=Z3),转下一步。 否则,转最后一步。 第四步: 计算Di1,Di2,Di3若存在max{min(Di1,Di2,Di3),i=1,2,…,n}>|Z1-Z2|/2,则令Xi=Z4,转下一步。 否则,转最后一步。 …… 最后一步: 将全部样本按最小距离分别到最近的聚类中心。 本例为三个中心,得分类结果: {X1X3X4}为第一类,Z1=X1 {X2X6}为第二类,Z2=X6 {X5X7X8X9X10}为第三类,Z3=X7 3结语 模式识别是信息科学和人工智能的重要组成部分,而统计决策理论 是处理模式分类问题的基本理论之一,它对模式分析和分类器的设计有着实际的指导意义。 本文归纳总结了统计模式识别的贝叶斯决策方法、线性可分的几何分类法、非线性可分的几何分类法、监督参数统 计法、非监督参数统计法及聚类分析法这些不同方案的详细性能,比较了它们的原理、算法、属性、应用场合、错误率等。 参考文献 [1]戴汝为,形象(直感)思维与人机结合的模式识别,信息与控制1994,23 (2): 76—79。 [2]郝红卫、戴汝为,人机结合的集成方法及其在字符识别中的应用,模式识别与人工智能,1996,9 (1): 10—20。 [3]SarahE.Hutchinson著,信息技术与应用导论(第七版),高等教育出版社,2001年5月。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 模式识别 方案 比较