模式识别(蔡宣平主讲)PPT文件格式下载.ppt
- 文档编号:17395263
- 上传时间:2022-12-01
- 格式:PPT
- 页数:713
- 大小:22.17MB
模式识别(蔡宣平主讲)PPT文件格式下载.ppt
《模式识别(蔡宣平主讲)PPT文件格式下载.ppt》由会员分享,可在线阅读,更多相关《模式识别(蔡宣平主讲)PPT文件格式下载.ppt(713页珍藏版)》请在冰豆网上搜索。
n样本(样本(Sample)Sample):
一个具体的研究(客观)对象。
如患者,某人写的一个汉字,一幅图片等。
n模式模式(Pattern)(Pattern):
对客体(研究对象)特征的描对客体(研究对象)特征的描述(定量的或结构的描述),是取自客观世界述(定量的或结构的描述),是取自客观世界的某一样本的测量值的集合(或综合)。
的某一样本的测量值的集合(或综合)。
n特征特征(Features)(Features):
能描述模式特性的量(测能描述模式特性的量(测量值)。
在统计模式识别方法中,通常用一量值)。
在统计模式识别方法中,通常用一个矢量个矢量表示,称之为特征矢量,记为表示,称之为特征矢量,记为n模式类模式类(Class)(Class):
具有某些共同特性的模式的具有某些共同特性的模式的集合。
集合。
概念概念模式识别的例子模式识别的例子计算机自动诊断疾病计算机自动诊断疾病:
1.1.获取情况获取情况(信息采集信息采集)测量体温、血压、心率、测量体温、血压、心率、血液化验、血液化验、XX光透射、光透射、BB超、心电图、超、心电图、CTCT等尽可等尽可能多的信息,并将这些信息数字化后输入电脑。
能多的信息,并将这些信息数字化后输入电脑。
当然在实际应用中要考虑采集的成本,这就是当然在实际应用中要考虑采集的成本,这就是说说特征要进行选择特征要进行选择的。
的。
2.2.运行在电脑中的运行在电脑中的专家系统专家系统或专用程序可以分析或专用程序可以分析这些数据并进行这些数据并进行分类分类,得出正常或不正常的判,得出正常或不正常的判断,不正常情况还要指出是什么问题。
断,不正常情况还要指出是什么问题。
14对象空间对象空间模式空间模式空间特征空间特征空间类型空间类型空间各类空间(各类空间(Space)Space)的概念的概念模式采集:
模式采集:
从客观世界(对象从客观世界(对象空间)到模式空间的过程称为空间)到模式空间的过程称为模式采集。
模式采集。
特征提取和特征选择:
由模式由模式空间到特征空间的变换和选择。
空间到特征空间的变换和选择。
类型判别:
特征空间到类型空特征空间到类型空间所作的操作。
间所作的操作。
模模式式识识别别三三大大任任务务151.1概述模式识别系统数据采集数据采集特征提取特征提取二次特征二次特征提取与选择提取与选择分类分类识别识别待识待识对象对象识别结果识别结果通常在采集信息过程中,还要去除所获取信息通常在采集信息过程中,还要去除所获取信息中的噪声,增强有用的信息等工作。
这种使信息中的噪声,增强有用的信息等工作。
这种使信息纯化的处理过程叫做信息的纯化的处理过程叫做信息的预处理预处理。
分类识别是根据事先确定的分类识别是根据事先确定的分类规则分类规则对前面选取对前面选取的特征进行的特征进行分类分类(即识别)。
(即识别)。
通常能描述对象的元素很多,为节约资源和提通常能描述对象的元素很多,为节约资源和提高处理速度,有时更为了可行性,在满足分类识高处理速度,有时更为了可行性,在满足分类识别正确率要求的条件下,按某种准则尽量选用对别正确率要求的条件下,按某种准则尽量选用对正确分类识别作用较大的特征。
使得用较少的特正确分类识别作用较大的特征。
使得用较少的特征就能完成分类识别任务。
征就能完成分类识别任务。
预处理预处理这个环节的内容很广泛,与要解决的具这个环节的内容很广泛,与要解决的具体问题有关,例如,从体问题有关,例如,从图象图象中将中将汽车车牌汽车车牌的号码的号码识别识别出来,就需要先将出来,就需要先将车牌车牌从从图像图像中找出来,再中找出来,再对对车牌车牌进行进行划分划分,将每个,将每个数字数字分别分别划分划分开。
做到开。
做到这一步以后,才能对每个这一步以后,才能对每个数字数字进行进行识别识别。
以上工。
以上工作都应该在预处理阶段完成。
作都应该在预处理阶段完成。
数字化数字化比特流比特流161.1概述模式识别系统数据采集数据采集特征提取特征提取二次特征二次特征提取与选择提取与选择分类分类识别识别待识待识对象对象识别结果识别结果数据采集数据采集特征提取特征提取改进分类改进分类识别规则识别规则二次特征提二次特征提取与选择取与选择训练训练样本样本改进采集改进采集提取方法提取方法改进特征提改进特征提取与选择取与选择制定改进分制定改进分类识别规则类识别规则人工人工干预干预正确率正确率测试测试171.1概述模式识别系统模式识别系统的主要环节:
模式识别系统的主要环节:
特征提取:
符号表示,如长度、波形、。
特征选择:
选择有代表性的特征,能够正确分类选择有代表性的特征,能够正确分类学习和训练:
学习和训练:
利用已知样本建立分类和识别规则利用已知样本建立分类和识别规则分类识别:
分类识别:
对所获得样本按建立的分类规则进行对所获得样本按建立的分类规则进行分类识别分类识别18纸币识别器对纸币按面额进行分类纸币识别器对纸币按面额进行分类面额面额1.1概述系统实例5元10元20元50元100元191.1概述系统实例长度长度(mm)(mm)宽度宽度(mm)(mm)55元元13613663631010元元14114170702020元元14614670705050元元1511517070100100元元1561567777201.1概述系统实例磁性磁性金属条位置金属条位置(大约大约)55元元有有54/8254/821010元元有有54/8754/872020元元有有57/8957/895050元元有有60/9160/91100100元元有有63/9363/935元10元20元50元100元12345678反反射射光光波波形形221.1概述系统实例数据采集、特征提取:
数据采集、特征提取:
长度、宽度、磁性、磁性的位置,光反射亮度、光长度、宽度、磁性、磁性的位置,光反射亮度、光透射亮度等等透射亮度等等特征选择:
长度、磁性及位置、反射亮度长度、磁性及位置、反射亮度分类识别:
确定纸币的面额及真伪确定纸币的面额及真伪231.1概述系统实例训练集:
训练集:
是一个已知样本集,在监督学习方法是一个已知样本集,在监督学习方法中,用它来开发出模式分类器。
中,用它来开发出模式分类器。
测试集:
在设计识别和分类系统时没有用过的在设计识别和分类系统时没有用过的独立样本集。
独立样本集。
系统评价原则:
为了更好地对模式识别系统性为了更好地对模式识别系统性能进行评价,必须使用一组独立于训练集的测能进行评价,必须使用一组独立于训练集的测试集对系统进行测试。
试集对系统进行测试。
24例:
汽车车牌识别n从摄像头获取包含车牌的彩色图象从摄像头获取包含车牌的彩色图象n车牌定位和获取车牌定位和获取n字符分割和识别字符分割和识别输入图象输入图象特征提取特征提取粗略定位粗略定位分割字符分割字符确定类型确定类型精细定位精细定位识别、输出识别、输出2526271.1概述模式识别的基本方法一、统计模式识别一、统计模式识别二、句法模式识别二、句法模式识别三、模糊模式识别三、模糊模式识别四、人工神经网络法四、人工神经网络法五、人工智能方法五、人工智能方法281.1概述模式识别的基本方法一、统计模式识别一、统计模式识别模式描述方法:
模式描述方法:
特征向量特征向量模式判定:
模式判定:
模式类用条件概率分布模式类用条件概率分布P(X/P(X/ii)表示表示,m,m类就有类就有mm个分布,然后判定未知模式属于哪一个分布。
个分布,然后判定未知模式属于哪一个分布。
291.1概述模式识别的基本方法一、统计模式识别一、统计模式识别理论基础:
理论基础:
概率论,数理统计概率论,数理统计主要方法:
主要方法:
线性、非线性分类、线性、非线性分类、BayesBayes决策、聚类分析决策、聚类分析主要优点:
主要优点:
11)比较成熟)比较成熟22)能考虑干扰噪声等影响)能考虑干扰噪声等影响33)识别模式基元能力强)识别模式基元能力强主要缺点:
主要缺点:
11)对结构复杂的模式抽取特征困难)对结构复杂的模式抽取特征困难22)不能反映模式的结构特征,难以描述模式的性质)不能反映模式的结构特征,难以描述模式的性质33)难以从整体角度考虑识别问题)难以从整体角度考虑识别问题301.1概述模式识别的基本方法二、句法模式识别二、句法模式识别模式描述方法:
符号串,树,图符号串,树,图模式判定:
是一种语言,用一个文法表示一个类,是一种语言,用一个文法表示一个类,mm类就类就有有mm个文法,然后判定未知模式遵循哪一个文法。
个文法,然后判定未知模式遵循哪一个文法。
31例例22:
如下图中一幅图形,要识别图中的物体,:
如下图中一幅图形,要识别图中的物体,选用句法模式识别方法选用句法模式识别方法.1.1概述模式识别的基本方法32解:
解:
图形结构复杂,首先应分解为简单的子图图形结构复杂,首先应分解为简单的子图(背景、物体)。
(背景、物体)。
构成一个多级树结构:
1.1概述模式识别的基本方法33n在学习过程中,确定基元与基元之间的在学习过程中,确定基元与基元之间的关系,推断出生成景物的方法。
关系,推断出生成景物的方法。
n判决过程中,首先提取基元,识别基元判决过程中,首先提取基元,识别基元之间的连接关系,使用推断的文法规则之间的连接关系,使用推断的文法规则做句法分析。
若分析成立,则判断输入做句法分析。
若分析成立,则判断输入的景物属于相应的类型。
的景物属于相应的类型。
1.1概述模式识别的基本方法34理论基础:
形式语言,自动机技术形式语言,自动机技术主要方法:
自动机技术、自动机技术、CYKCYK剖析算法、剖析算法、EarlyEarly算法、转算法、转移图法移图法主要优点主要优点:
11)识别方便,可以从简单的基元开始,由简至繁。
)识别方便,可以从简单的基元开始,由简至繁。
22)能反映模式的结构特征,能描述模式的性质。
)能反映模式的结构特征,能描述模式的性质。
33)对图象畸变的抗干扰能力较强。
)对图象畸变的抗干扰能力较强。
当存在干扰及噪声时,抽取特征基元困难,且易失误。
1.1概述模式识别的基本方法351.1概述模式识别的基本方法三、模糊模式识别三、模糊模式识别模式描述方法:
模糊集合模糊集合A=(A=(aa,a),(,a),(bb,b),.,b),.(nn,n),n)模式判定:
是一种集合运算。
用隶属度将模糊集合划分是一种集合运算。
用隶属度将模糊集合划分为若干子集,为若干子集,mm类就有类就有mm个子集,然后根据择近原个子集,然后根据择近原则分类。
则分类。
36理论基础:
模糊数学模糊数学主要方法:
模糊统计法、二元对比排序法、推理法、模模糊统计法、二元对比排序法、推理法、模糊集运算规则、模糊矩阵糊集运算规则、模糊矩阵主要优点主要优点:
由于隶属度函数作为样本与模板间相似程度的度量,由于隶属度函数作为样本与模板间相似程度的度量,故往往能反映整体的与主体的特征,从而允许样本有故往往能反映整体的与主体的特征,从而允许样本有相当程度的干扰与畸变。
相当程度的干扰与畸变。
准确合理的隶属度函数往往难以建立,故限制了它的准确合理的隶属度函数往往难以建立,故限制了它的应用。
应用。
1.1概述模式识别的基本方法371.1概述模式识别的基本方法四、人工神经网络法四、人工神经网络法模式描述方法:
以不同活跃度表示的输入节点集(神经元)以不同活跃度表示的输入节点集(神经元)模式判定:
是一个非线性动态系统。
通过对样本的学习是一个非线性动态系统。
通过对样本的学习建立起记忆,然后将未知模式判决为其最接近的建立起记忆,然后将未知模式判决为其最接近的记忆。
记忆。
38理论基础:
神经生理学,心理学神经生理学,心理学主要方法:
BPBP模型、模型、HOPHOP模型、高阶网模型、高阶网主要优点主要优点:
可处理一些环境信息十分复杂,背景知识不清楚,推可处理一些环境信息十分复杂,背景知识不清楚,推理规则不明确的问题。
允许样本有较大的缺损、畸变。
理规则不明确的问题。
模型在不断丰富与完善中,目前能识别的模式类还不模型在不断丰富与完善中,目前能识别的模式类还不够多。
够多。
1.1概述模式识别的基本方法391.1概述模式识别的基本方法五、逻辑推理法(人工智能法)五、逻辑推理法(人工智能法)模式描述方法:
字符串表示的事实字符串表示的事实模式判定:
是一种布尔运算。
从事实出发运用一系列规是一种布尔运算。
从事实出发运用一系列规则,推理得到不同结果,则,推理得到不同结果,mm个类就有个类就有mm个结果。
个结果。
40理论基础:
演绎逻辑,布尔代数演绎逻辑,布尔代数主要方法:
产生式推理、语义网推理、框架推理产生式推理、语义网推理、框架推理主要优点主要优点:
已建立了关于知识表示及组织,目标搜索及匹配的完已建立了关于知识表示及组织,目标搜索及匹配的完整体系。
对需要众多规则的推理达到识别目标确认的整体系。
对需要众多规则的推理达到识别目标确认的问题,有很好的效果。
问题,有很好的效果。
当样本有缺损,背景不清晰,规则不明确甚至有歧义当样本有缺损,背景不清晰,规则不明确甚至有歧义时,效果不好。
时,效果不好。
1.1概述模式识别的基本方法411.1概述模式识别的发展简史19291929年年G.TauschekG.Tauschek发明阅读机发明阅读机,能够阅读,能够阅读0-90-9的数字。
的数字。
3030年代年代FisherFisher提出统计分类理论,奠定了统提出统计分类理论,奠定了统计模式识别的基础。
计模式识别的基础。
5050年代年代NoamChemskyNoamChemsky提出形式语言理论提出形式语言理论傅京荪提出句法傅京荪提出句法/结构模式识别。
结构模式识别。
6060年代年代L.A.ZadehL.A.Zadeh提出了模糊集理论,模糊提出了模糊集理论,模糊模式识别方法得以发展和应用。
模式识别方法得以发展和应用。
421.1概述模式识别的发展简史8080年代年代以以HopfieldHopfield网、网、BPBP网为代表的神经网网为代表的神经网络模型导致人工神经元网络复活,并络模型导致人工神经元网络复活,并在模式识别得到较广泛的应用。
在模式识别得到较广泛的应用。
9090年代年代小样本学习理论,支持向量机也受到小样本学习理论,支持向量机也受到了很大的重视。
了很大的重视。
431.1概述模式识别的应用(举例)n生物学生物学自动细胞学、染色体特性研究、遗传研究自动细胞学、染色体特性研究、遗传研究n天文学天文学天文望远镜图像分析、自动光谱学天文望远镜图像分析、自动光谱学n经济学经济学股票交易预测、企业行为分析股票交易预测、企业行为分析n医学医学心电图分析、脑电图分析、医学图像分析心电图分析、脑电图分析、医学图像分析441.1概述主要实用系统举例n文字识别(文字识别(CharacterRecognition)OCR(OpticalCharacterRecognition)n智能交通(智能交通(IntelligentTraffic)车牌、车型。
车牌、车型。
n语音识别(语音识别(Speechrecognition)翻译机,身份识别等翻译机,身份识别等n目标识别目标识别ATR(AutomaicTargetRecognition)45461.2特征矢量和特征空间471.3随机矢量的描述随机矢量:
随机矢量:
在模式识别过程中,要对许多具体对在模式识别过程中,要对许多具体对象进行测量,以获得许多次观测值。
象进行测量,以获得许多次观测值。
每次观测值不一定相同,所以对许多每次观测值不一定相同,所以对许多对象而言,各个特征分量都是随机变量,对象而言,各个特征分量都是随机变量,即许多对象的特征向量在即许多对象的特征向量在nn维空间中呈随维空间中呈随机性分布,称为随机矢量。
机性分布,称为随机矢量。
481.3随机矢量的描述(一一)随机矢量的分布函数:
随机矢量的分布函数:
设设为随机矢量,为随机矢量,为确定性矢量。
为确定性矢量。
随机矢量的联合概率分布函数定义为:
式中式中表示括号中事件同时发生的概率。
表示括号中事件同时发生的概率。
491.3随机矢量的描述(一一)随机矢量的分布函数:
随机矢量随机矢量的联合概率密度函数定义为:
的联合概率密度函数定义为:
501.3随机矢量的描述511.3随机矢量的描述xxp(x)p(x)(1xp)(2xp521.3随机矢量的描述531.3随机矢量的描述(二二)随机矢量的数字特征:
随机矢量的数字特征:
其中,其中,的分量:
的分量:
式中,式中,是是的第的第个分量的边缘个分量的边缘密度。
随机矢量密度。
随机矢量的均值矢量的均值矢量的各分的各分量是相应的各随机分量的均值。
量是相应的各随机分量的均值。
541.3随机矢量的描述(二二)随机矢量的数字特征:
条件期望条件期望在模式识别中,经常以类别在模式识别中,经常以类别作为条件,在这作为条件,在这种情况下随机矢量种情况下随机矢量的条件期望矢量定义为的条件期望矢量定义为551.3随机矢量的描述随机矢量随机矢量的自协方差矩阵表征各分量围绕的自协方差矩阵表征各分量围绕其均值的散布情况及各分量间的相关关系,其均值的散布情况及各分量间的相关关系,其定义为:
其定义为:
(二二)随机矢量的数字特征:
协方差矩阵协方差矩阵561.3随机矢量的描述571.3随机矢量的描述581.3随机矢量的描述(二二)随机矢量的数字特征:
相关系数相关系数由布尼亚科夫斯基不等式知由布尼亚科夫斯基不等式知:
相关系数矩阵定义为相关系数矩阵定义为:
591.3随机矢量的描述601.3随机矢量的描述611.3随机矢量的描述621.3随机矢量的描述631.4正态分布641.4正态分布(11)一维随机变量的正态分布)一维随机变量的正态分布651.4正态分布661.4正态分布(22)随机矢量的正态分布)随机矢量的正态分布正态分布随机矢量正态分布随机矢量的概率密度函数定义为:
的概率密度函数定义为:
671.4正态分布681.4正态分布(22)二维随机变量的正态分布)二维随机变量的正态分布691.41.4正态分布正态分布范例范例木板木板图象图象512512d=3长度长度纹理纹理亮度亮度c=2松木松木桦木桦木维数维数无限无限有限有限/很大很大R有限有限d不大不大c总结:
模式识别过程dR无限模式采集模式采集模式空间模式空间特征提取特征提取/选择选择类型空间类型空间分类分类特征空间特征空间客观世界客观世界待识别对待识别对象象识别过程识别过程错误概率检测错误概率检测制定分类的制定分类的判决规则判决规则特征提取特征提取/选择选择方法校正方法校正学习过程学习过程采集方法校正采集方法校正已知对象已知对象预处理预处理711.试证明,对于正态分布,不相关与试证明,对于正态分布,不相关与独立是等价的。
独立是等价的。
2.试证明,多元正态随机矢量的线性试证明,多元正态随机矢量的线性变换仍为多元正态随机矢量。
变换仍为多元正态随机矢量。
3.试证明,多元正态随机矢量试证明,多元正态随机矢量X的分量的分量的线性组合是一正态随机变量。
的线性组合是一正态随机变量。
习题习题72模式识别主讲:
蔡宣平蔡宣平教授教授电话:
电话:
7344173441(OO),73442,73442(HH)E-mailE-mail:
单位单位:
电子科学与工程学院信息工程系电子科学与工程学院信息工程系73第二章第二章聚类分析聚类分析(ClusteringAnalysis)2.12.1聚类分析的概念聚类分析的概念2.22.2模式相似性测度模式相似性测度2.32.3类的定义与类间距离类的定义与类间距离2.42.4聚类的算法聚类的算法742.12.1聚类分析的概念聚类分析的概念一、聚类分析的基本思想一、聚类分析的基本思想相似的归为一类。
相似的归为一类。
模式相似性的度量和聚类算法。
无监督分类无监督分类(Unsupervised)。
二、特征量的类型二、特征量的类型物理量物理量-(-(重量、长度、速度重量、长度、速度)次序量次序量-(-(等级、技能、学识等级、技能、学识)名义量名义量-(-(性别、状态、种类性别、状态、种类)第二章第二章聚类分析聚类分析75三、方法的有效性三、方法的有效性取决于分类算法和特征
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别 蔡宣平 主讲