模式识别第1章 绪论.docx
- 文档编号:27858284
- 上传时间:2023-07-05
- 格式:DOCX
- 页数:13
- 大小:294.76KB
模式识别第1章 绪论.docx
《模式识别第1章 绪论.docx》由会员分享,可在线阅读,更多相关《模式识别第1章 绪论.docx(13页珍藏版)》请在冰豆网上搜索。
模式识别第1章绪论
模式识别概论
第1章绪论
第2章随机模式的分类方法
第3章正态分布时的统计决策
第4章线性判别函数
第5章聚类分析
主要参考书:
1.《模式识别》
作者:
边肇祺
出版社:
清华大学出版社出版日期:
2000年1月第2版
2.《模式识别导论》
作者:
李金宗
出版社:
高等教育出版社出版日期:
1994年7月第1版
3.《模式识别导论》
作者:
沈清、汤霖
出版社:
国防科技大学出版社出版日期:
1991年5月第1版
本课内容:
统计模式识别、句法模式识别。
涉及到小波分析、分形几何、神经网络、支撑向量机、模糊数学等知识。
第1章绪论
1.1模式识别的基本概念
1.1.1模式和模式识别
在人们的日常生活中,模式识别是普遍存在和经常进行的过程。
例1:
医生给一个病人看病(模式识别的完整过程)。
(1)测量病人的体温和血压,化验血沉,询问临床表现;
(2)通过综合分析,抓住主要病症;
(3)医生运用自己的知识,根据主要病症,作出正确的诊断。
模式识别技术中,经常使用的术语有:
样本、模式、特征、类型等。
为了便于理解,可以进一步分析上述例子。
样本:
医院里的众多患者,每个患者都是一个样本。
单一样本:
请医生给出诊断的某一个患者,就是众多患者中的一个样本。
样本的测量值:
患者的体温、血压等测量值。
模式:
样本的各测量值的综合。
模式样本:
具有某种模式的样本。
模式采集:
获取某样本的各测量值的过程。
样本特征:
患者的主要病症。
特征提取、特征选择:
模式样本各测量值经过综合分析找出主要病症。
分类判决:
医生运用自己的知识作出诊断。
判决准则、判决规则:
医生的知识。
判决结果:
把患者区别成某种疾病的患者。
(也就是把样本(患者)区别为相应类型(疾病)。
例2:
选取做家具的松木。
怎样区分它的类型?
此外:
人们可以根据飞机的飞行高度、速度、形状、结构判断飞机的种类,根据人的身高、面容和体型,判断是张三还是李四。
上述判断过程,都是模式识别的具体过程。
因此,我们可以这样理解:
模式是取自世界有限部分的单一样本的被测量值的综合。
模式识别就是试图确定一个样本的类型的属性,也就是把某一个样本归属于多个类型中的某一个类型。
模式识别的主要研究内容:
机器的自动识别。
模式识别技术已广泛应用于:
人工智能、计算机工程、机器人、神经生物学、医学、侦探学、高能物理、考古、地址勘探、宇航、武器等领域。
1.1.2模式空间、特征空间和类型空间
一般来说,模式识别必须经历如下的过程:
为了说明这些概念,首先解释一下“物理上可以察觉到的世界”。
物理上可以察觉到的世界:
在客观世界里存在一些物体和事件,它们都可被适当的和足够多的函数来描述,也就是说它们在物理上是可以被测量的,他们的可测数据的集合就称为物理上觉察到的世界。
显然,这些可测数据,或者说这个世界的维数是无限多的。
样本:
在物理上可以觉察到的世界中,所选择出的某些物体和事件。
模式空间的维数:
与选择的样本和测量方法有关,也与特定应用有关。
维数很大,但是是一个有限值。
在模式空间里,每个模式样本都是一个点,点的位置由该模式在各维上的测量值确定。
模式采集:
由物理上可觉察到的世界到模式空间所经历的过程。
模式空间的维数虽然是有限的,但还是非常多,其中一些并不反映样本的实质,机器在作出判断之前要对模式空间里的各坐标元素进行综合分析,以获取最能揭示样本属性的观测量作为主要特征,这些主要特征就构成特征空间。
从模式空间到特征空间所需要的综合分析,往往包含适当的变换和选择,这个过程称为――特征提取和特征选择。
判决规则:
由某些知识和经验可以确定的分类准则。
根据适当的判决规则,把特征空间里的样本区分成不同的类型,从而把特征空间塑造成了――类型空间。
决策面:
不同类型之间的分界面。
类型空间的维数与类型的数目相等,一般小于特征空间的维数。
分类判决:
由特征空间到类型空间所需要的操作就是分类判决。
模式识别过程:
从物理上可以觉察到的世界,通过模式空间、特征空间到类型空间,经历了模式采集、特征提取/选择、以及分类决策等过程,这就是一个完整的模式识别过程。
模式识别过程的图形表示:
为完成上述过程,还需要对机器进行训练,使机器具有识别的能力。
1.1.3预处理
模式空间里,针对具体的研究对象,往往需要进行适当的预处理。
预处理的功能包括:
(1)清除或减少模式采集中的噪声及其它干扰,提高信噪比。
(2)消除或减少数据图像的模糊及几何失真,提高清晰度。
(3)转变模式的结构,以便后续处理(如非线性模式转为线性模式)。
预处理的方法:
滤波、变换、编码、标准化等。
(这些内容在“数字信号处理”、“数字图像处理”等课程中学过)
为了便于计算机处理,往往需要将模拟量转化为数字量,也就是进行A/D转换。
在此过程中必须考虑2个问题,采样间隔与量化等级。
(1)采样间隔(采样频率),表示单位时间内(秒),要求多少个采样值。
(2)量化级,表示每个采样值要有多少个量化级,才能满足要求。
1.1.4特征提取/选择
特征提取/选择的必要性和原则。
一般的情况,人们对客观世界里的具体物体或事件进行模式采集时,总是尽可能多的采集测量数据,造成样本在模式空间里的维数很大。
模式维数很大首先带来的问题是处理的困难,处理时间很长,费用很高,有时甚至直接用于分类是不可能的,即所谓“维数灾难”。
另外,在过多的数据坐标中,有些对刻划事物的本质贡献不大,甚至很小。
因此,特征提取/选择十分必要。
特征提取/选择的目的目标,就是要压缩模式的维数,使之便于处理,减少消耗。
特征提取往往以在分类中使用的某种判决规则为准则,所提取的特征使在某种准则下的分类错误最小。
为此,必须考虑特征之间的统计关系,选用适当的正交变换,才能提取最有效的特征。
特征提取的分类准则:
在该准则下,选择对分类贡献较大的特征,删除贡献甚微的特征。
1.1.5分类
分类目标:
(1)把特征空间划分成类型空间。
(2)把未知类别属性的样本确定为类型空间的某一个类型。
(3)在给定条件下,可以否定样本属于某种类型。
实际分类过程中,对于预先给定的条件,分类中出现错误是不可避免的。
因此,分类过程只能以某种错误率来完成。
显然,错误率越小越好。
但是,分类错误率又受很多条件的制约:
分类方法、分类器设计、选用的样本及提取的特征等。
因此,分类错误率不能任意小。
此外,分类错误率的分析、计算也很困难,只有在较简单的情况下才能有解析的解。
分类错误率是分类过程中的重要问题。
1.2模式识别系统
一个模式识别系统应该完成模式采集、特征提取/选择、分类等功能。
系统方框图如下:
1.模式采集组合
目的:
完成模式的采集。
方法:
根据处理对象的不同,可以选用不同的传感器、测量装置、图像录取输入装置等。
采集之后,还要进行滤波、消除模糊、减少噪声、纠正几何失真等预处理操作。
2.特征提取组合
目的:
实现由模式空间到特征空间的转变,有效压缩维数。
一般来说,特征提取组合应该是在一定分类准则下的最佳或次佳变换器,或是实现某特征选择算法的装置。
3.分类器
目的:
实现对未知类别属性样本的分类判决。
为了设计分类器,首先要确定对分类错误率的要求,选用适当的判决规则。
但是为了使分类器能有效地进行分类判决,还必须对它进行训练。
也就是,分类器首先要进行学习。
4.分类器的训练
大家都知道,小孩认字是一个反复学习的过程,那么机器要掌握某种判决规则,学习过程必不可少。
前面讲过的医生诊病的例子,如果要让机器代替医生来给患者诊断,就必须把医生的知识和经验教给机器,并且输入一些病例,对机器进行训练。
这种训练的过程就是机器学习的过程。
这个过程往往需要反复多次,不断纠正错误,最后才能使机器自动诊断的错误率不超过给定的值。
经过特征提取/选择进入学习过程的样本常常被称为训练样本,其属性预先知道或者不知道。
分类判决规则常常是样本各特征的函数,训练过程就是要确定函数的所有权因子。
这个过程是一个输入、修正、再输入、再修正,不断反复的过程,直到分类错误率不大于给定值为止。
分类器完成训练之后,根据已经确定的判决规则,对未知类别属性的样本进行分类。
此时,分类器就具有自动识别的能力。
1.3模式识别方法
模式识别分为:
统计模式识别、句法模式识别。
统计模式识别:
是以样本在特征空间中的类概率密度函数为基础,进行模式识别。
句法模式识别:
是以图形结构特征为基础,运用形式语言理论的技术,进行模式识别,适用于复杂景物图像处理。
例1:
男女19人进行体检,测量身高和体重,如下表。
但事后发现4人忘了写性别,试问,这4人是男是女?
序号
身高(cm)
体重(kg)
性别
序号
身高(cm)
体重(kg)
性别
1
170
68
男
11
140
62
男
2
130
66
女
12
150
64
女
3
180
71
男
13
120
66
女
4
190
73
男
14
150
66
男
5
160
70
女
15
130
65
男
6
150
66
男
16
140
70
α?
7
190
68
男
17
150
60
β?
8
210
76
男
18
145
65
γ?
9
100
58
女
19
160
75
δ?
10
170
75
男
解:
试验样本是人,分为男、女两个类别。
二维的主要特征是身高、体重,构成二维特征空间。
已知15人的性别,可以作为训练样本,根据其值确定他们在特征空间的位置。
如下图所示:
图中,男性集中于右上方,女性集中于左下方,这就是聚类性质。
采用数理统计方法,可在两个性别之间描绘一条曲线,它是特镇x1(身高)、x2(体重)的函数,表示为
。
可以确定:
则
则
其中,x=(x1,x2)T是向量,称为模式向量。
d(x1,x2)=0描绘的曲线称为分界线。
现考察16~19号体检者,由身高、体重确定在上图中的位置。
显然,16、19在负线一侧,判定他们为女性。
17、18位于正线一侧,判为男性。
上述判决方法使分类错误率最小。
例2:
如下图中一幅图形,要识别图中的物体,选用句法模式识别方法
解:
图形结构复杂,首先应分解为简单的子图(背景、物体)。
背景由地板和墙组成,物体为长方体和三角体。
三角体又分为一个长方形面和一个三角形面。
长方体又分为三个长方形面。
上述分析构成一个多级树结构:
其中,面、三角形、地板和墙壁,即L、T、X、Y、Z、M和N均为基本图形单元,简称基元。
在句法模式识别中,基元就是特征。
句法模式识别的方法:
在学习过程中,确定基元与基元之间的关系,推断出生成景物的方法。
判决过程中,首先提取基元,识别基元之间的连接关系,使用推断的文法规则做句法分析。
若分析成立,则判断输入的景物属于相应的类型。
通过前面的介绍,我们已经知道,模式识别就是要将模式进行正确分类,因此下面的一章将介绍模式分类的方法。
分类器训练/学习目的是确定判决规则,使之具有自动分类识别能力。
在统计模式识别中,特征空间中的“类条件概率密度函数”是各种分类方法的基础,此时,分类器训练/学习就是最终完全确定类条件概率密度函数(类概率密度)。
类概率密度的估计有两种方法:
(1)参数估计法
已知类概率密度函数或能从样本估计出类概率密度函数形式,但其中有未知参数,训练就是得到未知参数值。
如:
已知正态分布,但均值、协方差未知,通过训练求得这些值,进一步得到概率密度函数。
有两种方法:
Bayes估计法、最大似然估计。
(2)非参数估计
不知道类概率密度函数的形式。
常用的方法:
Parzen窗法、Kn-近邻法、正交函数逼近法。
各章内容:
第1章:
绪论
第2章:
随机模式的分类方法(分类方法、分类过程中的错误率等)
第3章:
正态分布时的统计决策
第4章:
线性判别函数(感知器算法、H-K算法、Fisher算法等)
第5章:
聚类分析(聚类准则、C-均值算法、ISODATA算法)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别第1章 绪论 模式识别