模式识别期末试题DOC.docx
- 文档编号:9079932
- 上传时间:2023-02-03
- 格式:DOCX
- 页数:40
- 大小:176.82KB
模式识别期末试题DOC.docx
《模式识别期末试题DOC.docx》由会员分享,可在线阅读,更多相关《模式识别期末试题DOC.docx(40页珍藏版)》请在冰豆网上搜索。
模式识别期末试题DOC
一、填空与选择填空(本题答案写在此试卷上,30分)
1、模式识别系统的基本构成单元包括:
模式采集、特征提取与选择
和模式分类。
2、统计模式识别中描述模式的方法一般使用特真矢量;句法模式识
别中模式描述方法一般有串、树、网。
3、聚类分析算法属于
(1);判别域代数界面方程法属于(3)。
(1)无监督分类
(2)有监督分类(3)统计模式识别方法(4)句
法模式识别方法
4、若描述模式的特征量为0-1二值特征量,则一般采用(4)进行
相似性度量。
(1)距离测度
(2)模糊测度(3)相似测度(4)匹配测
度
5、下列函数可以作为聚类分析中的准则函数的有
(1)J二巩跖%]
(2)"恥比1⑶
(1)(3)(4)(
;-1i-1
J=g(函-m^(m.-sn)j-i
6、线性判别函数的求解过程是将N维特征矢量投影在
(2)中进行
(1)二维空间
(2)—维空间(3)1维空间
7、下列判别域界面方程法中只适用于线性可分情况的算法有
(1);
线性可分、不可分都适用的有(3)。
(1)感知器算法
(2)算法(3)积累位势函数法
8、下列四元组中满足文法定义的有
(1)
(2)(4)。
(1)({AB},{0,1},{
A?
01,A?
0A1,A?
1A0,B?
B?
0},
A
(2)({A},{0,1},{
A?
0,A?
0A},
A
(3)({S},{a,b},{
S?
00S,S?
11S,S?
00,S?
11},
S)
(4)({A},{0,1},{
A?
01,A?
0A1,
A?
1A0},A
9、影响层次聚类算法结果的主要因素有(
计算模式距离的测度、
(聚类
准则、类间距离门限、
预定的类别数目)
)o
10、欧式距离具有(1、
2):
马式距离具有(1、2、3、4
)o
(1)平移不变性
(2)旋转不变性(3)尺度缩放不变性(4)不受量纲影响的特性
11、线性判别函数的正负和数值大小的几何意义是(正(负)表示样本点位于判别界面法向量指向的正(负)半空间中;绝对值正比于样本点到判别界面的距离。
)。
12、感知器算法丄。
(1)只适用于线性可分的情况;
(2)线性可分、不可分都适用。
13、积累势函数法较之于算法的优点是(该方法可用于非线性可分情况
(也可用于线性可分情况)):
位势函数K()与积累位势函数K(x)
K(X)二Z^kK(x,Xk)
的关系为(XkX)O
14、在统计模式分类问题中,聂曼-皮尔逊判决准则主要用于(某一种判决错误较另一种判决错误更为重要)情况:
最小最大判决准则主要用于(先验概率未知的)情况。
15、“特征个数越多越有利于分类”这种说法正确吗?
(错误)。
特征
选择的主要目的是(从n个特征中选出最有利于分类的的m个特征
(mvrj),以降低特征维数)。
一般在(可分性判据对特征个数具有
单调性)和(>>n)的条件下,可以使用分支定界法以减少计算量。
16、散度越大,说明类模式与类模式的分布(差别越大);当类模式与类模式的分布相同时,(0)。
17、已知有限状态自动机(?
,Qd,q0,F),?
={0,1};{q0,q1};d:
d(q0,0)=q1,d(q0,1)=q1,d(q1,0)0,d(q1,1)0;q00;{q0}。
现有输入字符串:
(a),(b)1100110011,(c)1,(d)0010011,试问,用对上述字符串进行分类的结果为(31:
{};32:
{})。
18、影响聚类算法结果的主要因素有(—②③④_)。
①已知类别的样本质量;②分类准则;③特征选取;④模式相似性测度。
19、模式识别中,马式距离较之于欧式距离的优点是(_③④)。
①平移不变性;②旋转不变性;③尺度不变性;④考虑了模式的分布。
20、基于二次准则函数的算法较之于感知器算法的优点是(—①③_)
①可以判别问题是否线性可分;②其解完全适用于非线性可分的情况;
③其解的适应性更好;④计算量小。
21、影响基本C均值算法的主要因素有(④①②)。
①样本输入顺序;②模式相似性测度;③聚类准则;④初始类心的选取。
22、位势函数法的积累势函数K(x)的作用相当于判决中的(—②④_)①先验概率;②后验概率;③类概率密度;④类概率密度与先验概率
的乘积。
23、在统计模式分类问题中,当先验概率未知时,可以使用(—②④_)①最小损失准则;②最小最大损失准则;③最小误判概率准则;④判决。
24、在(①③)情况下,用分支定界法做特征选择计算量相对较少。
①>>n,(n为原特征个数,d为要选出的特征个数);②样本较多;
③选用的可分性判据J对特征数目单调不减;④选用的可分性判据J具有可加性。
25、散度是根据(—③—)构造的可分性判据。
①先验概率;②后验概率;③类概率密度;④信息熵;⑤几何距离。
26、似然函数的概型已知且为单峰,贝何用(—①②③④⑤_)估计该似然函数。
①矩估计;②最大似然估计;③估计;④学习;⑤窗法。
27、近邻兀法较之窗法的优点是(—②—)。
①所需样本数较少;②稳定性较好;③分辨率较高;④连续性较好。
28、从分类的角度讲,用做特征提取主要利用了的性质:
(—①③—)。
①变换产生的新分量正交或不相关;②以部分新的分量表示原矢量均方误差最小;③使变换后的矢量能量更趋集中;
29、一般,剪辑最近邻方法在(_©_)的情况下效果较好。
①样本数较大;②样本数较小;③样本呈团状分布;④样本呈链状分布。
30、如果以特征向量的相关系数作为模式相似性测度,贝V影响聚类算法结果的主要因素有(—②③_)。
①已知类别样本质量;②分类准则;③特征选取;④量纲。
、(15分)简答及证明题
(1)影响聚类结果的主要因素有那些?
(2)证明马氏距离是平移不变的、非奇异线性变换不变的。
答:
(1)分类准则,模式相似性测度,特征量的选择,量纲
(2)证明:
设,有非奇异线性变换:
(2分)
(2分)
(1分)
(1分)
d2(為引=(£-(Z-占)
1JJ1J?
1n
用荷mjTfm3
1m
=^zjS(^-垠)徑_虽)1
i用
im
=刈角£筠-壬咫T1^-卫以川亏厲莎)二厲-丹)巧-"-号)=隔_切■罗⑷_呵=(爲-引w罗/区-引=(咅一亏)咕1山乙月y】H(X_£j)=闵吗叩/T傘-初=(咅一初1灯4図-引
:
U)(4分)
三、(8分)说明线性判别函数的正负和数值大小在分类中的意义并证明
之。
答:
(1)(4分)临的绝对值M动正比于才到超平面蹄二0的距离血
応-一叫+i
T=
平面71的方程可以写成1^11HII
式中岡=(w;+w;+…+w;严。
于是W_hll是平面71的单位法矢量,上式可写
成
hl
设『是平面「中的任一点,A是特征空间J中任一点,点】到平面.的
距离为差矢量在广上的投影的绝对值,即
比凋(亍-沏二战-溺
陟+W询I1I"
=下厂肓如(1-1)
上式中利用了『在平面二中,故满足方程
式(1-1)的分子为判别函数绝对值,上式表明,d(口的值0(刖正比于〒到
超平面门1|-;的距离人,一个特征矢量代入判别函数后所得值的绝对值越大表明该特征点距判别界面越远。
(2)(4分)一;二的正(负)反映】在超平面-;丁“的正(负)侧
两矢量1和〔P的数积为
;—⑴”一十小(2分)
显然,当】和匸和夹角小于二时,即丄在】指向的那个半空间中,
m川>o;反之,当和;『I夹角大于〕「时,即】在[背向的那个半空间中,阚和劾<0。
由于阿丸,故沖炉罚和弗+也同号。
所以,当r在,指向的半空间中时,「匚一I一「;当r在广'背向的半空间中,
.■-o判别函数值的正负表示出特征点位于哪个半空间中,或者换
句话说,表示特征点位于界面的哪一侧。
五、(12分,每问4分)在目标识别中,假定有农田和装甲车两种类型,类型w和类型W2分别代表农田和装甲车,它们的先验概率分别为0.8和
0.2,损失函数如表1所示。
现在做了三次试验,获得三个样本的类概率密度如下:
⑴二:
0.3,0.1,0.6
:
0.7,0.8,0.3
(1)试用贝叶斯最小误判概率准则判决三个样本各属于哪一个类型;
(2)假定只考虑前两种判决,试用贝叶斯最小风险准则判决三个样本各属于哪一类;
(3)把拒绝判决考虑在内,重新考核三次试验的结果。
表1
损失
判决
类
1
4
5
1
1
1
_3户(珂|码)_3
解:
由题可知:
丄」…「匚-,二,•「匚,户区丨码)_1尸(码丨©)—2
一,_':
(1)(4分)根据贝叶斯最小误判概率准则知:
P(和碣)-戸(他)P(码|%)弋尸(叭)P(西|砒),P(码)
-,,则可以任判;「I心,:
,则判为—X,则判为
P(那)(血「不)_。
3(5「1).4
(2)(4分)由题可知:
「一■_..-
P(和码)/
H和码)亍,判为吗;
Pgl码)J
■'■■-_,判为;1;
Pg©);4
,判为r;
(3)(4分)对于两类问题,对于样本:
,假设亠二已知,有
咼丐IX)=加码I码)戸(码IX)+2(勺I眄讯码Ix)=
_丸(対|昭)P(;r|码)0©)+2(吟I嗚)P(xI码)尸(劭)=PW
则对于第一个样本,
凤遢|x)二
5x021
HE
4x0.21
P©
,则拒判;
R(珂|x)=
F(x)
0.24
:
,则拒判;
219
丽耙心
0.51
厂,拒判。
1.监督学习与非监督学习的区别:
监督学习方法用来对数据实现分类,分类规则通过训练获得。
该训练集由带分类号的数据集组成,因此监督学习方法的训练过程是离线的。
非监督学习方法不需要单独的离线训练过程,也没有带分类号(标号)的训练数据集,一般用来对数据集进行分析,如聚类,确定其分布的主分量等。
(实例:
道路图)就道路图像的分割而言,监督学习方法则先在训练用图像中获取道路象素与非道路象素集,进行分类器设计,然后用所设计的分类器对道路图像进行分割。
使用非监督学习方法,则依据道路路面象素与非道路象素之间的聚类分析进行聚类运算,以实现道路图像的分割。
2.动态聚类是指对当前聚类通过迭代运算改善聚类;分级聚类则是将样本个体,按相似度标准合并,随着相似度要
求的降低实现合并。
3.线性分类器三种最优准则:
准则:
根据两类样本一般类内密集,类间分离的特点,寻找线
性分类器最佳的法线向量方向,使两类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开。
该种度量通过类内离散矩阵和类间离散矩阵实现。
感知准则函数:
准则函数以使错分类样本到分界面距离之和最小为原则。
其优点是通过错分类样本提供的信息对分类器函数进行修正,这种准则是人工神经元网络多层感知器的基础。
支持向量机:
基本思想是在两类线性可分条件下,所设计的分类器界面使两类之间的间隔为最大,它的基本出发点是使期望泛化风险尽可能小。
、试问“模式”与“模式类”的含义。
如果一位姓王的先生是位老年人,试问“王先生”和“老头”谁是模式,谁是模式类?
答:
在模式识别学科中,就“模式”与“模式类”而言,模式类是一类事物的代表,概念或典型,而“模式”则是某一事物的
具体体现,如“老头”是模式类,而王先生则是“模式”,是“老
头”的具体化。
二、试说明距离平方的定义,到某点的距离平方为常数的轨迹的几何意义,它与欧氏距离的区别与联系。
答:
距离的平方定义为:
其中x,u为两个数据,匚是一个正定对称矩阵(一般为协方差矩阵)。
根据定义,距某一点的距离相等点的轨迹是超椭球,如果是单位矩阵艺,则距离就是通常的欧氏距离。
三、试说明用监督学习与非监督学习两种方法对道路图像中道路区域的划分的基本做法,以说明这两种学习方法的定义与它们间的区另I」。
答:
监督学习方法用来对数据实现分类,分类规则通过训练获得。
该训练集由带分类号的数据集组成,因此监督学习方法的训练过程是离线的。
非监督学习方法不需要单独的离线训练过程,也没有带分类号(标号)的训练数据集,一般用来对数据集进行分析,如聚类,确定其分布的主分量等。
就道路图像的分割而言,监督学习方法则先在训练用图像中获取道路象素与非道路象素集,进行分类器设计,然后用所设计的分类器对道路图像进行分割。
使用非监督学习方法,则依据道路路面象素与非道路象素之间的聚类分析进行聚类运算,以实现道路图像的分割。
四、试述动态聚类与分级聚类这两种方法的原理与不同
答:
动态聚类是指对当前聚类通过迭代运算改善聚类;分级聚类则是将样本个体,按相似度标准合并,随着相似度要求的降低实现合并。
五、
如果观察一个时序信号时在离散时刻序列得到的观察量序列表示
为-—而该时序信号的内在状态序列表示成
如果计算在给定O条件下出现S的概率,试问此概率是何种概率。
如果从观察序列来估计状态序列的最大似然估计,这与决策中基于最小错误率的决策有什么关系。
答:
在给定观察序列--条件下分析它由某个状态序列S产生的概率似后验概率,写成P(),而通过0求对状态序列的最大似然估计,与贝叶斯决策的最小错误率决策相当。
「11/21
六、
已知一组数据的协方差矩阵为V"1,试问
1.协方差矩阵中各元素的含义。
2.求该数组的两个主分量。
3.主分量分析或称变换,它的最佳准则是什么?
4.为什么说经主分量分析后,消除了各分量之间的相关性。
r1
答:
协方差矩阵为I"?
J,则
1)对角元素是各分量的方差,非对角元素是各分量之间的协方差。
rX-l-1/2'
2)主分量,通过求协方差矩阵的特征值,用卜I"入
得‘「一,则:
相应的特征向量为:
一…对应特征向
T
x=-
T
量为
1
J对应
-1
这两个特征向量即为主分量。
3)变换的最佳准则为:
对一组数据进行按一组正交基分解,在只取相同数量分量的条件下,以均方误差计算截尾误差最小。
4)在经主分量分解后,协方差矩阵成为对角矩阵,因而各主分量间相关消除。
七、试说明以下问题求解是基于监督学习或是非监督学习:
1.求数据集的主分量
2.汉字识别
3.自组织特征映射
4.图像的分割
答:
1、求数据集的主分量是非监督学习方法;
2、汉字识别对待识别字符加上相应类别号一一有监督学习方法;
3、自组织特征映射一一将高维数组按保留近似度向低维映射一一非监督学习;
4、图像分割按数据自然分布聚类非监督学习方法;
八、试列举线性分类器中最著名的三种最佳准则以及它们各自的原
答:
线性分类器三种最优准则:
准则:
根据两类样本一般类内密集,类间分离的特点,寻找线性分类器最佳的法线向量方向,使两类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开。
该种度量通过类内离散矩阵和类间离散矩阵实现。
感知准则函数:
准则函数以使错分类样本到分界面距离之和最小为原则。
其优点是通过错分类样本提供的信息对分类器函数进行修
正,这种准则是人工神经元网络多层感知器的基础。
支持向量机:
基本思想是在两类线性可分条件下,所设计的分类器界面使两类之间的间隔为最大,它的基本出发点是使期望泛化风险尽可能小。
九、
在一两维特征空间,两类决策域由两条直线H1和H2分界,
其中[匚:
.-,!
:
:
■,:
二].1:
:
II
而包含H1与H2的锐角部分为第一类,其余为第二类。
试求:
1.用一双层感知器构造该分类器
2.用凹函数的并构造该分类器
X2
1)H1与H2将空间划分成四个部分,按使H1与H2大于零与小于零表示成四个区域,而第一类属于(—+)区域,为方便起见,令」二丄'则第一类在(++)区域。
用双层感知器,神经元用1一域值,则在第一类样本输入时,两隐层结点的输出均为+1,
其余则分别为(+—),(――),(—+),故可按图设置域值。
X1X2
2)用凹函数的并表示:
“厂或表示成「"『;:
,
如则二一,否则■■'j
十、
分别为儿=0,以及X1=3,
设有两类正态分布的样本基于最小错误率的贝叶斯决策分界面,
其中两类的协方差矩阵「—「•:
,先验概
率相等,并且有
[1-1]
2
1
(r
--1
r>
L2J
2
V/
5
试求:
:
以及「
答:
设待求
丿,待求
由于•十二,先验概率相等。
则基于最小错误率的决策规则,在两类决策面分界面上的样本X应满足
N」匕二「
(1)
Jl1]
(-11召1丄|2
其中按题意I'丿,丿(注:
为方便起见,在下面
计算中先去掉系数4/3)。
按题意分界面由x仁3及x2=0两条直线构成,则分界面方程为
rJ°「二I】⑵
对
(1)式进行分解有
疋石収-2诩石収枠匡%
=XTS;1X-2#tJS;1X+g^a
/35
Pg「君)X-2仏匡】「必君)X+
得-'i■-.J:
■-■■■.--(3)
由(3)式第一项得
11/2
1/21
a
b
=XjQ-a)+2蛊旳⑴2-b)+Xj(l-c)
(4)
将(4)式与
(2)式对比可知
11
又由1与」',得b2=1/4,
如果1/2,则表明匸匚,此时分界面方程应为线性,与题
b有两种可能,即1/2或1/2,
意不符,只有1/2
则(4)式为:
2X1X2(5)
将相应结果带入(3)式第二项有
2上花]-貝抠;k
11/2
1/21
1-呵]
"IJI|)-(#21_卜苗厂扌心1+畑)U
2+»旬)引+(扌畑一旳2+|)衍
2(-1,2)
(6)
则结合(5)
(2)应有
-畑+空畑-0,则2沟]=畑(7)
132
解得沟沟厂,
4
r1
-1/21
r1
1/21
3
-V2
1
1/2
1
1
/
九、证明在艺正定或半正定时,距离r符合距离定义的三个条件,即
(1)r()()
(2)当且仅当时,有r()=0
(3)r()wr()()
证明:
⑴根据定义'1-';'''':
⑵由于艺为对称阵,故艺可以分解为:
二T,其中靠00]
D=0工0
LOO何丿,且所有特征值大于等于零。
可以认为
r(a,A)■(a-ft)rS"1(a-A)■
(a-球严DTDP(a-Q■(DP(a-J))rDP(a-E)
这就变为了传统意义上的欧氏距离,可以由欧氏距离满足的性质直
接证明本命题。
十、对一副道路图像,希望把道路部分划分出来,可以采用以下两种方
法:
1.在该图像中分别在道路部分与非道路部分画出一个窗口,把在这
两个窗口中的象素数据作为训练集,用准则方法求得分类器参数,再用该分类器对整幅图进行分类。
2.将整幅图的每个象素的属性记录在一张数据表中,然后用某种方
法将这些数据按它们的自然分布状况划分成两类。
因此每个象素就分别得到相应的类别号,从而实现了道路图像的分害叽试问以上两种方法哪一种是监督学习,哪个是非监督学习?
答:
第一种方法中标记了两类样本的标号,需要人手工干预训练过程,
属于监督学习方法;
第二种方法只是依照数据的自然分布,把它们划分成两类,属于非监
督学习方法。
十一、已知有两类数据,分别为
top(1,D),(2・0),(b1)(―1,0)F(0i1),(—If1)
试求:
该组数据的类内及类间离散矩阵「、及〔
答:
第一类的均值向量为
/,SL-
1
r6-51
C1
?
$2=_
9
-56
1丿
3
2
1
-21
12
/
r
2
if12
9
-2
6
9
36
十二、设一个二维空间中的两类样本服从正态分布,其参数分别为:
Fi01
r2小
01
1/
^:
=C—1,0)\送殳=
02
11
,
先验概率心;一卜
试证明:
其基于最小错误率的贝叶斯决策分界面方程为一圆,并求其方程。
证明:
先验概率相等条件下,基于最小错误率贝叶斯决策的分界面上两类条件概率密度函数相等。
因此有:
讨徑严)%】(1旳)-卜|厶卜
1-,1
佃-护+彳=|(i1+l)a+j^+ln4
化简为-<…,是一个圆的方程。
十三、试分析五种常用决策规则思想方法的异同。
答、五种常用决策是:
1.基于最小错误率的贝叶斯决策,利用概率论中的贝叶斯公式,出使得错误率最小的分类规则。
2.基于最小风险的贝叶斯决策,引入了损失函数,得出使决策风险
最小的分类。
当在0—1损失函数条件下,基于最小风险的贝叶斯决策变成基于最小错误率的贝叶斯决策。
3.在限定一类错误率条件下使另一类错误率最小的两类别决策。
4.最大最小决策:
类先验概率未知,考察先验概率变化对错误率的影响,找出使最小贝叶斯奉献最大的先验概率,以这种最坏情况设计分类器。
5.序贯分类方法,除了考虑分类造成的损失外,还考虑特征获取造
成的代价,先用一部分特征分类,然后逐步加入性特征以减少分类损失,同时平衡总的损失,以求得最有效益。
十四、假设在某个地区细胞识别中正常(w)和异常(两类先验概率
分别为P(Wi)=0.9,P(wO=0.1,现有一待识别的细胞,其观察值为x,从类条件概率密度分布曲线上查得P(xwi^0.2,P(xw2H0.4,
并且已知,仆=0,,12=6,,21=1,'22-0
试对该细胞x用一下两种方法进行分类:
1.基于最小错误率的贝叶斯决策;
2.基于最小风险的贝叶斯决策;
请分析两种结果的异同及原因。
答:
1.
解:
利用贝叶斯公式•分别计算岀3及5的后验槪率。
尸|耳)=
0・2X69
0-2X0,9+0.4X0-1
7818
F(叫1斗)=1一x)=O*182
根据贝叶斯决策规则式(花2儿有
PGiJV)=O.818>P(wJjt)=C-182
所以合理的决策是把斗归类于正常状态。
2.
解:
已知条件为
严(叭}』0・9*旅je|酗)=0・2,
尸伽】=0.{paI叫)=0・4人£
轴=■‘
F(D=0f1B2
根攥1於计篁给果可知后脸概率为
|x)=O.818,
再计算出条件以险
2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别 期末 试题 DOC