模式识别期末试题.docx
- 文档编号:28380009
- 上传时间:2023-07-10
- 格式:DOCX
- 页数:47
- 大小:221.63KB
模式识别期末试题.docx
《模式识别期末试题.docx》由会员分享,可在线阅读,更多相关《模式识别期末试题.docx(47页珍藏版)》请在冰豆网上搜索。
模式识别期末试题
填空与选择填空(本题答案写在此试卷上,
30分)
1、模式识别系统的基本构成单元包括:
模式采集、特征提取与选择
和模式分类。
2、统计模式识别中描述模式的方法一般使用特真矢量;句法模式识别中模式描述方法一般有串
树、网。
3、聚类分析算法属于
(1);判别域代数界面方程法属于(3)。
(1)无监督分类
(2)有监督分类(3)统计模式识别方法(4)句法模式识别方法
4、若描述模式的特征量为0-1二值特征量,则一般采用(4)进行相似性度量。
(1)距离测度
(2)模糊测度(3)相似测度(4)匹配测度
5、下列函数可以作为聚类分析中的准则函数的有
(1)(3)(4)。
(1)八—[一
(2)
J=£(码-丙(呜-m)
(4)
6、Fisher线性判别函数的求解过程是将N维特征矢量投影在
(2)中进行
(1)二维空间
(2)—维空间
(3)N-1维空间
7、下列判别域界面方程法中只适用于线性可分情况的算法有
(1);线性可分、不可分都适用的有
(聚类准则、类间距离门限、预定的
(3)
8、下
列四兀组中满足文法
去定
〕义的有
(1)
(2)(4)
。
(1)
({A,B},{0,1},{
A01,
A0A1
A1
A0,B
BA,B0},A)
(2)
({A},{0,1},{
A
0,A
0A},A
(3)
({S},{a,b},{
S
00S,
S11S,
S00,
S11},
S)
(4)
({A},{0,1},{
A
01,A
0A1,A
1A0},
A
(1)感知器算法
(2)H-K算法
(3)积累位势函数法
9、影响层次聚类算法结果的主要因素有(
计算模式距离的测度、
类别数目))。
10、欧式距离具有(1、2);马式距离具有(1、2、3、4)。
(1)平移不变性
(2)旋转不变性(3)尺度缩放不变性(4)不受量纲影响的特性
11、线性判别函数的正负和数值大小的几何意义是(正(负)表示样本点位于判别界面法向量指向的
正(负)半空间中;绝对值正比于样本点到判别界面的距离。
)。
12、感知器算法丄。
(1)只适用于线性可分的情况;
(2)线性可分、不可分都适用。
13、积累势函数法较之于H-K算法的优点是(该方法可用于非线性可分情况(也可用于线性可分情况));
K(x)〜kK(xx)
位势函数K(x,xk)与积累位势函数K(x)的关系为(XkX)。
14、在统计模式分类问题中,聂曼-皮尔逊判决准则主要用于(某一种判决错误较另一种判决错误更
为重要)情况;最小最大判决准则主要用于(先验概率未知的)情况。
15、“特征个数越多越有利于分类”这种说法正确吗?
(错误)。
特征选择的主要目的是(从n个特征
中选出最有利于分类的的m个特征(m 一般在(可分性判据对特征个数 具有单调性)和(Cnm>>n)的条件下,可以使用分支定界法以减少计算量。 16、散度Jij越大,说明i类模式与j类模式的分布(差别越大);当i类模式与j类模式的分布相同时,Jij=(0)。 17、已知有限状态自动机Af=(,Q,,qO,F),={0,1};Q={qO,q1};: (q0,0)=q1,(q0, 1)=q1,(q1,0)=q0,(q1,1)=q0;q0=q0;F={q0}。 现有输入字符串: (a)00011101011,(b)1100110011, (c)101100111000,(d)0010011,试问,用Af对上述字符串进行分类的结果为(31: {a,d};3 2: {b,c})。 18、影响聚类算法结果的主要因素有(—②③④_)。 ①已知类别的样本质量;②分类准则;③特征选取;④模式相似性测度。 19、模式识别中,马式距离较之于欧式距离的优点是(_③④_)。 ①平移不变性;②旋转不变性;③尺度不变性;④考虑了模式的分布。 20、基于二次准则函数的H-K算法较之于感知器算法的优点是(—①③_)。 ①可以判别问题是否线性可分;②其解完全适用于非线性可分的情况; ③其解的适应性更好;④计算量小。 21、影响基本C均值算法的主要因素有(④①②)。 ①样本输入顺序;②模式相似性测度;③聚类准则;④初始类心的选取。 22、位势函数法的积累势函数K(x)的作用相当于Bayes判决中的(—②④_)。 ①先验概率;②后验概率;③类概率密度;④类概率密度与先验概率的乘积。 23、在统计模式分类问题中,当先验概率未知时,可以使用(—②④_)。 ①最小损失准则;②最小最大损失准则;③最小误判概率准则;④N-P判决。 24、在(—①③—)情况下,用分支定界法做特征选择计算量相对较少。 ①Gd>>n,(n为原特征个数,d为要选出的特征个数);②样本较多;③选用的可分性判据J对特征数目单调不减;④选用的可分性判据J具有可加性。 25、散度Jd是根据(③)构造的可分性判据。 ①先验概率;②后验概率;③类概率密度;④信息熵;⑤几何距离。 26、似然函数的概型已知且为单峰,则可用(一①②③④⑤_)估计该似然函数。 ①矩估计;②最大似然估计;③Bayes估计;④Bayes学习;⑤Parzen窗法。 27、Kn近邻元法较之Parzen窗法的优点是(一②_)。 ①所需样本数较少;②稳定性较好;③分辨率较高;④连续性较好。 28、从分类的角度讲,用DKLT做特征提取主要利用了DKLT的性质: (_①③_)。 ③使变换后的矢 ②③)。 ①变换产生的新分量正交或不相关;②以部分新的分量表示原矢量均方误差最小; 量能量更趋集中; 29、一般,剪辑k-NN最近邻方法在(—①_)的情况下效果较好。 ①样本数较大;②样本数较小;③样本呈团状分布;④样本呈链状分布。 30、如果以特征向量的相关系数作为模式相似性测度,则影响聚类算法结果的主要因素有 ①已知类别样本质量;②分类准则;③特征选取;④量纲。 (15分)简答及证明题 (1)影响聚类结果的主要因素有那些? (2)证明马氏距离是平移不变的、非奇异线性变换不变的。 答: (1)分类准则,模式相似性测度,特征量的选择,量纲。 (2)证明: 屮国爲J=尻一忆」j厂临厂右) (2分) (1 设,有非奇异线性变换: (1 (2分) 1 m-1 匸j容(禹-虽)(冬-妫, =刈右若岛-习厲一爻)0=眄川 锁环丹厂谄-力)•罗例-丹)=禺-闿yry1㈣-呵 =偽-初1刖7咕缶-初=国_初口3耳貝丁"岛一即二国-f理方1/—1」(咅-弓) =厲-鬲)町匕一初 =蔚国尽) (4分) 三、(8分)说明线性判别函数的正负和数值大小在分类中的意义并证明之。 答: (1)(4分) 一;’;的绝对值-''正比于-到超平面’」•;的距离•: 平面厂的方程可以写成 ‘1231云;徑 式中「J一汇”。 于是是平面八的单位法矢量,上式可写成 —% 设厂是平面兀中的任一点,丄是特征空间二“中任一点,点「•到平面八的距离为差矢量」二在;上的投影的绝对值,即 诵令YPq 必咔住-厉卜丽-诗广崗"茴旷 1 PoII 上式中利用了 上’在平面「中,故满足方程 僞叫+1 kll~hl 式(1-1)的分子为判别函数绝对值,上式表明,山二的值卜正比于「•到超平面」■的距离I, 一个特征矢量代入判别函数后所得值的绝对值越大表明该特征点距判别界面越远。 (2)(4分)的正(负)反映壬在超平面丄: "-的正(负)侧 两矢量和,的数积为 谡恫服-p||co£(S,(i-0)) (2分) 显然,当和「--夹角小于! 丁时,即人在•'指向的那个半空间中,-」F二: : ;'>o;反之,当• 和以一刃夹角大于90"时,即丘在雨背向的那个半空间中,匸曲(兀(冠-刃)<0。 由于伸0,故 --「和;「''+‘一同号。 所以,当〒在E指向的半空间中时,: ’-;当亍在示背向的半 空间中,'」■—、—'。 判别函数值的正负表示出特征点位于哪个半空间中,或者换句话说,表示特征点位于界面的哪一侧。 五、(12分,每问4分)在目标识别中,假定有农田和装甲车两种类型,类型i和类型2分别代表农 田和装甲车,它们的先验概率分别为0.8和0.2,损失函数如表1所示。 现在做了三次试验,获得三个 样本的类概率密度如下: : 0.3,0.1,0.6 二'凤: 0.7,0.8,0.3 (1)试用贝叶斯最小误判概率准则判决三个样本各属于哪一个类型; (2)假定只考虑前两种判决,试用贝叶斯最小风险准则判决三个样本各属于哪一类; (3)把拒绝判决考虑在内,重新考核三次试验的结果。 表1 判决 损失 类型 1 % 1 1 4 5 1 1 1 卩⑴⑷)-? 解: 由题可知]儿 P(可|叫)二1尸(丙|粘〉_丄 尸(花|冏)8貝羽|对 (1)(4分)根据贝叶斯最小误判概率准则知: 尸(画|码)二P(輕〕F(衍|殆)=F(码)F(阳丨如严◎) -■-.J」i: 则可以任判;一上丨-」-'.: ,则判为匚「=: 丄: -1,则判为J; 肌腐炖一為)_0¥-1)_4 S—S (2)(4分)由题可知: ;,1■■: <-1-''1' 贝U判为丄; 尸(心丨码)芝4 「.: ■「,判为X; F(起|码)7,判为刊; (3)(4分)对于两类问题,对于样本二,假设'-,: 已知,有 氏(遇I方=吨II碗曰01力+爲吗|即尸gIX)= 與碍I码)f(天|码)尸(码)+观円|啣a|码)貝吗) %) 则对于第一个样本, ■■'■■: |--: |•': ■;,则拒判; ■,贝y拒判; FO)P⑶P(心,拒判。 1.监督学习与非监督学习的区别: 监督学习方法用来对数据实现分类,分类规则通过训练获得。 该训练集由带分类号的数据集组成,因此监督学习方法的训练过程是离线的。 非监督学习方法不需要单独的离线训练过程,也没有带分类号(标号)的训练数据集,一般用来对数据集进行分析,如聚类,确定其分布的主分量等。 (实例: 道路图)就道路图像的分割而言,监督学习方法则先在训练用图像中获取道路象素与非道路象素集, 第6页共26页 进行分类器设计,然后用所设计的分类器对道路图像进行分割。 使用非监督学习方法,则依据道路路面象素与非道路象素之间的聚类分析进行聚类运算,以实现道路图像的分割。 2.动态聚类是指对当前聚类通过迭代运算改善聚类; 分级聚类则是将样本个体,按相似度标准合并,随着相似度要求的降低实现合并。 3.线性分类器三种最优准则: Fisher准则: 根据两类样本一般类内密集,类间分离的特点,寻找线性分类器最佳的法线向量方向,使两类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开。 该种度量通过类内离散矩阵Sw和类间离散矩阵Sb实现。 感知准则函数: 准则函数以使错分类样本到分界面距离之和最小为原则。 其优点是通过错分类样本提供的信息对分类器函数进行修正,这种准则是人工神经元网络多层感知器的基础。 支持向量机: 基本思想是在两类线性可分条件下,所设计的分类器界面使两类之间的间隔为最大,它的基本岀 发点是使期望泛化风险尽可能小。 一、试问模式”与模式类”的含义。 如果一位姓王的先生是位老年人,试问王先生”和老头”谁是模式,谁是模式 类? 答: 在模式识别学科中,就模式”与模式类”而言,模式类是一类事物的代表,概念或典型,而模式” 则是某一事物的具体体现,如老头”是模式类,而王先生则是模式”是老头”的具体化。 二、试说明Mahalanobis距离平方的定义,到某点的Mahalanobis距离平方为常数的轨迹的几何意义,它与欧氏距离的区别与联系。 答: Mahalanobis距离的平方定义为: r3(x.u)=(x-ii)T2_1(x-u) 其中x,u为两个数据,一是一个正定对称矩阵(一般为协方差矩阵)。 根据定义,距某一点的Mahalanobis距离相等点的轨迹是超椭球,如果是单位矩阵厶贝UMahalanobis距离就是通常的欧氏距离。 三、试说明用监督学习与非监督学习两种方法对道路图像中道路区域的划分的基本做法,以说明这两种学习方法的定义与它们间的区别。 答: 监督学习方法用来对数据实现分类,分类规则通过训练获得。 该训练集由带分类号的数据集组成,因此监督学习方法的训练过程是离线的。 非监督学习方法不需要单独的离线训练过程,也没有带分类号(标号)的训练数据集,一般用来对数据集进行分析,如聚类,确定其分布的主分量等。 就道路图像的分割而言,监督学习方法则先在训练用图像中获取道路象素与非道路象素集,进行分类器设计,然后用所设计的分类器对道路图像进行分割。 使用非监督学习方法,则依据道路路面象素与非道路象素之间的聚类分析进行聚类运算,以实现道路图像的分割。 四、试述动态聚类与分级聚类这两种方法的原理与不同。 答: 动态聚类是指对当前聚类通过迭代运算改善聚类;分级聚类则是将样本个体,按相似度标准合并,随 着相似度要求的降低实现合并 五、如果观察一个时序信号时在离散时刻序列得到的观察量序列表示为'L,而该时序信号的内在 状态序列表示成S=。 如果计算在给定0条件下出现s的概率,试问此概率是何种概率。 如果 从观察序列来估计状态序列的最大似然估计,这与Bayes决策中基于最小错误率的决策有什么关系。 答: 在给定观察序列1…;条件下分析它由某个状态序列S产生的概率似后验概率,写成 P(S|O),而通过0求对状态序列的最大似然估计,与贝叶斯决策的最小错误率决策相当。 「1血 六、已知一组数据的协方差矩阵为I"21丿,试问 1.协方差矩阵中各元素的含义。 2.求该数组的两个主分量。 3.主分量分析或称K-L变换,它的最佳准则是什么? 4.为什么说经主分量分析后,消除了各分量之间的相关性。 f11/21! 答: 协方差矩阵为1J,则 1)对角元素是各分量的方差,非对角元素是各分量之间的协方差。 2)主分量,通过求协方差矩阵的特征值,用 、对应 相应的特征向量为: 这两个特征向量即为主分量。 3)K-L变换的最佳准则为: 对一组数据进行按一组正交基分解,在只取相同数量分量的条件下,以均方误差计算截尾误差最小。 4)在经主分量分解后,协方差矩阵成为对角矩阵,因而各主分量间相关消除。 七、试说明以下问题求解是基于监督学习或是非监督学习: 1.求数据集的主分量 2.汉字识别 3.自组织特征映射 4.CT图像的分割 答: 1、求数据集的主分量是非监督学习方法; 2、汉字识别对待识别字符加上相应类别号一一有监督学习方法; 3、自组织特征映射一一将高维数组按保留近似度向低维映射一一非监督学习; 4、CT图像分割一一按数据自然分布聚类一一非监督学习方法; 八、试列举线性分类器中最著名的三种最佳准则以及它们各自的原理。 答: 线性分类器三种最优准则: Fisher准则: 根据两类样本一般类内密集,类间分离的特点,寻找线性分类器最佳的法线向量方向,使两 类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开第8页共26页该种度量通过类内离散矩阵Sw和类间离散矩阵Sb实现。 感知准则函数: 准则函数以使错分类样本到分界面距离之和最小为原则。 其优点是通过错分类样本提供的信息对分类器函数进行修正,这种准则是人工神经元网络多层感知器的基础。 支持向量机: 基本思想是在两类线性可分条件下,所设计的分类器界面使两类之间的间隔为最大,它的基 本出发点是使期望泛化风险尽可能小。 九、在一两维特征空间,两类决策域由两条直线H1和H2分界, 其中H].盟]*2卫? =〔|: 2盘]十耳乜+2=0 而包含H1与H2的锐角部分为第一类,其余为第二类。 试求: 1.用一双层感知器构造该分类器 2•用凹函数的并构造该分类器 答: 按题意要求 1)H1与H2将空间划分成四个部分,按使H1与H2大于零与小于零表示成四个区域,而第一类属于(- TJ•—V■? 玄斗2=訂-I +)区域,为方便起见,令…则第一类在(++)区域。 用双层感知器,神经元用域 值,则在第一类样本输入时,两隐层结点的输出均为+1,其余则分别为(H■—),(),(—+),故可按图设 置域值。 -0.5 XIQ 2)用凹函数的并表示: 一「「「或表示成': ,如「\则一I, 否则-■=- 十、设有两类正态分布的样本基于最小错误率的贝叶斯决策分界面,分别为X2=0,以及Xi=3,其中两类的协方 差矩阵L1_'J,先验概率相等,并且有 由于•■一「_,先验概率相等。 则基于最小错误率的Bayes决策规则,在两类决策面分界面上的样本X应满足 (X-旳)丁苓辽-旳)-(咒-出)T君(X-九) (1) 其中按题意 4专 (注: 为方便起见,在下面计算中先去掉系数 4/3)。 按题意分界面由x仁3及x2=0两条直线构成,则分界面方程为 对 (1)式进行分解有 Xt7^X-羊占咳枠: 龙J旳 灯(ZF-石1)尤一2讥: 垃1—必对.区斗 得■■一1''1-■'J_■'■'-! (3) 由(3)式第一项得 诒-帥皿1/2 A (4) -Xjfl-a)+2»^2(1/2-b)+xj(l-c) 将(4)式与 (2)式对比可知 a=1,c=1 又由c=1与■--I'一,得b2=1/4,b有两种可能,即b=1/2或b=-1/2, b=-1/2 如果b=1/2,则表明: -I」,此时分界面方程应为线性,与题意不符,只有 则(4)式为: 2X1X2(5) 将相应结果带入(3)式第二项有 则结合(5) (2)应有 ,则 (7) 骂-II -1/2 1 1 「11/21 1/21 由 J 得 九、证明在工正定或半正定时,Mahalanobis距离r符合距离定义的三个条件,即 (1)r(a,b)=r(b,a) (2)当且仅当a=b时,有r(a,b)=0 (3)r(a,c) 证明: 00 -° oA 丿,且所有 ⑴根据定义",一、•-■|: ,-': 一人 ⑵由于工为对称阵,故工可以分解为s=,其中I 特征值大于等于零。 可以认为 心方)=(a-i)rS~Ldr-^)= (a-疔兰LfDP(a-i)=(DP(梯-时)7-坊 这就变为了传统意义上的欧氏距离,可以由欧氏距离满足的性质直接证明本命题。 十、对一副道路图像,希望把道路部分划分出来,可以采用以下两种方法: 1•在该图像中分别在道路部分与非道路部分画出一个窗口,把在这两个窗口中的象素数据作为训练集,用Fisher准则方法求得分类器参数,再用该分类器对整幅图进行分类。 2•将整幅图的每个象素的属性记录在一张数据表中,然后用某种方法将这些数据按它们的自然分布状况划分成两类。 因此每个象素就分别得到相应的类别号,从而实现了道路图像的分割。 试问以上两种方法哪一种是监督学习,哪个是非监督学习? 答: 第一种方法中标记了两类样本的标号,需要人手工干预训练过程,属于监督学习方法;第二种方法只是依照数据的自然分布,把它们划分成两类,属于非监督学习方法。 1、已知有两类数据,分别为 叫: (b0),(2,0)s(1,1)my(—1’0),(0-1)・(一1,I) 试求: 该组数据的类内及类间离散矩阵及丄 答: 第一类的均值向量为 1 -51 [2 6 5 r12 -2 3 -61 十二、设一个二维空间中的两类样本服从正态分布,其参数分别为: (1小 73L(201 ^1=(1.,0? -=1 H口一L,0),兮=| 1Io1 ‘102 V/ 先验概率, 试证明: 其基于最小错误率的贝叶斯决策分界面方程为一圆,并求其方程 证明: 先验概率相等条件下,基于最小错误率贝叶斯决策的分界面上两类条件概率密度函数相等。 因此有: -*3-叭)欣“X冷血百$ 1Fn1 -2徑-幻尸右理-吩 化简为: : ――是一个圆的方程。 十三、试分析五种常用决策规则思想方法的异同 答、五种常用决策是: 1.基于最小错误率的贝叶斯决策,利用概率论中的贝叶斯公式,得出使得错误率最小 的分类规则。 2.基于最小风险的贝叶斯决策,引入了损失函数,得出使决策风险最小的分类。 当在0-1损失函数条件下,基于最小风险的贝叶斯决策变成基于最小错误率的贝叶斯决 3.在限定一类错误率条件下使另一类错误率最小的两类别决策。 4.最大最小决策: 类先验概率未知,考察先验概率变化对错误率的影响,找出使最小贝叶斯奉献最大的先验概率,以这种最坏情况设计分类器。 5.序贯分类方法,除了考虑分类造成的损失外,还考虑特征获取造成的代价,先用一部分特征分类,然后逐步加入性特征以减少分类损失,同时平衡总的损失,以求得最有效益。 十四、假设在某个地区细胞识别中正常(wi)和异常(W2)两类先验概率分别为P(wi)=0.9,P(W2)=0.1,现有一待识别的细胞,其观察值为X,从类条件概率密度分布曲线上查得P(xwJ0.2,P(XW2)0.4,并且已知110,126,211,220 试对该细胞X用一下两种方法进行分类: 1.基于最小错误率的贝叶斯决策; 2.基于最小风险的贝叶斯决策;请分析两种结果的异同及原因。 答: 1. 解: 利用贝叶斷公武*分别计算出的及气的肓验概 2! 、pWSPS_0.2X0.9户十 禹一G.2M9+0.4Z1一°⑻R 〉加工|的)pw PG气3Jt)=l—L&2 根据0! 叶斯决策规则式(24八有 尸(啊|黑)=0.=182 所以介理的决黄是把畫归类于王常状态. 2. 解: 已知臬件为 Pg)=(XI^(x|«h)=0>4 A|j=6 人竝=n p(气m=().182 F57/扒龙|勧)=0* Ali=Gi 根IS1耸计箕结果可知后验概率为^(cu-|x)=0*81«, 再卄算出条卉以陸 ■ > R(ax)=VA1? P(wx)=九尸(叫|jt)—L092 ;-i R(商j/—2割F|j! =C*816 由于RS|jr)AKg|J
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别 期末 试题