基于主成分分析的目标识别研究.docx
- 文档编号:29243516
- 上传时间:2023-07-21
- 格式:DOCX
- 页数:33
- 大小:615.01KB
基于主成分分析的目标识别研究.docx
《基于主成分分析的目标识别研究.docx》由会员分享,可在线阅读,更多相关《基于主成分分析的目标识别研究.docx(33页珍藏版)》请在冰豆网上搜索。
基于主成分分析的目标识别研究
摘要
本文针对雷达目标识别中的识别问题,给出了一种基于主成分分析的雷达目标特征提取和识别方法。
利用对目标的雷达回波进行相关处理,得到目标的一维距离像。
通过主成分分析法,使得新的特征模式的各个分量互不相关,原始呈现混叠状态的模式分布在变换后的分布常常具有可分性,同时减少原始数据中的特征维数,是数据压缩和特征提取中的一种多维向量统计分析技术。
通过感知器算法设计分类器,画出决策面。
将降维后的雷达距离像训练样本通过分类器,实现目标的分类,判断目标属于哪个类别,从而识别出雷达目标。
关键词:
主成分分析法;一维距离像;感知器分类器
外文摘要
TitleResearchofRadarTargetRecognitionBasedonPCA
Abstract
Thisthesisdealswiththeproblemofradartargetrecognition,andanewapproachoffeatureextractionandrecognitionforradartargetbasedonprincipalcomponentanalysis(PCA)wasproposed.Bycorrelationprocessingoftheradarechooftarget,therangeprofileswereobtained.ByPCA,thenewfeaturesofeachcomponentmodelwillbeirrelevant.Thedistributionmodeoforiginalaliasingstatealwayshastheseparabilityaftertransformation.Atthesametimeitreducedtheoriginaldatacharacteristicdimension,soitisamulti-dimensionalvectorstatisticalanalysistechnologyofdatacompressionandfeatureextraction.Throughtheperceptionalgorithm,wecandesignclassifier,anddrawthedecisionface.letrangeprofilessamplesofreduceddimensionpasstheclassifier,realizingtargetclassification,judgingwhichcategoryitbelongs,thusidentifyradartarget.
Keywords:
principalcomponentanalysis;onedimensionalrangeprofile;perceptionclassifier
目次
1引言1
1.1主成分分析法1
1.1.1主成分分析法的目的1
1.1.2成分分析法的应用1
1.1.3主成分分析法的优缺点2
1.2特征空间和分类器设计2
1.2.1特征空间2
1.2.2分类器设计3
1.3模式识别系统的基本构成3
1.4课题所用软件5
1.5课题依据和研究意义5
1.6课题研究目标与研究内容6
1.6.1研究目标6
1.6.2研究内容6
2主成分分析法的研究7
2.1主成分分析法的基本原理7
2.2主成分分析法具体应用7
3分类器设计18
3.1线性分类器的设计——感知器18
3.2感知机算法19
3.3感知器算法实现距离像目标分类识别22
4仿真实验及分析23
4.1仿真结果23
4.2结果分析24
结论25
致谢26
参考文献27
附录28
主成分分析法源程序:
28
感知器的源程序:
29
1引言
模式识别的历史源远流长,早在20世纪30年代前后就有人尝试用当时的技术来解决现在看来应该属于模式识别范畴的若干问题。
模式识别的过程实际上就是通过对观测样本的分析完成对输入模式的分类进而给出关于输入模式的描述的过程。
而在科技高速发展的现在,模式识别理论在雷达目标识别领域的应用愈来愈多。
在高距离分辨率的情况下,距离分辨单元远小于目标尺寸时,雷达目标由点目标变成了扩展的体目标,可以看成是由多个散射中心共同组成的。
当高分辨率雷达带宽足够大时,目标沿径向距离由近及远顺序排列占据连续多个距离单元,使得雷达回波呈现连续起伏特性,形成了雷达目标的一维高分辨率距离像(HighResolutionRangeProfile,HRRP),反映了目标的精细结构特征-强散射中心的个数、散射中心间的相对位置及散射强度(截面积)的相对大小等几何物理结构特征等。
1.1主成分分析法
主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
1.1.1主成分分析法的目的
是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。
通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。
由此可见,主成分分析实际上是一种降维方法。
1.1.2成分分析法的应用
在研究调查中,对于同一个变量,研究者往往用多个不同的问题来测量一个人的意见。
这些不同的问题构成了所谓的测度项,它们代表一个变量的不同方面。
主成分分析法被用来对这些变量进行降维处理,使它们“浓缩”为一个变量,称为因子。
在用主成分分析法进行因子求解时,我们最多可以得到与测度项个数一样多的因子。
如果保留所有的因子,就起不到降维的目的了。
但是我们知道因子的大小排列,我们可以对它们进行舍取。
那么多小的因子需要舍弃呢?
在一般的行为研究中,我们常常用到的判断方法有两个:
特征根大于1法与碎石坡法。
因为因子中的信息可以用特征根来表示,所以我们有特征根大于1这个规则。
如果一个因子的特征根大于1就保留,否则抛弃。
这个规则,虽然简单易用,却只是一个经验法则(ruleofthumb),没有明确的统计检验。
所以这个经验法则至今仍是最常用的法则。
它会高估或者低估实际的因子个数。
它的适用范围是20-40个的测度项,每个理论因子对应3-5个测度项,并且样本量是大的(3100)。
碎石坡法是一种看图方法。
如果我们以因子的次序为X轴、以特征根大小为Y轴,我们可以把特征根随因子的变化画在一个坐标上,因子特征根呈下降趋势。
这个趋势线的头部快速下降,而尾部则变得平坦。
从尾部开始逆向对尾部画一条回归线,远高于回归线的点代表主要的因子,回归线两旁的点代表次要因子。
但是碎石坡法往往高估因子的个数。
这种方法相对于第一种方法更不可靠,所以在实际研究中一般不用。
抛弃小因子、保留大因子之后,降维的目的就达到了。
1.1.3主成分分析法的优缺点
优点:
首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。
其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价。
再次它在应用上侧重于信息贡献影响力综合评价。
缺点:
当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。
1.2特征空间和分类器设计
1.2.1特征空间
在统计模式识别中如何抽取表征模式的特征是一个关键步骤。
一旦根据某种方法确定了表征模式的特征,那么,我们可以利用这些特征构造一个特征空间,从而将所述模式分类问题变成相应特征空间中的区域分割问题进行求解。
一个简单模式是可以识别的是指:
①该模式具有表征其类别的类属性特征;②属于同一个模式类的各个模式,其类属性特征在特征空间中应组成某种程度上的一个集群区域;③不同模式类的类属性特征在特征空间中组成的区域应是彼此分离的。
1.2.2分类器设计
我们把能够完成相应分类任务的系统称为分类器。
下面具体考虑分类器的设计问题。
首先考虑待识别的模式类别数为2的情形。
假设相应的两个模式类别分别用△和○表示,用于识别的观测样本用X=(x1,x2,…,xn)T表示,它是n维特征空间中的一个点。
这样,相应的模式分类问题可以表述为:
对于给定的观测样本,根据其在特征空间中的位置,判断其属于△和○的哪一个模式类别。
为了解决这个问题,我们可以先进行大量的试验,获得大量的类别已知的观测样本。
如图1.1所示,每获得一个观测样本,根据其观测值找到它在特征空间中的实际位置,并用其所属类别的标示符加以标记。
根据所得到的训练样本找到一个分界面将整个特征空间分割成两个区域,使得每个区域内仅包含来自同一个类别的样本。
一旦上述工作得以进行,则分类器的设计即告完成。
此后,每输入一个观测样本到分类器,分类器会依据它在特征空间中的位置对其所属类别进行判断。
1.3模式识别系统的基本构成
一个典型的模式识别系统的基本构成可用下图表示。
主要有模式采集、预处理、特征提取和表达式以及识别与分类等模块组成。
其中,各模块的主要功能如下所示。
图1.2典型的模式识别系统
预处理:
数字化后的电信号在做后续处理之前,一般需做预处理以滤除在模式采集中可能引入的干扰和噪声,并视需要人为地突出输入模式中所包含的有用信息,为在后续步骤中取得良好的识别效果打下基础。
预处理一般包括数字滤波、坐标变换、图像增强和恢复等步骤。
在实际系统中具体采用何种预处理操作视具体情况而定。
预处理的主要目的是为了提高输入模式的质量,一个输入模式经预处理后其维数可以认为基本保持不变。
特征选择和抽取:
经预处理改善后的有用信号一般还不能被直接用于模式识别和分类的目的。
为了后续高效率的处理,需要引入特征抽取环节。
这里的特征大致可分为两类:
一类为度量或属性特征,另一类为基元特征。
其中,度量或属性特征通常指形成待识别对象有效描述的一组度量或属性参数,而基元特征则通常指形成待识别对象有效描述的基本子模式。
在一个模式识别系统中,特征的选择对后续的识别目的有着非常直接的影响,它是决定一个系统成败的关键步骤。
分类与识别:
一旦输入模式的特征被选择和抽取,接下来的工作是根据所获得的输入模式的特征描述,判断该输入模式的类别。
当一个输入模式可被表征为特征空间中的一个特征向量时,相应的问题被转化为特征空间的分割问题。
为了实现对特征空间的正确分割从而解决相应的分类问题,一种做法是进行大量的试验,即在各种观测条件下对待识别对象进行大量的观测,获得待识别对象大量的观测样本;并依据所选择的特征通过特征抽取步骤将这些观测样本映射到相应的特征空间中,然后,根据观测样本所对应的特征向量在特征空间中的分布情况对特征空间实施分割,将其分割成若干个区域,使得每个区域中尽可能只包含来自同一个类别的样本。
通过这种操作,可以在特征空间的一个分割区域和一个类别之间建立关联。
这样,对此后所采集到的每一个新的样本,我们可以根据它在特征空间中的位置进行判决,即当这个样本属于某个分割区域时将其归入和相应分割区域存在关联关系的那个模式类别。
获得上述关联关系的过程称为训练,依据训练得到的结果对新的输入模式所作出的判决成为分类或识别。
1.4课题所用软件
MATLAB语言是由美国的CleverMoler博士于1980年开发的,设计者的初衷是为了解决“线性代数”课程的矩阵运算问题,取名MATLAB,即MatrixLaboratory矩阵实验室的意思。
MATLAB是一种演算式语言。
MATLAB的基本数据单元是既不需要指定维数,也不需要说明数据类型的矩阵,而且数学表达式和运算规则与通常的习惯相同。
因此MATLAB语言编程简单,使用方便。
计算机语言正向“智能化”方向发展。
它已经不仅仅是一个“矩阵实验室”了,集科学计算、图形绘制、图像处理、多媒体处理于一身,并提供了丰富的Windows图形界面设计方法。
它以超群的风格与性能风靡全世界,成功地应用于各工程学科的研究领域。
近年来,MATLAB语言已在我国推广使用,现在已应用于各类学科研究部门。
另外,C/C++是编译类语言,使用过程不方便,因此对一些简单问题,反而使用解释类语言比较灵活,它可以动态地调整、修改应用程序。
MATLAB是一种解释类语言,它将一个优秀软件的易用性与可靠性、的高级语言,比其他程序设计语言容易掌握。
通用性与专业性、一般目的的应用与高深的科学技术应用有机地结合,是一种直译式
1.5课题依据和研究意义
由于雷达目标的高分辨距离像含有目标沿距离维精细的几何结构信息,可以提取出来当作特征矢量进行分类识别,避免SAR成像中复杂的运动补偿问题,可以满足战场感知方面的实时要求,提高对动目标的检测和截获能力,因此,基于HRRP的自动目标识别技术备受国内外关注,研究在一维距离像目标上的特征提取以及分类器设计便具有很重要的实践意义和理论意义。
1.6课题研究目标与研究内容
1.6.1研究目标
本课题就是研究雷达目标识别中的识别问题。
特征提取的焦点主要集中在怎样可以用较少的数据精炼地表示事物之间的区别。
分类是数据挖掘和机器学习中一个重要研究课题。
它的目标是构造一个分类器,对由属性集描述的实例指定最适合的类标签。
本课题研究在一维距离像目标上特征提取以及分类器的设计。
1.6.2研究内容
(1)HRRP多特征提取
HRRP多特征提取首先要选择合适的特征。
不同的特征能分别从不同方面反映目标的属性,多特征的提取有助于目标识别率的提高兼顾HRRP的平移敏感性,提取HRRP的频谱幅度特征,能量聚集区长度特征,强散射中心数目和中心距特征向量,反映HRRP的频谱、能量、散射中心等物理信息,这些特征相互间进行补充,克服了单一方面特征提取导致的不全面性。
(2)分类器的设计
本课题选用的是基于感知器算法的分类器。
线性分类器的第一个迭代算法是1956年由FrankRosenblatt提出的,即具有自学习能力的感知器(Perception)神经网络模型,用来模拟动物或者人脑的感知和学习能力。
这个算法被提出后,受到了很大的关注。
感知器在神经网络发展的历史上占据着特殊的位置:
它是第一个从算法上完整描述的神经网络,是一种具有分层神经网络结构、神经元之间有自适应权相连接的神经网络的一个基本网络。
2主成分分析法的研究
主成分分析法是一种性能优良的正交变换,经过变换,新的特征模式的各个分量互不相关,原始呈现混叠状态的模式分布在变换后的分布常常具有可分性,同时减少原始数据中的特征维数,是数据压缩和特征提取中的一种多维向量统计分析技术。
2.1主成分分析法的基本原理
对于Q个雷达距离像训练样本xi=[xi1,xi2,…xiN]T,(i=1,2,…,Q),其均值为μ=E[x]=
其协方差矩阵为
Cx=E[(x-μ)(x-μ)T]=
=
(2.1.1)
为一实对称矩阵,根据实对称矩阵的性质,Cx可以分解为
Cx=UΛUT(2.1.2)
其中Λ=
,是协方差矩阵Cx的N个特征值所组成的矩阵,且
≥
≥…≥
≥0;U=[u1,u2,…,uN]T,ui(i=1,2,…,N)是
对应的单位正交特征,即主成分量。
根据各主成分分量所占比重来选取前M(M
y=Ax(2.1.3)
同时完成从输入空间x∈RN到新的特征空间y∈RM(M 2.2主成分分析法具体应用 本文通过对雷达回波进行相关处理,获得了一维距离像。 具体过程如下: 雷达回波表示为 S(fi,θk)= (2.2.1) 其中fi=f0+ *i,(i=1,2,…,20),θk=1o~30o,间隔为 θ=1o。 这样就得到30个关于S(θ)的列向量S(θ1),S(θ2),…S(θ30),通过输入不同的xi,yi得到S(fi,θk)为20x30矩阵。 再将S(fi,θk)进行FFT变换后取绝对值,最终将会得到距离像样本。 本文中,取xi=11,yi=22,通过Matlab计算得S(fi,θk)为 30个距离像训练样本为: 协方差矩阵为 根据各主成分分量所占比重选取前10个特征值对应的特征向量为: 降维后新的模式分布y为: 经过上述一系列操作,使得原始的距离像训练样本达到降维的目的,大大减少计算量。 3分类器设计 上面介绍了基于特征空间进行分类器设计的基本思想,但如何完成分类器的设计仍有许多细节问题有待进一步探讨。 其中一个问题就是如何根据给定的训练样本确定相应的分界面。 所设计的分界面应满足以下要求: ①应将属于同一类别的已知训练样本归入相同的子区域;②应将不同类别的已知训练样本归入不同的子区域;③对未知类别的测试样本应有较好的分类能力。 前两个要求一般总能得到满足。 但是,如果分类器设计得不是很合理,则后一个要求未必能很好的得到满足。 特别是当训练样本的个数不是很多且不能很好地反映相应模式类别在特征空间的实际分布的时候,情况更是如此。 因此,需要研究相应的分类法则使据此设计的分类器有一定的预测能力,能对未知类别的测试样本很好地进行分类。 一种直观上易于理解的分类法则使利用样本之间存在的相似性。 所采用的相似度量应保证使相同类别样本之间的相似性大,不同样本之间的相似性小。 一般而言,它和相应模式类别在特征空间中的具体分布有关。 如果有途径能够确定相应模式类别在特征空间中的具体分布,那么据此可以定义相应的相似性度量并进而完成模式分类的任务。 3.1线性分类器的设计——感知器 如果输入的特征向量是实数向量 ,则输出的分数为: (3.3.1) 其中 是一个权重向量,而f是一个函数,该函数可以通过预先定义的功能块,映射两个向量的点积,得到希望的输出。 权重向量 是从带标签的训练样本集合中所学到的。 通常,"f"是个简单函数,会将超过一定阈值的值对应到第一类,其它的值对应到第二类。 一个比较复杂的"f"则可能将某个东西归属于某一类。 对于一个二元分类问题,可以设想成是将一个线性分类利用超平面划分高维空间的情况: 在超平面一侧的所有点都被分类成"是",另一侧则分成"否"。 作为最快分类器,线性分类器通常应用于对分类速度有较高要求的情况下,特别是当 为稀疏向量时。 虽然如此,决策树可以更快。 此外,当 的维度很大时,线形分类器通常表现良好。 线性分类器的第一个迭代算法是1956年由FrankRosenblatt提出的,即具有自学习能力的感知器(Perception)神经网络模型,用来模拟动物或者人脑的感知和学习能力。 这个算法被提出后,受到了很大的关注。 感知器在神经网络发展的历史上占据着特殊的位置: 它是第一个从算法上完整描述的神经网络,是一种具有分层神经网络结构、神经元之间有自适应权相连接的神经网络的一个基本网络。 3.2感知机算法 感知器的学习过程是不断改变权向量的输入,更新结构中的可变参数,最后实现在有限次迭代之后的收敛。 感知器的基本模型结构如图3.1所示: 图3.1感知器基本模型 其中,X输入,Xi表示的是第i个输入;Y表示输出;W表示权向量;w0是阈值,f是一个阶跃函数。 感知器实现样本的线性分类主要过程是: 特征向量的元素x1,x2,……,xk是网络的输入元素,每一个元素与相应的权wi相乘。 ,乘积相加后再与阈值w0相加,结果通过f函数执行激活功能,f为系统的激活函数。 因为f是一个阶跃函数,故当自变量小于0时,f=-1;当自变量大于0时,f=1。 这样,根据输出信号Y,把相应的特征向量分到为两类。 然而,权向量w并不是一个已知的参数,故感知器算法很重要的一个步骤即是寻找一个合理的决策超平面。 故设这个超平面为w,满足: (3.2.1) 引入一个代价函数,定义为: (3.2.2) 其中,Y是权向量w定义的超平面错误分类的训练向量的子集。 变量 定义为: 当 时, =-1;当 时, =+1。 显然,J(w)≥0。 当代价函数J(w)达到最小值0时,所有的训练向量分类都全部正确。 为了计算代价函数的最小迭代值,可以采用梯度下降法设计迭代算法,即: (3.2.3) 其中,w(n)是第n次迭代的权向量, 有多种取值方法,在本设计中采用固定非负值。 由J(w)的定义,可以进一步简化(3)得到: (3.2.4) 通过(4)来不断更新w,这种算法就称为感知器算法(perceptronalgorithm)。 可以证明,这种算法在经过有限次迭代之后是收敛的,也就是说,根据(4)规则修正权向量w,可以让所有的特征向量都正确分类。 采用感知器算法实现数据分类流程如图3.2所示: 图3.2单层感知器算法程序流程 以下为感知器算法的主要步骤: <1>赋初值: 迭代步数k=0; 固定比例因子ρ=常数,0≤ρ≤1; /*用于对解权向量进行修改的比例因子,在程序执行过程中为定值*/ 解权向量的初值W(0)=任选的一个向量; 连续正确分类计数器Nc=0。 /*一个计数器。 用于计数在现行的解权向量的选择下可以被连续正确分类的样本的个数。 一旦发现有一个样本不能被现行的解权向量所正确分类,则该计数器将被清零*/ <2>输入训练样本集合X={X0,X1,…,XN-1}。 <3>取样本X=X[k]N。 这里,[k]N=kmod(N); /*引入上述模运算的目的是为了实现对输入训练样本集合中的样本的循环获取功能*/ 计算判别函数G(x)=WT(k)X的取值。 <4>按以下规则对权向量进行修正: 4a.当X∈wi时,若G(X)≤0,则W(k+1)=W(k)+ρX,并置Nc=0;否则, W(k+1)=W(k),Nc+=1。 4b.当X∈wj时,若G(X)≥0,则W(k+1)=W(k)-ρX,并置Nc=0;否则, W(k+1)=W(k),Nc+=1。 <5>若Nc≥N,则输出W(k),算法结束; 否则,k=k+1,返回步骤<3>。 3.3感知器算法实现距离像目标分类识别 本文中,之前已将xi=11,yi=22时的距离像训练样本通过matlab计算得到,下面再取一组数据,xi=5,yi=7(仿真结果此处先不予列出),将此两组数据代入感知器中,便可对两类目标进行分类。 具体过程如下: 如图3.3所示, 设上述经主成分分析法降维后的两个训练样本X1,X2,其中,X1∈wi,X2∈wj;另外,选固定比例因子ρ=1。 若算法选零向量作为权向量的初值,即W(0)=0,那么这样的权向量显然不能对训练样本X1正确分类。 因此,需要修改权向量。 因X1∈w
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 成分 分析 目标 识别 研究