科技文献作业Word文档下载推荐.docx
- 文档编号:21788415
- 上传时间:2023-02-01
- 格式:DOCX
- 页数:12
- 大小:328.06KB
科技文献作业Word文档下载推荐.docx
《科技文献作业Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《科技文献作业Word文档下载推荐.docx(12页珍藏版)》请在冰豆网上搜索。
摘 要 本文综述了人脸识别理论的研究现状,根据人脸自动识别技术发展的时间进行了分类,分析和比较各种识别方法优缺点,讨论了其中的关键技术及发展前景。
并从科研及论文的角度,首先阐述了文献检索的概念及重要意义,然后通过对有关“基于人脸识别”的科技文献的检索,并对检索过程、结果总结讨论,以熟悉掌握文献检索方法。
关键词 人脸识别;
特征提取
前沿
模式识别领域的前沿研究方向有:
Bayes学习、半监督学习、弱监督学习等。
Bayes学习得到的分类器参数并不是一些固定值,而是参数的概率分布。
参数的先验概率分布函数形式的选择、超参数(先验概率分布的参数)的确定在计算上是比较复杂的。
在识别时,需要对分类器的参数进行随机采样,然后把很多个参数值得到的分类结果组合起来,因而识别的计算量也是很大的。
近年来,基于Bayes学习的分类器设计取得了明显进展等,得到了优异的分类性能。
但是,这些方法的计算还是很复杂的,对于大类别数、大样本集的学习问题还难以实现。
在大部分应用情况下,模式分类器经过训练后就固定不变,或者使用相当长一段时间才重新训练一次。
在训练分类器时,样本的数量和代表性总是不够的,这就希望分类器能不断地适应新的样本而不损失体的方法,但还没有一个统一的理论框架。
新增加的样本可能是没有类别标记的,因为无标记样本很容易得到,而标记过程费时费力。
同时对标记样本和无标记样本进行学习的过程称为半监督学习,这是近年来机器学习领域的一个研究热点[85]。
在标记样本比较少的情况下采用标记样本能有效提高完全监督学习的分类性能。
大多数模式识别问题假设模式是与背景信号和其他模式分离的且表示成一个特征矢量。
实际上,模式的分割不是一件简单的事情,一个固定长度的特征矢量也不一定能最好地表示模式的特性。
在实际应用问题中经常要将模式分类与分割问题统一考虑,有些模式被表示成结构性数据结构(如属性图、概率图)。
这些方面出现了大量的研究工作,这里不打算细述。
目前有一类广受关注的模式识别问题,识别对象是没有分割的图像,训练图像的标记是其中有没有某一类目标,而不知道目标的具体位置、大小和方位。
对这种标记不足的样本进行训练和识别的方法可以统称为弱监督学习,可用于目标识别、图像检索、景物分类等。
研究计算机模式识别的目的是让机器具备人的感知和认知能力,代替人完成繁重的信息处理工作。
当我们把计算机的模式识别能力与人的模式识别(视觉、听觉感知)能力相比,就会发现现有的模式识别方法与人的感知过程有很大区别,在性能上也相差很远,很多对人来说是轻而易举的事情对计算机来说却很难做到。
这是由于目前对人的感知过程的机理和大脑结构还不是很了解,即使已经了解的部分也不容易在计算上或硬件上模拟。
进一步研究人的感知机理并借鉴该机理设计新的模式识别计算模型和方法是将来的一个重要方向。
一.人脸识别算法的框架
人脸识别算法描述属于典型的模式识别问题,主要有在线匹配和离线学习两个过程组成,如图1所示。
图1
一般人脸识别算法框架
在人脸识别中,特征的分类能力、算法复杂度和可实现性是确定特征提取法需要考虑的因素。
所提取特征对最终分类结果有着决定性的影响。
分类器所能实现的分辨率上限就是各类特征间最大可区分度。
因此,人脸识别的实现需要综合考虑特征选择、特征提取和分类器设计。
二.人脸识别的发展历史及分类
人识别的领域中,国际上形成了以下几类主要的人脸识别方法:
1)基于几何特征的人脸识别方法脸识别的研究已经有相当长的历史,它的发展大致可以分为四个阶段:
第一阶段:
人类最早的研究工作至少可追朔到二十世纪五十年代在心理学方面的研究和六十年代在工程学方面的研究。
J.S.Bruner于1954年写下了关于心理学的Theperceptionofpeople,Bledsoe在1964年就工程学写了FacialRecognitionProjectReport,国外有许多学校在研究人脸识别技术[1],其中有从感知和心理学角度探索人类识别人脸机理的,如美国TexasatDallas大学的Abdi和Tool小组[2、3],由Stirling大学的Bruce教授和Glasgow大学的Burton教授合作领导的小组等[3];
也有从视觉机理角度进行研究的,如英国的Graw小组[4、5]和荷兰Groningen大学的Petkov小组[6]等。
第二阶段:
关于人脸的机器识别研究开始于二十世纪七十年代。
Allen和Parke为代表,主要研究人脸识别所需要的面部特征。
研究者用计算机实现了较高质量的人脸灰度图模型。
这一阶段工作的特点是识别过程全部依赖于操作人员,不是一种可以完成自动识别的系统。
第三阶段:
人机交互式识别阶段。
Harmon和Lesk用几何特征参数来表示人脸正面图像。
他们采用多维特征矢量表示人脸面部特征,并设计了基于这一特征表示法的识别系统。
Kaya和Kobayashi则采用了统计识别方法,用欧氏距离来表征人脸特征。
但这类方法需要利用操作员的某些先验知识,仍然摆脱不了人的干预。
第四阶段:
20世纪90年代以来,随着高性能计算机的出现,人脸识别方法有了重大突破,才进入了真正的机器自动识别阶段。
在用静态图像或视频图像做人脸
基于几何特征的方法是早期的人脸识别方法之一[7]。
常采用的几何特征有人脸的五官如眼睛、鼻子、嘴巴等的局部形状特征。
脸型特征以及五官在脸上分布的几何特征。
提取特征时往往要用到人脸结构的一些先验知识。
识别所采用的几何特征是以人脸器官的形状和几何关系为基础的特征矢量,本质上是特征矢量之间的匹配,其分量通常包括人脸指定两点间的欧式距离、曲率、角度等。
基于几何特征的识别方法比较简单、容易理解,但没有形成统一的特征提取标准;
从图像中抽取稳定的特征较困难,特别是特征受到遮挡时;
对较大的表情变化或姿态变化的鲁棒性较差。
2)基于相关匹配的方法
基于相关匹配的方法包括模板匹配法和等强度线方法。
①模板匹配法:
Poggio和Brunelli[10]专门比较了基于几何特征的人脸识别方法和基于模板匹配的人脸识别方法,并得出结论:
基于几何特征的人脸识别方法具有识别速度快和内存要求小的优点,但在识别率上模板匹配要优于基于几何特征的识别方法。
②等强度线法:
等强度线利用灰度图像的多级灰度值的等强度线作为特征进行两幅人脸图像的匹配识别。
等强度曲线反映了人脸的凸凹信息。
这些等强度线法必须在背景与头发均为黑色,表面光照均匀的前提下才能求出符合人脸真实形状的等强度线。
3)基于子空间方法
常用的线性子空间方法有:
本征子空间、区别子空间、独立分量子空间等。
此外,还有局部特征分析法、因子分析法等。
这些方法也分别被扩展到混合线性子空间和非线性子空间。
Turk等[11]采用本征脸(Eigenfaces)方法实现人脸识别。
由于每个本征矢量的图像形式类似于人脸,所以称本征脸。
对原始图像和重构图像的差分图像再次进行K-L变换,得到二阶本征空间,又称二阶本征脸[12]。
Pentland等[13]提出对于眼、鼻和嘴等特征分别建立一个本征子空间,并联合本征脸子空间的方法获得了好的识别结果。
Shan等[14]采用特定人的本征空间法获得了好于本征脸方法的识别结果。
Albert等[15]提出了TPCA(TopologicalPCA)方法,识别率有所提高。
Penev等[16]提出的局部特征分析(LFALocalFeatureAnalysis)法的识别效果好于本征脸方法。
当每个人有多个样本图像时,本征空间法没有考虑样本类别间的信息,因此,基于线性区别分析(LDALinearDiscriminantAnalysis),Belhumeur等[17]提出了Fisherfaces方法,获得了较好的识别结果。
Bartlett等[18]采用独立分量分析(ICA,IndependentComponentAnalysis)的方法识别人脸,获得了比PCA方法更好的识别效果。
4)基于统计的识别方法
该类方法包括有:
KL算法、奇异值分解(SVD)、隐马尔可夫(HMM)法。
①KL变换:
将人脸图像按行(列)展开所形成的一个高维向量看作是一种随机向量,因此采用K-L变换获得其正交K-L基底,对应其中较大特征值基底具有与人脸相似的形状。
国外,在用静态图像或视频图像做人脸识别的领域中,比较有影响的有MIT的Media实验室的Pentland小组,他们主要是用基于KL变换的本征空间的特征提取法,名为“本征脸(Eigenface)[19]。
②隐马尔可夫模型:
剑桥大学的Samaria和Fallside[20]对多个样本图像的空间序列训练出一个HMM模型,它的参数就是特征值;
基于人脸从上到下、从左到右的结构特征;
Samatia等[21]首先将1-DHMM和2-DPseudoHMM用于人脸识别。
Kohir等[22]采用低频DCT系数作为观察矢量获得了好的识别效果,如图2(a)所示。
Eickeler等[23]采用2-DPseudoHMM识别DCT压缩的JPEG图像中的人脸图像;
Nefian等采用嵌入式HMM识别人脸[24],如图2(b)所示。
后来集成coupledHMM和HMM通过对超状态和各嵌入状态采用不同的模型构成混合系统结构[25]。
基于HMM的人脸识别方法具有以下优点:
第一,能够允许人脸有表情变化,较大的头部转动;
第二,扩容性好.即增加新样本不需要对所有的样本进行训练;
第三,较高的识别率。
(a)
(b)
图2
(a)人脸图像的1-DHMM
(b)嵌入式隐马尔科夫模型
5)基于神经网络的方法
Gutta等[26]提出了混合神经网络、Lawrence等[27]通过一个多级的SOM实现样本的聚类,将卷积神经网络CNN用于人脸识别、Lin等[28]采用基于概率决策的神经网络方法、Demers等[29]提出采用主元神经网络方法提取人脸图像特征,用自相关神经网络进一步压缩特征,最后采用一个MLP来实现人脸识别。
Er等[30]采用PCA进行维数压缩,再用LDA抽取特征,然后基于RBF进行人脸识别。
Haddadnia等[31]基于PZMI特征,并采用混合学习算法的RBF神经网络进行人脸识别。
神经网络的优势是通过学习的过程获得对这些规律和规则的隐性表达,它的适应性较强。
6)弹性图匹配方法
Lades等提出采用动态链接结构(DLA,DynamicLinkArchitecture)[32]的方法识别人脸。
它将人脸用格状的稀疏图如图3所示。
图3人脸识别的弹性匹配方法
图3中的节点用图像位置的Gabor小波分解得到的特征向量标记,图的边用连接节点的距离向量标记。
Wiskott等人使用弹性图匹配方法,准确率达到97.3%。
Wiskott等[33]将人脸特征上的一些点作为基准点,构成弹性图。
采用每个基准点存储一串具有代表性的特征矢量,减少了系统的存储量。
Wurtz等[34]只使用人脸ICI部的特征,进一步消除了结构中的冗余信息和背景信息,并使用一个多层的分级结构。
Grudin等[35]也采用分级结构的弹性图,通过去除了一些冗余节点,形成稀疏的人脸描述结构。
另一种方法是,Nastar等[36]提出将人脸图像I(x,y)表示为可变形的3D网格表(x,y,I(x,y)),将人脸匹配问题转换为曲面匹配问题,利用有限分析的方法进行曲面变形,根据两幅图像之间变形匹配的程度识别人脸。
7)几种混合方法的有效性
(1)K-L投影和奇异值分解(SVD)相融合的分类判别方法。
K-L变换的核心过程是计算特征值和特征向量。
而图像的奇异值具有良好的稳定性,当图像有小的扰动时,奇异值的变化不大。
奇异值表示了图像的代数特征,在某种程度上,SVD特征同时拥有代数与几何两方面的不变性。
利用K-L投影后的主分量特征向量与SVD特征向量对人脸进行识别,提高识别的准确性[37]。
(2)HMM和奇异值分解相融合的分类判别方法。
采用奇异值分解方法进行特征提取,一般是把一幅图像(长为H)看成一个N×
M的矩阵,求取其奇异值作为人脸识别的特征。
在这里我们采用采样窗对同一幅图片进行重叠采样(如图4),对采样所得到的矩阵分别求其对应的前k个最大的奇异值,分别对每一组奇异值进行矢量标准化和矢量重新排序,把这些处理后的奇异值按采样顺序组成一组向量,这组向量是惟一的[38]。
综合上述论文中的实验数据表明[39],如表1:
表1
人脸识别算法比较
8)基于三维模型的方法
该类方法一般先在图像上检测出与通用模型顶点对应的特征点,然后根据特征点调节通用模型,最后通过纹理映射得到特定人脸的3D模型。
Tibbalds[40]基于结构光源和立体视觉理论,通过摄像机获取立体图像,根据图像特征点之间匹配构造人脸的三维表面,如图5所示。
Zhao[41]提出了一个新的SSFS(SymetricShape-from-Shading)理论来处理像人脸这类对称对象的识别问题,基于SSFS理论和一个一般的三维人脸模型来解决光照变化问题,通过基于SFS的视图合成技术解决人脸姿态问题,针对不同姿态和光照条件合成的三维人脸模型如图6所示。
三维图像有三种建模方法:
基于图像特征的方法[42、43]、基于几何[44]、基于模型可变参数的方法[45]。
其中,基于模型可变参数的方法与基于图像特征的方法的最大区别在于:
后者在人脸姿态每变化一次后,需要重新搜索特征点的坐标,而前者只需调整3D变形模型的参数。
三维重建的系统框图,如图7所示。
图7 三维建模的系统框图
三维人脸建模、待识别人脸的姿态估计和识别匹配算法的选取是实现三维人脸识别的关键技术。
随着采用三维图像识别人脸技术的发展,利用直线的三维图像信息进行人脸识别已经成为人们研究的重心。
三.检索工具
1.前期准备阶段,明确有哪些检索资源库以及检索技术,初步制定检索方案
在查找文献之前,要了解有哪些科技文献检索资源库,检索工具中收录了与所查专题有关的文献,在哪些检索工具中该专题的文献比较丰富、质量比较高等,以及包括哪些检索技术,并根据自己的毕设题目确定初步的检索方案。
2.科技文献资料资源库
科技文献资料的形式多种多样,主要包括:
期刊、图书、报纸、科技报告、会议文献、专利文献、政府出版物、学位论文、标准资料、产品说明书等十大类。
其中期刊和图书的种类和数量最多,在科技工作中应用也最广泛。
可利用的数据资源库主要有以下:
中国期刊网(),其包含中国博士学位论文和优秀硕士学位论文;
CNKI中国知网();
万方数据库()能提供万方数据资源系统、中国学术会议论文全文库、中国学位论文全文数据库等;
维普资讯包含外文科技期刊文摘数据库和中国科技经济新闻数据库、期刊全文数据库、期刊引文数据库等.国外学术资源也非常丰富,可以检索到所需要的各种学术信息资源,与电子工程相关的主要有:
美国电气电子工程师学会数据库(http:
//ieeexplore.ieee.org)、美国计算机学会全文数据库等。
图书资源库包括有:
超星数字图书馆()可以提供大量的电子图书;
方正阿帕比(Apabi)电子图书(),能提供教学参考书全文数据库、工具书资源全文数据库和年鉴资源全文数据库;
另外,通过访问各种论坛也可以获得相关信息,电子专业常用网站及论坛有:
EDN电子技术设计(),可以为电子设计工程师提供第一手的业界资讯,深度技术文章,海量技术资源;
中国电子设计网;
CSDN(Chinesesoftwaredevelopnet,中国软件开发联盟),中国最大的开发者技术社区,它是集新闻、论坛、群组、Blog、文档、下载、读书、Tag、网摘、搜索、Java、游戏、视频、人才、外包、第二书店、《程序员》等多种项目于一体的大型综合性IT门户网站,它有非常强的专业性,其会员囊括了中国地区百分之九十以上的优秀程序员,在IT技术交流及其周边国内中第一位的网站;
ICDev论坛;
EDA加油站等。
3.常用的检索技术有:
1)布尔逻辑检索技术:
为了正确地表达检索提问,系统中采用布尔逻辑运算符将不同的检索词组配起来,使一些具有简单概念的检索单元通过组配成为一个具有复杂概念的检索式,用以表达用户的信息检索要求;
2)位置检索(邻近检索)技术:
适用于两个检索词以指定间隔距离或者指定的顺序出现的场合。
可以看成特殊功能的AND算符,AND算符不限制两个检索词的位置和出现顺序;
3)截词检索技术:
文献检索者将检索词在合适的地方截断,然后对截出的片断进行检索;
4)字段限定检索:
适用于在已有一定数量输出记录的基础上,通过指定字段的方法,减少输出篇数,提高检索结果的查准率;
5)原文检索技术:
以原始记录中的检索词与检索词
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 科技 文献 作业