人脸识别技术研究背景与方法Word下载.docx
- 文档编号:22022758
- 上传时间:2023-02-02
- 格式:DOCX
- 页数:10
- 大小:165.78KB
人脸识别技术研究背景与方法Word下载.docx
《人脸识别技术研究背景与方法Word下载.docx》由会员分享,可在线阅读,更多相关《人脸识别技术研究背景与方法Word下载.docx(10页珍藏版)》请在冰豆网上搜索。
指纹、人脸、人脸温谱、虹膜、视网膜、手型、声纹以及签名等。
指纹、人脸、人脸温谱、虹膜、视网膜和手型为生理特征,声纹和签名为行为特征。
生物特征的详细分类如图1所示。
图1
人脸检测技术概述
近年来,人脸检测已经吸引了更多科研人员的注意。
任何人脸处理系统的第一步都是检测人脸在图像中的位置。
然而,从一幅图像中检测人脸是一项极具挑战性的任务,因为其尺度、位置、方向和位姿都是变化的,面部表情、遮挡和光照条件也是变化的。
人脸检测(FaceDetection)是指在输入图像中确定所有人脸(如果存在)的位置、大小和位姿的过程。
人脸检测作为人脸信息处理中的一项关键技术,近年来已成为模式识别与计算机视觉领域内一项受到普遍重视,研究十分活跃的课题。
人脸检测的研究内容
人脸检测,可以被看作是两级的识别问题,即图像区域被分为“有人脸”和“无人脸”。
人脸检测技术是少数试图识别(而不是抽象的陈述)那些有大量内在变异之类图像的技术之一。
人脸识别或辨认、人脸定位以及人脸追踪等都与人脸检测密切相关。
人脸定位的目的是确定图像中人脸的位置。
假设一幅图像中只存在一张脸,则面部特征检测的目的是检测特征的存在和位置,如眼睛、鼻子(鼻孔)(眉毛)(嘴)(嘴唇)耳朵等。
人脸识别或辨认是将输入图像与数据库中的图像比对,如果存在,报告匹配结果。
人脸识别的目的是检验输入图像中的个体的身份,而人脸追踪方法是实时地、连续地估计在图像序列中的人脸的位置和可能的方向。
面部表情识别涉及识别人类的情感状态(高兴、悲伤、厌恶等)。
很明显,在任何解决上述问题的自动识别系统中,人脸检测是第一步。
现在有许多和人脸检测密切相关的问题,面像定位的目的是在假定输入图像只包含一张脸的前提下确定这个单一的脸的位置。
面部特征检测的目的是在假设图像中只包含一个人脸的前提下发现眼睛、鼻子、鼻孔、眉毛、嘴、嘴唇、耳朵的存在和特征位置。
人脸识别和人脸检测将输入的图像(探测器)和数据库(图库)的数据做对比,如果有匹配,则报告这些匹配。
面像认证的牧师是在输入图像中验证一个人的身份,而面像追踪可以持续不断的估计一个实时图像序列中人脸的位置与定位。
面像表情识别关注的是人类的情感状态识别(开心、伤心、厌烦)。
显然,在任何自动化系统中,人脸检测都是解决以上问题的第一个步骤。
值得一提的是,尽管许多报纸都在使用“人脸检测”,但是所使用的方法和得到的实验结果表明只能在一个图像中定位单一的人脸。
人脸检测还提供了有趣的、有挑战性的基本图案分类和相关学习技巧。
当未加工或过滤的图像输入到图案分类器,它的特征空间维度是非常大的(即规范化教学图像的像素)。
有人脸和无人脸图像都绝对具有多通道分布函数和有效地判定范围,这个判定范围在图像空间通常是非线性的。
为了变得有效,分类器必须能推断适度的训练样本,或者更有效率地处理高维度训练样本。
人脸检测是一项具有挑战性的任务,因为:
(1)人脸的大小、位置、方向、姿态(正面、侧面、倾斜)、表情、外观等具有可变性;
(2)人脸上可能存在眼镜、胡须等附属物,而且这些附属物的形状、颜色、大小等有很大的可变性;
(3)人脸图像获取过程的不确定性,例如,光照强度、光源的数目和方向、拍摄角度、照相机的特性等;
(4)人脸可能被其他物体部分遮住。
所以,提出一种能有效地检测到任何情况下的任何人脸的通用方法还不现实。
2人脸检测方法
从一幅图像中检测人脸的方法可以分为以下四种:
(1)基于知识的方法(Knowledge-basedMethods)。
它将典型的人脸形成规则库对人脸进行编码。
通常,通过面部特征之间的关系进行人脸定位。
(2)特征不变方法(FeatureInvariantApproaches)。
该算法的目的是在姿态、视角或光照条件改变的情况下找到存在的结构特征,然后使用这些特征确定人脸。
(3)模板匹配方法(TemplateMatchingMethods)。
存储几种标准的人脸模式,用来分别描述整个人脸和面部特征;
计算输入图像和存储的模式间的相互关系并用于检测。
(4)基于外观的方法(Appearance-basedMethods)。
与模板匹配方法相反,从训练图像集中进行学习从而获得模型(或模板),并将这些模型用于检测。
基于知识的方法
基于知识的方法是基于规则的人脸检测方法,规则来源于研究者关于人脸的先验知识。
一般比较容易提出简单的规则来描述人脸特征和它们的相互关系,如在一幅图像中出现的人脸,通常具有互相对称的两只眼睛、一个鼻子和一张嘴。
特征之间的相互关系可以通过它们的相对距离和位置来描述。
在输入图像中首先提取面部特征,确定基于编码规则的人脸候选区域。
这种方法存在的问题是很难将人类知识转换为明确定义的规则。
如果规则是详细的(严格的),由于不能通过所有的规则检测可能失败;
如果规则太概括(通用),可能会有较高的错误接收率。
此外,很难将这种方法扩展到在不同的位姿下检测人脸,因为列举所有的情况是一项很困难的工作。
Yang和Huang使用分层的基于知识的人脸检测方法,他们的系统由三级规则组成。
在最高级,通过扫描输入图像的窗口和应用每个位置的规则集找到所有可能的人脸候选区。
较高级的规则通常描述人脸看起来像什么,而较低级的规则依赖于面部特征的细节。
多分辨率的分层图像通过平均和二次采样生成,如图2所示。
编码规则通常在较低的分辨率下确定人脸的候选区,包括人脸的中心部分(图3中较浅的阴影部分),其中有四个基本上相同的灰度单元。
图2分层图像
图3人脸候选区
在人脸的上层周围部分具有相同的灰度。
人脸的中心部分和上层周围的灰度不同。
最低分辨率的(Lever1)图像用于搜索人脸的候选区并在后面较精细的分辨率下作进一步处理。
在Lever2完成人脸候选区的局部直方图均衡化,并进行边缘检测。
继续存在的候选区在Lever3用其他的人脸特征,如眼睛、嘴等对应的规则进行检查。
这种方法的特点是用从粗—细的策略来减少所需要的计算,虽然它没有很高的检测率,但采用多分辨率分层的思想和指导搜索的规则已经用到后面的人脸检测工作中。
Kotropoulos和Pitas提出了一种基于规则的定位方法。
用投影方法确定面部特征,I(x,y)是m×
n图像中(x,y)位置的灰度值,图像的水平和垂
直投影定义为
和
。
通过在HI中的急剧
变化检测到两个局部最小点,它对应于头部的左右两边,获得输入图像的水平轮廓。
类似地,获得垂直的轮廓,局部最小点的确定用于定位嘴唇、鼻尖和眼睛。
这些检测到的特征组成了面部候选区。
李华胜等人提出通过区域增长从人脸图像中分割出人脸,再利用边缘检测、Hough变换、模板匹配和方差投影技术可以快速有效地提取出人脸面部器官,如眼睛、鼻子和嘴巴等特征。
实验结果表明其所采用的方法具有较高的准确率(95.5%)和光照鲁棒性。
姜军等人提出了一种基于知识
的快速人脸检测方法。
采用符合人脸生理结构特征的人脸镶嵌图模型。
在分析了足够多的人脸图像样本基础上,针对人脸图像的灰度和边缘信息,建立了一种较为完备的知识库;
为加快检测速度,采用了多级检测步骤。
实验结果表明,其方法具有较强的鲁棒性,能够很好地解决复杂背景下的多人脸检测问题。
卢春雨等人对镶嵌图方法进行了改进,按照人脸器官的分布将人脸划分为3×
3个马赛克块,在检测中自适应地调整各块的大小,使用一组基于各块灰度和梯度统计特征的知识规则检验该区域是否为人脸,取得了较好的实验结果。
基于特征的方法
基于特征的方法不仅可以从已有的面部特征而且可以从它们的几何关系进行人脸检测。
与基于知识的方法相反,它是寻找人脸的不变特征用于人脸检测。
人们已经提出了许多先检测人脸面部特征,后推断人脸是否存在的方法。
面部特征,如眉毛、眼睛、鼻子、嘴和发际,一般利用边缘检测器提取,根据提取的特征,建立统计模型描述特征之间的关系并确定存在的人脸。
基于特征的算法存在的问题是,由于光照、噪声和遮挡等使图像特征被严重地破坏,人脸的特征边界被弱化,阴影可能引起很强的边缘,而这些边缘可能使得算法难以使用。
Sirohey提出了从复杂的背景中分割人脸进行人脸识别的定位方法。
它使用边缘图和启发式算法来去除和组织边缘,而只保存一个边缘轮廓,然后用一个椭圆拟合头部区域和背景间的边界。
Graf等人提出定位灰度图像的面部特征和人脸的检测方法。
在滤波以后,用形态学的方法增强具有高亮度、含有某些形状(如眼睛)的区域。
Leung等人提出一种基于局部特征检测器和任意图匹配的概率方法,在复杂场景中定位人脸。
其目标是找到确定的面部特征的排列。
典型的人脸用五个特征(两只眼睛、两个鼻孔和鼻子与嘴唇的连接处)来描述。
Yow和Cipolla提出了一种基于特征的方法。
在第一阶段,应用了二阶微分Gaussian滤波器,在滤波器响应的局部最大点检测感兴趣的点,指出人脸特征可能的位置;
第二阶段,检查感兴趣点周围的边缘并将它们组成区域。
这种方法的优点是可以在不同的方向和位姿上检测人脸。
Han等人提出了一种基于形态学的技术进行眼部分割进而实现人脸检测的方法。
他们认为眼睛和眼眉是人脸最突出和稳定的特征,特别适合人脸检测。
模板匹配
Sakai等人使用眼睛、鼻子、嘴和人脸轮廓等子模板建模,检测照片中的正面人脸。
每一个子模板按照线分割定义。
基于最大梯度变化提取输入图像的线,然后与子模板匹配。
计算子图像和轮廓模板之间的相互关系去检测人脸的候选区域,完成用其他子模板在候选区域的匹配。
Craw等人提出了一种基于正面人脸的形状模板(也就是人脸的外形)定位方法。
用Sobel滤波器提取边缘,将边缘组织在一起,根据几个约束条件去搜索人脸模板。
在头轮廓定位以后,用相同的过程以不同的尺度重复定位眼睛、眼眉和嘴唇等特征。
Govindaraju等人提出两个阶段的人脸检测方法。
人脸模型根据边缘定义的特征构成,这些特征描述了正面人脸的左边、发际和右边的曲线。
人脸必须是垂直、无遮挡和正面的。
Miao等人提出了用于人脸检测的层次模板匹配方法。
在第一阶段,为了处理旋转图像,输入图像从-20°
~20°
旋转,每次旋转5°
多分辨率图像层次形成和边缘提取使用Lapla2cian操作符。
人脸模板通过六个人脸成分产生的边缘组成:
两个眼眉、两只眼睛、一个鼻子和一张嘴。
最后,应用启发式确定人脸的存在。
实验结果表明在图像含有单个人脸要比图像中含有多个人脸的结果好。
梁路宏等人使用了直接的平均脸模板匹配方法。
其方法考虑到眼睛在人类辨识人脸过程中的特殊作用,使用双眼模板首先进行粗筛选,然后使用不同长宽比的人脸模板进行匹配,最后使用马赛克规则进行验证。
周激流等人提出了一种全新的人脸脸部轮廓提取算法,即运用先验模板及交替补偿机制的方法提取脸部轮廓。
实验证明,其提出的特征提取算法高效且鲁棒性能好。
基于外观的方法
模板匹配中的模板是由专家预定义的,与模板匹配中的方法不同,基于外观方法中的“模板”是从图像中的样本学习的。
通常,基于外观的方法依靠统计分析和机器学习技术找到相应的人脸和非人脸图像的特征。
学习的特征由分布模型或判别函数形成,用于人脸检测,同时,由于计算效率和检测有效性的原因通常需要降维。
许多基于外观的方法可以被理解为概率结构。
从图像中提取的特征向量可以看作是一个任意的变量x,此随机变量通过类条件概率密度函数p(x|face)和p(x|nonface)描述人脸和非人脸。
可以用Bayesian分类器或最大似然函数将一个候选图像位置分类为人脸或非人脸。
不幸的是,x的高维度使简单实现Bayesian分类器是不可行的,因为p(x|face)和p(x|nonface)是多峰的,p(x|face)和p(x|nonface)是否存在自然参数化的形式还不清楚。
因此,在基于外观的方法中,大多数工作涉及的是由经验确定的参数或用非参数方法近似p(x|face)和p(x|nonface)。
在这方面人们主要研究了特征脸(Eigenfaces)方法和基于分布的方法(Distribution2basedMethods)用于人脸检测。
特征脸(Eigenfaces)技术是用于人脸检测和识别及其他涉及人脸处理(例如人脸跟踪)的一种方法。
KL变换是图像压缩的一种最优正交变换。
高维的图像空间经过KL变换后得到一组新的正交基,保留其中重要的正交基,由这些正交基组成低维线性空间。
如果假设人脸在这些低维线性空间的投影具有可分性,就可以将这些投影用作检测和识别的特征向量,这就是特征脸方法的基本思想。
若将所有子空间的正交基排列成图像阵列,则可以看出这些正交基呈现出人脸的形状,因此这些正交基也被称作特征脸。
有两种选择正交基形成子空间的方法:
(1)与较大特征值对应的一些正交基(主分量)能够表达人脸的大体形状,而具体细节则需要那些小特征值对应的特征向量(次分量)来加以补充描述,因此被理解为低频成分用主分量表示,高频成分用次分量表示。
采用Z个主分量作为新正交空间正交基的方法称为主成分分析(PrincipleComponentAnalysis,PCA)方法。
(2)有人采用l个次分量作为正交基,理由是人脸的大体形状和结构都是相似的,真正用来区别不同人脸的信息是那些次分量表达的高频成分。
Kirby和Sirovich提出基于KL变换,使用基本图像中的人脸进行线性编码的方法给定mXn象素的训练图像,将其表示为mXn大小的向量,基向量生成一个最优的子空间,训练图像到此子空间的投影和原始图像间的均方误差最小确定了子空间,称作最优基向量特征图(Eigenpictures)集合。
Turk和Pentland应用主成分分析于人脸识别与检测。
与Kirby和Sirovich类似,在人脸图像训练集上的主成分分析用来产生特征脸(Eigenfaces),它张成图像空间的子空间(人脸空间)。
将人脸图像投影到子空间并且聚类。
类似地,非人脸图像也被投影到相同的子空间并且聚类。
为检测场景中人脸的存在,对于图像中所有的位置计算图像区域和人脸空间之间的距离。
人脸距离计算的结果是“人脸图”(facemap),从人脸图的局部最小点就可以检测到人脸。
彭辉等人在传统的特征脸方法基础上,提出了一种改进的人脸自动识别方法。
该方法对于经过预处理的标准人脸图像,以类间散布矩阵为产生矩阵,通过KL变换降维并提取人脸图像的代数特征。
实验表明,本方法识别率较高,且对于人脸的姿态、表情及光照条件均具有一定的不敏感性。
杜平等人提出的人脸检测方法,利用人类肤色在色度空间分布的稳定性,检测出图像中的皮肤区域,然后将其在特征脸空间中投影、重建,通过求重建图像的信噪比进行判断。
实验结果证明了方法的有效性。
其他方法
Sung和Poggio提出基于分布(Distribution-Based)的系统用于人脸检测,并说明了图像模式分布怎样从类的正负样本(即图像)中进行学习。
系统由用于人脸/非人脸模式的基于分布的模型和多层感知分类器两部分组成。
首先将人脸和非人脸样本规范化并将其处理为19X19象素的图像,然后变为361维向量或模式。
接着,使用改进的k-均值算法将模式组成人脸和非人脸的聚类。
利用多层感知器(MLP)网络将人脸模式与非人脸模式分类。
使用47,316个模式,训练标准的反向传播(BP)网络分类器。
其中4,150个为人脸模式而其他的是非人脸模式。
典型的人脸模式比较容易采集,而典型的非人脸模式样本则较难得到。
这个问题可以通过bootstrap方法解决,它选择把图像样本增加到训练集中作为训练过程。
开始时在训练集中有小的非人脸样本集,MLP分类器用这个数据库中的样本进行训练。
然后,在随机图像序列上运行人脸检测器并搜集当前系统将非人脸模式错误地分类为人脸的所有模式。
将这些错误的接受样本增加到训练数据库中作为新的非人脸样本。
这种bootstrap方法避免了选择典型的非人脸模式样本的问题。
Moghaddam和Pentland提出在高维空间利用特征空间分解密度估计的概率视觉学习方法。
用主成分分析(PCA)来定义子空间从而最好地表示人脸模式集。
主成分保存数据中主分量而丢弃了那些次分量。
这种方法把向量空间分解为互相排斥和互为补充的2个子空间:
主子空间(或特征空间)和它的正交子空间。
因此对象密度被分解为2个成分:
在主子空间(由主分量张成)的密度,和它的垂直成分(在标准的PCA中被丢弃的次分量。
用多变量Gaussians和混合Gaussians密度分布进行学习人脸局部特征的统计。
然后将这些概率密度用于基于最大似然估计的对象检测。
这种方法已经被用于人脸定位、编码和识别。
和传统的特征脸方法比较,此方法在人脸识别方面表现出较的性能。
Yang和Kriegman提出使用Fisher线性判别(FLD)从高维图像空间将样本投影到低维特征空间的方法。
近年来,Fisherface方法和其他基于线性判别的分析已经远胜于Eigenface方法。
一个可能的解释是对于模式分类FLD比PCA提供了较好的投影方向,因为它的目标是找到最好的判别投影方向。
因此,在投影子空间中的分类结果可能要优于其他的方法。
他们的实验结果表明,FLD方法的检测率是%。
神经元网络(NeuralNetworks)已经成功地应用到许多模式识别问题中,例如光学字符识别(OCR)、对象识别等。
使用神经元网络进行人脸检测的优点是使训练一个系统获得人脸模式的复杂类条件密度成为可行。
而缺点是必须大范围地调整网络结构(如层的个数、节点的个数、学习速度等)以获得非凡的性能。
Agui等人提出了层次神经元网络进行人脸检测。
使用2个并行的子网组成了第一阶段,其输入是原始图像的灰度值和使用3X3Sobel滤波器滤波的灰度值。
输入到第二阶段网络的是子网络的输出和提取的特征值如输入模式象素值的标准偏移量、窗口中的白象素和所有的二值象素的比率和几何矩等。
第二阶段的输出值指出人脸在输入区域是否存在。
实验结果表明,如果所有的人脸在测试图像中有相同的尺寸,则这种方法能够检测人脸。
Propp和Samal提出了分层神经网络用于人脸检测。
他们的网络由4层组成,共有1024个输入单元,第一隐含层共有256个单元,第二隐含层共有8个单元和2个输出单元。
Soulie等人提出用具有时间延迟的神经元网络(具有20X25象素的感受域)扫描图像进行人脸检测。
输入图像利用小波变换进行分解。
他们在120幅测试图像上进行实验,获得%的错误拒绝率和%的错误接受率。
Burel和Carel提出用于人脸检测的神经元网络,其中大量的人脸和非人脸的训练样本使用Kohonen的自组织映射(SOM)算法被压缩为几个样本。
多层感知器用于学习这些样本并对人脸和非人脸分类。
Lin等人提出使用基于概率决策的神经元网络进行人脸检测系统(PDBNN)。
PDBNN的结构类似于具有改进的学习规则和概率解释的径向基函数(RBF)网络。
他们首先提取人脸区域中的密度和边缘信息的特征向量,人脸区域中包括眼眉、眼睛和鼻子,代替了将整个人脸图像转换为用于神经元网络的密度值向量。
提取的两个特征向量被反馈到两个PDBNN并将输出融合确定分类器的结果。
他们的实验结果表明其性能优于其他主要基于神经元网络的人脸检测器。
Rowley等人用多层神经元网络从人脸/非人脸图像中学习人脸和非人脸模式其方法的局限性是只能检测垂直的正面人脸。
后来,Rowley等人均各这种方法扩展用于旋转的人脸检测,使用的是ruuter神经元网络,根据每个输入窗决定可能的人脸方向,然后将窗旋转到规范的方向;
旋转窗被送到上述的神经元网络。
然而,新系统对垂直人脸的检测率比垂直检测器要低。
不过,系统能够在2个大测试集上正确检测人脸超过%,而只有很少的错误接受。
杨前邦等人提出了基于多层感知器(MLP)并用遗传算法实现搜索的人脸定位系统,讨论了系统建立的理论基础,即MLP直接感知图像和用遗传算法进行快速搜索。
实验结果表明,它尤其适合复杂背景下的低分辨图像中进行操作,具有鲁棒性好、图像定位快、适应面宽等特点。
梁路宏等人提出了基于模板匹配与人工神经元网络的人脸检测算法。
算法使用一组双眼一人脸模板对来搜索候选人脸,并在搜索过程中使用多层感知器进行确认,以减少错误报警。
大量实验证明了该算法的有效性。
人脸检测方法评析
基于知识的人脸检测方法简单、直观,检测效果依赖于特征的提取和预先定义的规则。
由于灰度受光照的影响较大,一般应采用预处理技术;
纹理、边沿等特征对光照变化具有较好的适应性,但是强的光照变化也会产生一些伪边沿。
人脸结构的对称性是一个重要的特征,然而对姿态变化比较敏感。
为了验证人脸区域,常常需要结合各人脸器官的特征及其之间的结构关系。
当图像的质量较差时,特征不容易检测。
另外,采用的知识规则可能不够准确或全面。
该类方法对质量较好的图像具有好的检测性能,而对于复杂的图像检测效果一般不够好。
基于统计特征的方法需要从大量典型的数据获得统计特征。
和Antifaces等方法基于训练人脸样本图像得到描述人脸的统计特征;
LDA、神经网络、SVM和SNoW方法则需要大量典型的人脸图像和非人脸样本图像,以
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 识别 技术研究 背景 方法