计算机视觉 第1章 绪论Word文档格式.docx
- 文档编号:18664484
- 上传时间:2022-12-31
- 格式:DOCX
- 页数:11
- 大小:34.10KB
计算机视觉 第1章 绪论Word文档格式.docx
《计算机视觉 第1章 绪论Word文档格式.docx》由会员分享,可在线阅读,更多相关《计算机视觉 第1章 绪论Word文档格式.docx(11页珍藏版)》请在冰豆网上搜索。
多视图几何最重要的特点是“未标定”方法,即没有必要已知或必须计算摄像机内参数,就可以达到计算机视觉的基本目的。
多视图几何的出现使计算机视觉的研究进入了新的热潮,本章1.1节将给出其中若干热点问题。
1.1目前计算机视觉研究的若干热点问题
(1)三维重构
在计算机视觉领域中,所谓三维重构是指由多幅(至少两幅)图像获取空间物体的三维几何信息。
在传统的计算机视觉技术中,至少需要两台摄像机来观察物体,摄像机的内参数是已知的并且摄像机之间的相互位置也是已知的,换言之,整个视觉装置是已标定(校准)的。
研究表明这种情况下可以实现三维重构(欧氏重构)[5]。
问题:
在视觉系统未标定的情况下,能否实现三维重构,以及如何实现三维重构,这是近年来计算机视觉领域研究的热点问题之一。
(2)摄像机自标定
摄像机标定是完成欧氏重构和运动分析必不可少的关键一步,即在摄像机未标定的情况下,我们只能实现射影重构[6][7]。
传统的摄像机标定方法都需要在摄像机前放一个已知形状和尺寸的物体,称为标定物或标定参照物(referenceobject),摄像机获取该物体的图像,并由此计算摄像机的内参数。
能否实现摄像机自标定(self-calibration)?
也就是能否直接从场景图像求解摄像机内参数?
这是近年来计算机视觉领域中非常热门的问题。
因为这一问题的解决,我们就可以从未标定图像实现三维欧氏重构和运动分析。
(3)运动分析和PNP问题
在计算机视觉和机器人领域中,运动是非常重要的概念,因为周围的环境经常是动态的,而且机器人必须运动才能完成某一特定的任务。
在一个动态环境中,一台摄像机在两个不同时刻摄取两幅图像,如果两幅图像是同一刚性物体的投影,估计物体的运动参数(Rt)和形状参数,称之为运动分析[8]。
此问题与下述问题等价:
两个摄像机在同一时刻摄取两幅图像,如果场景是静止的,求两个摄像机的相对位置及景物的形状参数。
在摄像机内参数已知的情况下(即摄像机已标定),关于运动参数可利用本质矩阵等求解(参见第二章2.3节)。
在摄像机未标定的情况下,可否求解运动参数,以及如何求解运动参数,这是近年来计算机视觉领域研究的另一热点问题。
另外,机器人定位与导航的经典方法是在机器人的工作环境中设置一些控制点,并测量出它们在世界坐标系中的坐标,然后根据它们与其二维图像点间的对应关系,来求解机器人方位。
由于机器人工作环境的限制,所能给出的控制点是非常有限的,因此在摄像机视场范围内可见的控制点是极少的,于是研究至少需要多少个控制点才能确定机器人方位的问题具有非常重要的意义,这就导致了所谓的PNP问题(PerspectiveNPoints)的研究。
PNP问题也是近年来计算机视觉领域研究的热点问题之一。
当然还可以归纳出更多的热点问题,但上述几个问题在理论和实用上都是十分重要的,也是本论文要着重研究的问题。
为了便于论文的展开,下面将在1.2节、1.3节和1.4节分别对上述热点问题的背景和现状作进一步的介绍。
与上述热点问题有关的形式化介绍和推导将在本论文的后续章节中给出。
说明:
因为多幅图像可以由多视点或序列图像得到,所以,在后续章节中,除非特别说明,我们将统称为多视图。
1.2多视图三维重构
在计算机视觉领域中,由多幅图像恢复摄像机运动参数和空间物体三维几何形状的问题称为多视图三维重构,它一直是计算机视觉研究的重点和热点之一。
该问题的研究成果可以直接应用于机器人导航、精密工业测量、物体识别、虚拟现实以及军事等方面。
近年来,该问题又引起多媒体和计算机图形学界的极大关注,为了生成已知景物和虚拟物体的合成环境,必须进行三维重构,否则用虚拟技术合成的环境只能用于浏览,而不能进入其中漫游。
因此对三维重构理论和方法的研究无论是在计算机视觉中还是在工程应用中都具有十分重要的理论意义和实用价值。
三维重构不仅仅只局限于空间点的重构,也可以进行空间直线、曲线、曲面等更高级的三维物体基元的重构,研究这些基元的重构对提高重构效果有积极的作用。
由于空间点的重构是三维重构的基础,所以本论文的主要工作是基于点的三维重构。
从立体视觉的角度来讲,有时不需要(或者说在有些视觉任务中不需要)在某一个特定的坐标系下(例如欧氏世界坐标系或欧氏摄像机坐标系)重构几何物体的表达,只要任意两种重构结果
与
(由于坐标系选择的不同得到的解)之间存在
,T属于某一变换群G,则称
在变换群G的意义下等同,我们称重构在变换群G的意义下等同的S中的任何一个,为在变换群G意义下的重构。
如果G是欧氏变换群,或者仿射变换群,或者射影变换群,则我们分别称为欧氏几何意义下,或仿射几何意义下,或射影几何意义下的重构。
由于欧氏变换群是仿射变换群的子群,而仿射变换群又是射影变换群的子群,所以射影重构是最一般意义下的重构[1]。
早期的三维重构方法都必须对摄像机进行预标定,这就大大限制了其应用范围,只能应付静止和已知环境下的重构工作。
1992年Faugeras[6]和Hartley[9]提出的利用未标定图像序列计算射影结构的理论,使这方面的工作有了显著地提高。
在这种理论框架下,可以从未标定图像序列进行三维射影重构,这是一种与欧氏几何相对独立的表达,它给出某一三维射影空间下关于深度、三维结构和运动的描述。
这种描述在许多应用中可以直接采用。
如果某些应用要求得到度量(欧氏)结果,只要给出进一步信息(如摄像机内参数等),就可以从射影重构恢复欧氏度量(欧氏重构),这是一种与早期欧氏几何意义下的三维重构不同的研究方法。
这种两步计算结构称为分层重构[10]。
在实现分层重构的过程中,射影重构是关键的第一步,它对欧氏重构结果的精度起着决定性作用,因此许多研究者都把射影重构作为主要研究对象,提出了许多方法和技术,其中矩阵分解方法经理论和实验证明是一种非常有效的方法[11],是近年来研究的热点。
利用矩阵分解实现三维重构的算法是由Tomasi等[12]于1992年首先提出的,该算法是在摄像机正交射影模型基础上实现的,后来又被Poelman和Kanade[13]扩展到弱透视和准透视投影,但由于其简单性和可靠性被广泛引用。
这些算法的显著特点是可以在仿射几何意义下,将由二维图像点坐标构建的测量矩阵分解为分别表示摄像机运动和空间物体三维几何形状的两个矩阵,称为仿射分解(affinefactorization)。
近年来,出现了一些基于透视摄像机模型的矩阵分解算法,称为透视分解(perspectivefactorization),透视分解和仿射分解的本质区别在于每个图像点的射影深度未知,故测量矩阵也未知,这就意味着不能直接利用仿射分解算法来获取数据。
因此,在这些算法中最关键的问题是如何估计射影深度参数。
1996年Christy和Horaud[14]提出了一种由透视投影图像恢复物体欧氏形状的算法,该算法从准透视摄像机模型开始,通过测量矩阵的迭代分解,估计深度参数,该算法必须已知摄像机的内参数。
另外,1996年Sturm和Triggs[15]对于未标定透视投影图像提出了一个非迭代分解算法,通过基本矩阵和极点来计算射影深度,该算法对图像之间对应点的定位误差相当敏感,必须特别注意才能获得可靠的结果。
1997年CharlieRothwell等[11]对若干种射影重构方法进行了综合比较和实验,并指出基于矩阵奇异值分解(SVD)方法提供的结果最好。
在矩阵分解方法中最关键的问题是估计射影深度参数,一旦获得正确的射影深度后,就可以构建一个关于射影深度和图像坐标的测量矩阵,通过矩阵分解的方法将测量矩阵分解为射影空间下的摄像机运动和空间物体三维几何形状,即实现射影重构。
然后在摄像机内参数已知的情况下,利用上述结果求解一个非奇异矩阵,通过此矩阵可以将射影空间下的摄像机运动和物体形状变换为欧氏空间下的摄像机运动和物体形状,即实现欧氏重构。
概括地说,基于矩阵分解的分层重构,主要包括以下两个内容:
(1)射影重构
①估计射影深度;
②构建一个关于射影深度和图像坐标的测量矩阵;
③通过矩阵分解的方法,求解射影空间下的摄像机运动参数和空间物体三维几何形状。
(2)欧氏重构
①摄像机自标定(求解摄像机内参数);
②求解射影空间到欧氏空间的变换;
③恢复欧氏空间下的摄像机运动参数和空间物体三维几何形状。
目前,三维重构算法可分为两大类[11]:
显式重构(explicitreconstruction)和隐式重构(implicitreconstruction)。
所谓显式重构是指利用三维框架中的几何理论直接计算空间点的三维坐标;
而隐式重构是通过计算对应图像的基于Cayley代数和交比(crossratios)等射影不变量来完成的。
本论文将集中注意力于显式重构的理论和算法研究。
1.3摄像机标定
摄像机标定是计算机视觉领域中从二维图像获取三维欧氏空间信息必不可少的关键一步。
图像上每一点的亮度反映了空间物体表面某点发射光的强度,而该点在图像上的位置则与空间物体表面相应点的几何位置有关。
这些位置的相互关系,由摄像机成像几何模型所决定。
该几何模型的参数称为摄像机内参数,这些内参数必须由实验与计算来确定,实验与计算的过程称为摄像机定标[1]。
传统的摄像机标定方法需要在摄像机前放一个已知形状和尺寸的物体,称为标定物或标定参照物(referenceobject),摄像机获取该物体的图像,并由此计算摄像机的内参数。
由于在某些视觉系统中(如机器人视觉系统),需要经常调整摄像机光学系统(如焦距、光圈等),摄像机的位置也会根据周围的环境而移动,因此,需要在每次调整后对摄像机的内参数重新进行标定,在这种情况下,若每次标定都需要在摄像机工作环境中放一个已知的标定物常常是很不方便甚至是不现实的(如远距离作业的机器人系统,或在危险、恶劣环境下作业的机器人系统等)。
因此,近年来,一种不需要已知标定物的标定技术,称为摄像机自标定(selfcalibration)技术[16-22],引起了研究人员的广泛兴趣和高度重视。
摄像机自标定技术不需要已知标定物,而仅利用摄像机在运动过程中周围环境的图像和图像之间的对应关系对摄像机进行标定。
摄像机标定方法根据标定方式的不同,可以归结为以下三种:
传统标定方法、自标定方法和基于主动视觉系统的自定标方法。
(1)传统标定方法
所谓传统的摄像机标定方法是指用一个结构已知、精度很高的标定物作为空间参照物,通过空间点和图像点之间的对应关系来建立摄像机内参数的约束,然后通过优化算法来求取这些参数。
传统方法的典型代表有DLT(DirectLinearTransformation)方法[23]、Tsai的方法[24-25]、Weng的迭代法[26]以及简易标定方法[27-28]。
传统标定方法的优点在于可以获得较高的精度,但是,实际应用中的很多情况无法使用标定物,例如,空间机器人以及在危险、恶劣环境下工作的机器人等。
所以,当应用场合所要求的度量精度很高且摄像机内参数不经常变化时,传统标定方法应为首选。
(2)自标定方法
自标定方法克服了传统方法的缺点,它不需要标定物,仅仅依靠多视图对应点之间的关系直接进行标定。
摄像机自标定是90年代以来在计算机视觉领域中兴起的最重要的研究方向之一。
由于自标定方法是根据未标定场景图像之间的对应关系来求解,所以标定过程灵活、方便,应用前景广泛。
但是,自标定方法最大的不足是鲁棒性较差[29]。
这主要是由于自标定方法不论以何种形式出现,大多是基于绝对二次曲线(TheAbsoluteConic)或者绝对二次曲面(TheAbsoluteQuadric)的方法,需要直接或者间接地求解Kruppa方程。
目前自标定方法主要有直接求解Kruppa方程的自标定、分层逐步标定、基于绝对二次曲面的自标定、Pollefeys的模约束标定以及可变内参数下的分层逐步标定等。
自标定方法可以应用于度量精度要求不太高的场合,如虚拟现实、三维动画、基于图像的建模与绘制(IBMR)等新兴领域,在这些场合,主要考虑的是视觉效果而不是度量精度,这也是自标定方法为什么近年来会受到人们如此重视的主要原因。
(3)基于主动视觉系统的自定标方法
为了克服传统方法和自标定方法的不足,人们提出了许多基于主动视觉系统的摄像机自定标方法[30-38]。
所谓基于主动视觉系统的自定标方法,是指通过控制摄像机的运动获取多幅图像来标定摄像机内参数。
与自标定方法一样,基于主动视觉系统的自定标方法也是一种仅利用图像之间对应关系进行标定的方法,不需要高精度的标定物。
这种自定标方法的主要优点是由于在标定过程中知道了一些摄像机的运动信息,所以一般来说,摄像机的内参数可以线性求解,计算简单、鲁棒性比较好。
基于主动视觉系统的自定标方法的研究大体上经历了二个阶段,开始时,人们主要致力于研制可精确控制的主动视觉平台,通过精确控制主动视觉平台的运动来对摄像机进行标定。
这方面代表性的工作是1996年马颂德[37]提出了一种基于主动视觉系统的摄像机自定标的线性方法。
这种方法通过控制摄像机在三维空间作两组平移运动,其中每组运动包括三次两两正交的平移运动,简称三正交平移运动,利用FOE(FocusofExpansion)点建立一个线性方程组来求解摄像机内参数。
1998年杨长江等[38]提出了一种改进方法,要求摄像机作四组平移运动,其中每组包括两次相互正交的平移运动,利用FOE点仍可线性求解摄像机内参数。
马和杨均是在四参数摄像机模型下(即畸变因子为零),实现线性自定标。
使用高精度主动视觉平台进行摄像机自标定的不足是系统的成本较高。
近年来,越来越多的研究人员将研究重点放在了使用简易设备、甚至不使用任何特殊的设备来标定摄像机的方法。
目前基于主动视觉系统的自定标方法的研究焦点是如何尽量减少对摄像机运动的限制,但仍能线性求解摄像机内参数。
需要指出的是,尽量减少对摄像机运动的限制不等于对摄像机的运动毫无约束。
如果对摄像机的运动毫无约束的话,自标定过程本质上是一个多元非线性优化问题,基于主动视觉系统的自定标方法就又回到了自标定的范畴。
根据控制摄像机运动方式的不同,基于主动视觉系统的自定标方法可以分为基于摄像机纯旋转运动的自标定方法、基于摄像机纯平移运动的自标定方法以及基于摄像机正交运动的自标定方法等。
1.4PNP问题
PNP问题由Fishler等[39]于1981年首先提出。
所谓PNP问题是指:
假定摄像机模型为小孔成像模型且已标定好,拍摄一幅在世界坐标系下坐标已知的N个空间点的图像,且对应的N个图像点的坐标也已知,确定这N个空间点在摄像机坐标系下的坐标[40]。
自从PNP问题于1981年提出后,由于其在物体定位方面的重要应用价值,引起了人们的广泛重视,而后该方面大量文章的相继问世充分说明了这一点[40-48]。
PNP问题的研究焦点是确定在哪种情况下问题有唯一解,如果唯一解不存在,则确定至多可能有多少个解以及解的分布状况。
对于PNP问题的求解方法一般有两种途径[40]:
第一种途径是确定空间点到摄像机光心的距离。
由于摄像机已标定且对应的图像点坐标已知,所以空间点在摄像机坐标系下的投影方向可以通过图像坐标求出。
这样,确定空间点在摄像机坐标系下的坐标问题就转化为在已知投影方向上求空间点到摄像机光心的距离问题;
第二种途径是确定世界坐标系到摄像机坐标系之间的旋转矩阵R和平移向量t,即
,其中
和
分别是同一空间点在摄像机坐标系和世界坐标系下的坐标。
所以,PNP问题同样可以定义为:
已知三维空间中N个空间点的坐标以及二维图像中对应的N个图像点的坐标,求解世界坐标系到摄像机坐标系之间的旋转矩阵R和平移向量t。
显然,如果R和t已知,且空间点在世界坐标系下的坐标也已知,则可以求得其在摄像机坐标系下的坐标。
利用第一种途径求解PNP问题的困难在于约束方程组中有未知量的平方项,不易获得解析解。
利用第二种途径求解PNP问题的困难在于矩阵R是一个旋转矩阵,它有3个独立参数,参数间的约束不易实现。
在本论文中,我们利用第二种途径求解PNP问题。
文献中对PNP问题的研究均集中在P3P、P4P和P5P问题的研究上。
这是因为P2P问题有无限多解,当
时,PNP问题变成了经典的DLT问题,可以线性求解。
目前,在PNP问题的研究中,除文献[40][41]外均假定已知摄像机内参数(即摄像机已标定)且在运动过程中保持不变。
但是,在实际问题中,如基于主动视觉系统的任务,为了获取高质量的图像,数字摄像机都具备自动变焦的功能,也就是说机器人在运动过程中摄像机内参数可能经常发生变化,因此,要求摄像机内参数是已知的而且在运动过程中保持不变,已很难满足实际应用的要求。
这样,研究摄像机内参数未知且运动过程中可以发生变化的PNP问题就具有特别重要的意义。
对于摄像机内参数未知且运动过程中可以发生变化的PNP问题,我们称之为未标定PNP问题。
很明显,如果摄像机使用五参数模型,对于未标定的P3P、P4P问题,其约束方程的个数均少于待求未知参数的个数,所以未标定的P3P、P4P问题总是有无穷多解。
对于未标定的P5P问题,文献[41]针对四参数摄像机模型进行了比较系统的讨论。
本论文中,我们将针对五参数摄像机模型讨论未标定P5P问题的求解。
1.5论文的主要研究内容
本论文的研究内容主要包括两部分:
基于多视图的分层重构和未标定P5P问题。
在第一部分中,针对三幅及三幅以上的图像,主要研究:
①利用矩阵奇异值分解(SVD)实现射影重构,②通过求解Kruppa方程实现摄像机自标定,③由射影重构恢复欧氏重构;
针对只有两幅图像的情况,主要研究:
①利用场景结构信息求解无穷远平面的单应矩阵,由射影重构恢复仿射重构,②利用场景结构信息求解绝对二次曲线的像(等价于标定摄像机),由仿射重构恢复欧氏重构。
在第二部分中,主要研究:
摄像机内参数未知且在运动中可以变化的未标定P5P问题的求解。
论文各章内容简介:
第一章围绕本论文的研究内容,介绍了计算机视觉领域中相关研究的历史、现状以及所取得的成果,并对论文的研究内容和组织结构进行了说明。
第二章扼要介绍本论文后续章节所用到的摄像机成像中的若干重要空间关系。
第三章从摄像机模型出发,详细推导了透视模型与仿射模型的关系,讨论了射影深度的性质。
介绍了基于矩阵奇异值分解(SVD)的射影重构算法的一般框架,分析并实现了基于基本矩阵和极点的射影深度估计算法。
以测量矩阵的秩为4作为约束,以仿射投影逼近透视投影,提出以下迭代估计射影深度的算法:
①基于共轭梯度法的射影深度估计算法,②基于遗传算法的射影深度估计算法。
在获得正确的射影深度后,通过奇异值分解将测量矩阵分解为射影空间下的摄像机运动和物体三维几何形状(射影重构)。
实验证明:
相对于基于基本矩阵和极点方法来计算射影重构,我们提出的算法对噪声具有更好的鲁棒性。
第四章首先介绍摄像机自标定技术,详细讨论了传统的基于Kruppa方程的摄像机自标定方法。
提出一种求解Kruppa方程的新方法——分步算法,先利用共轭梯度法估计Kruppa方程中的未知比例因子,然后利用所确定的比例因子线性地求解Kruppa方程,进而标定摄像机内参数。
在摄像机内参数已知的情况下,提出一种从射影重构恢复欧氏重构的算法,先求解一个满足欧氏重构条件的非奇异矩阵,然后通过此矩阵将射影重构变换为欧氏重构。
实验结果表明所提出的算法是行之有效的。
第五章详细分析了仿射重构的本质,证明了可逆矩阵为无穷远平面单应矩阵的充分条件,以及从基本矩阵无法唯一确定无穷远平面单应矩阵。
系统地讨论了如何利用场景中的结构信息,来唯一地确定无穷远平面的单应矩阵,进而由射影重构恢复欧氏重构,以及如何通过绝对二次曲线的像求解将仿射重构变换为欧氏重构的单应矩阵。
总结了三种关于绝对二次曲线的像的约束,并利用这些约束求解绝对二次曲线的像,进而实现从仿射重构恢复欧氏重构。
第六章针对五参数摄像机模型,讨论摄像机在运动(运动参数未知)过程中其内参数是未知的且可以发生变化时,如何通过5个控制点以及它们的图像点,来求解所对应的内参数、方位以及运动参数。
证明了下述结论:
已知5个控制点在世界坐标系中的坐标,以及它们在摄像机作一般刚体运动前、后两幅图像中的图像坐标,当5个控制点中任意4个点均不共面且摄像机运动前、后的两光心的连线不通过任一个控制点时,则可线性地确定摄像机关于世界坐标系的方位、运动前、后所对应的内参数以及运动参数。
在此基础上,提出一种线性求解未标定P5P问题的新算法。
第七章对本论文的工作进行总结,并对今后的工作进行了展望。
参考文献
[1]马颂德,张正友,计算机视觉——计算理论与算法基础,科学出版社,1998.
[2]高文,陈熙霖,计算机视觉——计算与系统原理,清华大学出版社,1999.
[3]D.Marr,Vision.W.H.FreemanandCompany,SanFrancisco,1982.中译本:
视觉计算理论,姚国正等译,科学出版社,1988.
[4]R.Hartley,A.Zisserman,MultipleViewGeometryinComputerVision,CambridgeUniversityPress2000.
[5]O.Faugeras,ThreeDimensionalComputerVision:
AGeometricViewpoint,Boston,MITPress,1993.
[6]O.Faugeras,Whatcanbeseeninthreedimensionswithanun
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机视觉 第1章 绪论 计算机 视觉