研究生数学建模竞赛优秀论文选《视觉情报信息分析》272.docx
- 文档编号:28898807
- 上传时间:2023-07-20
- 格式:DOCX
- 页数:76
- 大小:8.08MB
研究生数学建模竞赛优秀论文选《视觉情报信息分析》272.docx
《研究生数学建模竞赛优秀论文选《视觉情报信息分析》272.docx》由会员分享,可在线阅读,更多相关《研究生数学建模竞赛优秀论文选《视觉情报信息分析》272.docx(76页珍藏版)》请在冰豆网上搜索。
研究生数学建模竞赛优秀论文选《视觉情报信息分析》272
学校
参赛队号
1.
队员姓名
2.
3.
题目视觉情报信息分析
摘要:
本文对视觉情报信息分析问题进行探索和研究。
本文分别建立了针对单目摄像头所拍摄的各类单张图片、手机拍摄视频、无人机拍摄视频的空间分析模型,解决了不同的空间距离计算问题。
针对该类问题,我们采取消隐点测距法、单双目成像转换法、单目视觉SLAM算法、三维重建中的SFM算法等算法,不断对模型进行改进和完善。
本文算法应用面广泛、算法效果优良,能够较为完美地解决问题中所提到的各类空间距离计算问题。
针对问题一,我们将其视为基于单目图像的空间距离计算问题。
本任务根据不同图片的性质和测量目标,分别采用透视变换法和消隐点检测法进行测量,并使用基于深度学习的深度估计算法进行结果印证。
透视变换法的思想是根据参照物,测量与之平行的物体的长度比例,然后根据参照物的尺度反推出该物体的真实长度。
消隐点测距法则根据地平线消隐点的性质计算三维空间内的距离。
针对图一,利用消隐点检测法可得A车车头与B车车头之间的距离为28.38米、拍照者对于马路左侧的距离为12.07米。
针对图二,利用消隐点检测法
可得A车车头与C车车尾之间的距离为28.87米、拍照者距离B车车头的距离为20.63米。
针对图三,利用消隐点检测法可得拍照者距岗亭A的距离为28.57米、利用透视变换法可得拍照者距离地面的高度4.43米。
针对图四,利用消隐点检测法可得AB=5.04米、利用透视变换法CD=3.88米、CD与AB之间距离为7.49米。
针对问题二,我们将其视为三维空间坐标转换问题。
本任务首先通过先验的尺寸、镜面矫正原理和平面成像原理求解出了相机的内参,再通过内参可以算出图片中点在原三维坐标下的位置,从而可以计算得出红车与本车之间的距离。
之后根据空间位置关系的观察和计算可得速度差。
估算得该车和后方红色车辆之间的距离为49.52米,估算
该车超越第一辆白色车辆时两车的速度差异为6.76米/秒。
针对问题三,我们将其视为单目图像转双目图像求解问题。
本任务首先通过铁路接触网的长度与时间的先验值来求解出高铁的速度,进而求解出河面的宽度。
之后我们进行了合理的假设,在连续图像中我们可将单目图像转换为同等参数的双目图像,进而估计相机参数、将问题简化为双目视角下的测距。
估算得测算高铁行驶方向左侧第一座桥桥面距水面的高度为9.12米、距高铁轨道的距离为487.98米以
及水面宽度为224.53米。
针对问题四,我们利用三维重建算法与单目视觉SLAM算法相结合的松耦合算法,利用该算法对点云进行降噪,能够更加明显地可视化出其结构特性。
估算得
(1)估算环绕老宅道路的长度346.55米、
宽度3.39米、望楼高9.63米、后花园中树木的最大高度13.3米、横
向房屋高6.32米、纵向房屋高6.81米;
(2)估算该老宅的占地面积
为8312平方米;(3)测算无人机最高高度为56.44米、无人机最低高
度为43.18米、速度为5.54米/秒。
关键词:
消隐点测距法单双目成像转换法单目视觉SLAM算法
SFM算法
一、问题重述5
1.1背景描述5
1.2要解决的问题5
二、符号说明7
三、任务一8
3.1任务分析8
3.2模型建立9
3.3模型计算12
3.4模型评价16
四、任务二17
4.1任务分析17
4.2模型建立17
4.3模型计算22
4.4模型评价23
五、任务三24
5.1任务分析24
5.2模型建立24
5.3模型计算26
5.4模型评价27
六、任务四29
6.1任务分析29
6.2模型建立30
6.3模型计算32
6.4模型评价36
七、总结38
八、参考文献39
代码附录40
一、问题重述
1.1背景描述
研究表明,一般人所获取的信息大约有80%来自视觉。
视觉信息的主要载体是图像和视频,视觉情报指的是通过图像或者视频获取的情报。
从图像或视频中提取物体的大小、距离、速度等信息是视觉情报分析工作的重要内容之一,如在新中国最著名的“照片泄密案”中,日本情报专家就是通过《中国画报》的一幅封面照片解开了大庆油田的秘密。
在当前很热门的移动机器人、无人驾驶、计算机视觉、无人机侦察等领域,更是存在着大量的应用需求。
尽管在对未来智能交通系统的设计等工作中,科研人员正在研究使用双目或多目视觉系统或者特殊配置的单目视觉系统获取相关信息,但在某些特定条件下,分析人员所能利用的,只能是普通的图像或视频,其中的信息需要综合考虑各种因素,通过合适的数学模型来提取。
1.2要解决的问题
本题从实际需求出发,选择单幅图像距离信息分析、平面视频距离信息分析和立体视频距离信息分析几个典型场景,提出如下四项任务:
任务1:
测算图1-1中红色车辆A车头和白色车辆B车头之间的距离、拍照者距马路左侧边界的距离;图1-2中黑色车辆A车头和灰色车辆C车尾之间的距离以及拍照者距白色车辆B车头的距离;图1-3中拍照者距岗亭A的距离以及拍照者距离地面的高度;图1-4中
塔体正面(图中四边形ABCD)的尺寸,即AB和CD的长度以及AB和CD
之间的距离(已知地砖尺寸为80cm⨯80cm)。
图1-1图1-2
图1-3图1-4
任务2:
附件“车辆.mp4”(右键点击后选择“保存到文件”可导出视频文件)是别克英朗2016款车上乘客通过后视镜拍摄的视频。
(1)估算该车和后方红色车辆之间的距离;
(2)估算该车超越第一辆白色车辆时两车的速度差异。
任务3:
附件“水面.mp4”是高铁乘客拍摄的一块水面,测算高铁行驶方向左侧第一座桥桥面距水面的高度、距高铁轨道的距离以及水面宽度,估算拍摄时高铁的行驶速度。
任务4:
附件“无人机拍庄园.mp4”记录了某老宅的全景。
(1)
估算其中环绕老宅道路的长度、宽度、各建筑物的高度、后花园中树木的最大高度;
(2)估算该老宅的占地面积;(3)测算无人机的飞行高度和速度。
二、符号说明
符号
意义
𝑓
相机焦距
𝑃𝑤
三维空间中的坐标
𝑃𝑢𝑣
图像中坐标
𝑲
相机内参矩阵
𝑻
相机外参矩阵
I(x,y)
图像灰度表达式
𝑚𝑝𝑞
ORB特征点矩阵
R
相机交换矩阵
三、任务一
3.1任务分析
任务1:
测算图1-1中红色车辆A车头和白色车辆B车头之间的距离、拍照者距马路左侧边界的距离;图1-2中黑色车辆A车头和灰色车辆C车尾之间的距离以及拍照者距白色车辆B车头的距离;图1-3中拍照者距岗亭A的距离以及拍照者距离地面的高度;图1-4中塔体正面(图中四边形ABCD)的尺寸,即AB和CD的长度以及AB和CD之间的距离(已知地砖尺寸为80cm⨯80cm)。
该任务的目的在于没有过多先验信息的情况下,如何根据单张图片推测并获得我们感兴趣的距离信息,是一个单目图片距离测量问题。
基于单目距离的测量方法有深度估计法、透视变换法、消隐点测距法等,本任务根据不同图片的性质和测量目标,分别采用透视变换法和消隐点检测法进行测量。
任务可以具体划分为两个目标:
求解图片中某两点的真实距离;求解拍摄者与图片中某点的真实距离(拍摄者的高度可以看作到垂直点的距离)。
首先需要从图片中选择具有固定长度的物体作为标定物,以其真实长度和像素长度的比例关系作为尺度,然后建立模型并建立感兴趣的两点间像素距离与标定物像素距离的映射关系,根据尺度求解最终结果。
按照上述求解流程,首先需要从各图中选择合适的标定物,如图3-1所示,(a)可以选择双黄线的距离和宽度作为尺度,(b)可以选择单黄线的距离和宽度作为尺度,(c)可以选择单黄线及人行横道预告标线的规格作为尺度,(d)可以使用图中已知的台阶下方地砖长宽作为尺度。
同时针对图中无法给定的尺度值,如图3-1(b)中拍摄者距离
旁边车后视镜的位置,可以根据实际场景重现,得到一个合理估计值作为尺度。
根据目标的特性,图一、图二的四个测量目标以及图三的拍照者与岗亭A的距离使用消隐点检测法测算,而图三拍照者的高度和图四的两个观测目标可以使用透视变换法测算。
3.2模型建立
图3-1
具体两种模型建立方法原理如下:
(1)透视变换法的思想是根据参照物,测量与之平行的物体的长度比例,然后根据参照物的尺度反推出该物体的真实长度。
透视变换法的流程为从原图中选择一个真实场景中的矩形,然后根据其角上的四个点,通过透视变换矩阵将图片转化成平面图,如下图3-2(a)所示,将原本处于立体空间中的矩形转化成平面中的矩形。
可以直观的理解为视角上的转换,如图3-2(b)所示,从转换后的视角P1,由于
转化后的矩形长宽可以预设,所以其纵向AB和A’B’并不能反映其真实世界中的比例关系,但是横向的CD和C’D’的比例关系是不会更改的,所以可以从其比例关系以及CD在真实世界中的长度求得C’D’的真实世界长度。
透视变换之后,视角垂直方向上的平行关系和尺度比例不变。
其关键点在于求解透视变换的转化矩阵。
图3-1
(2)
消隐点测距法主要由以下两个原理构成:
(a)消隐点是指原本在三维空间平行的直线,在投影到二维空间之后,会在极远处相交于一点,相交点为消隐点。
消隐点是无穷远的,并且所有的消隐点在二维图像上构成一条无穷远的直线,即地平线。
从这条直线上任意一点引出两条直线,这两条直线是平行的。
(b)摄像头将三维空间投射到二维图像上,四个点的直线交比不变,即如下图3-3所示。
图3-2
图中A、B、C、D四个点是原三维空间中的在同一条直线上的四
个点,点O`和O``是照相机的镜头,A`B`C`D`和A``B``C``D``分别是ABCD在镜头O`和O``中成像的点。
这些点满足如下关系:
(AB⨯CD)/(AC⨯AD)=(A'B'⨯C'D')/(A'C'⨯A'D')=(A''B''⨯C''D'')/(A''C''⨯A''D'')
根据上述原理,可以从任意的二维图像中选取位于同一平面上的两对平行线计算出待测平行线段长度的比值关系,并且根据其中一条线段的先验尺度和二维图像中的像素比例关系,可以反推出另外一条线段的实际长度。
如图3-4(a)所示,用大写来表示原来的图中的点,小写来表示新的点。
我们假设已知BE长度,BE与AF平行,要求的是AF对应的长度。
图3-3
其算法流程如下:
(1)首先在二维图像中(如图3-4(b))使用网格点(或者两对平行的线)找到两个消失点,并且连接两个消失点,找到地平线。
(2)将ab相连,与地平线交于c,连接ce并延长交af于d,可知ca平行于cd,又be平行于ad,所以ad与be等长。
(3)将be与af延长相交于g点,这个g点也是消失点。
所以利用公式
(1)有(AD/AF)/(GD/GF)=(ad/af)/(gd/gf),并且由于G无
穷远,可以得到AG/DG等于1,所以AD/AF
=(ad/af)/(gd/gf)。
其
中,二维图像中两点的距离可以使用点的像素关系求解
Dab=
。
通过以上数值解法,即能够求到AF的值。
3.3模型计算
对于任务一中的四个图,本节使用以下规则来表示线段的意义:
通过先验的同一个平面中两对平行线延长相交于消隐点,并且连
接两个消隐点的线段使用蓝色线段表示;通过不同的预估的物体尺寸来表示不同平行线间的尺寸大小使用其他不同的颜色来表示,本节中使用了黄色线段和红色线段来表示不同角度的平行线测量。
对于图3-5,车辆A与车辆B之间的距离由AB表示,由上一小
节中解题方法可得:
AB
=AD*(ab*dc)/(ad*bc),其中AD=EF=2米,
ab、dc、ad、bc的值可由二维图像中的像素点位置求出,可以求出AB
为28.38米,即A车车头与B车车头之间的距离为28.38米。
图3-5
观察者距离马路左侧边界用GI来表示,通过消隐点测距法可以
得到:
GI
=GH*(gi*hj)/(gh*ij),其中我们通过尝试估计hg长度约为
0.65米,gi,hj,gh,ij长度可由像素点位置代换算出,所以得出
GI的长度为12.07米,即拍照者对于马路左侧的距离为12.07米。
图3-6
对于图3-6,A车车头与C车车尾之间的距离用AC表示,通过消隐点测距法可以得出AC=AD⨯(ac⨯de)/(ad⨯ce),其中AD=KL=4米,所以求得AC=28.87米;拍照者距离b车车头的距离,由于没有平行于B车车头与拍照者的线,并且拍照者没有出现在图片中,所以通过测量B到左侧街道H的距离与H到J的距离和估计拍照者到J点的距离来求得。
通过消隐点测距法可以得到BH=BN*(bh*no)/(bn*ho),其中BN=MF,通过对SUV宽度与车位宽度的估计,估计MF=2米,因此BH=7.56米。
又可以求得JH=IJ*(jh*ie)/(ij*he),其中IJ=GK=2米,所以求得HJ=14.68米。
根据场景重现,估计拍照者站在后视镜向车头约0.5米的地方,所以估计拍照者距离j的距离4.5米。
利用上述条
件,拍照者距离B车车头的距离为,解出为20.63
米。
对于图3-7,由于拍照者站在高处,且拍照者对于地面的投影点无法直接得知,所以本文使用AK的距离加上估计K到拍照者的距离来估计拍照者距离岗亭A的距离。
AK的距离使用勾股定理,由K对
应对面的点D来间接求得
AD=
o其中
AD=
CD⨯(ad⨯cb)/(cd⨯ab),CD=EF=2米,所以求得AD=18.93米;同
理KD=KH⨯(kd⨯gh)/(kh⨯dg),KH=IJ=1米,所以求得KD=11.34米,所以得出AD=22.07米。
又我们通过场景重现估计出K点距离拍照者的距离为6.5米,所以求得拍照者距离岗亭A距离为28.57米。
图3-7
由于无法找到拍照者在图中的位置,所以无法使用消隐点测距法测得拍照者的高度,转而使用透视变换法。
首先对面的栏杆与拍照者是平行的,所以对图片做关于栏杆的平面的透视变换,得到图3-8(b)。
对应的角度估计有如3-8(a)的关系,AB=CD⨯BE/CE。
对面栏杆映射到地面上,通过估计CE约为1.8米,由原图估计左边车行道宽度为
1.8米,上述求得道路宽为7.8米,因此BE=11.4米。
通过查询资料
栏杆DC=0.7米,所以求得拍照者高度(镜头离地面高度)为4.43米。
图3-8
图3-9
对于图3-9,前面的地砖的尺寸为80cm*80cm,所以估计一块台阶石头长度为1.6米。
AF=GH=1.6米,AB=AF⨯(ab⨯fe)/(af⨯be),由消隐点测距法求得AB=5.04米。
由于CD与地面平行,且无足够的平行线对可用,所以这里使用透视变换求得。
图像对于平面ABCD的透视变换得到图3-10。
在图3-10中,由于透视变换,有以下关系存在:
CD/AB=cd/ab,所以求得CD=3.88米。
对于AB与CD之间的距离,本节使用人身高来进行估计预测。
根据中国女性平均身高,估计人高度
为1.6米。
CD与AB之间距离和人身高在图3-10中成正比,所以求
得CD与AB之间距离为7.49米。
3.4模型评价
图3-4
使用3.1小节所示的尺度信息及3.2小节的模型求解后,任务一
的结果如表3-1所示。
本小节根据图像特性,在图像中选择真实场景中平行存在的线条求解图像中,某平面的消隐点,然后根据消隐点及线段的几何关系推导出待求值,从结果分析取得了较为不错的效果,而针对使用不便使用消隐点测距法的情况,我们也是用透视变换法进行了求解。
表3-1任务一结果
图一
A车头和B车头之间的距离
28.38米
拍照者距马路左侧边界的距离
12.07米
图二
A车头和C车尾之间的距离
28.87米
拍照者距B车头的距离
20.63米
图三
拍照者距岗亭A的距离
28.57米
拍照者距离地面的高度
4.43米
图四
AB的长度
5.04米
CD的长度
3.88米
AB和CD之间的距离
7.49米
四、任务二
4.1任务分析
任务2:
附件“车辆.mp4”(右键点击后选择“保存到文件”可导出视频文件)是别克英朗2016款车上乘客通过后视镜拍摄的视频。
(1)估算该车和后方红色车辆之间的距离;
(2)估算该车超越第一辆白色车辆时两车的速度差异。
该任务同前任务一,为无先验信息情况下得单目视觉信息提取。
所不同的是本任务的视觉信息是视频,具有多帧图像,而相对于任务一具有更多的信息。
但是由于相机处于运动状态,所以无法利用问题一当中的建模方法求解。
但是由于先验知道拍照者所坐的车型,所以可以根据拍照者与画面中的固定深度物体的像素坐标,根据多帧图片计算出相机的内参,然后根据相机内参和多帧图片建立在该相机坐标轴下的地面平面坐标。
最后根据待测物体的像素坐标,求解出在地面平面上的坐标。
4.2模型建立
相机将三维世界中的坐标点(单位为米)映射到二维图像平面(单位为像素)的过程能够用一个几何模型进行描述。
这个模型有很多种,其中最简单的成为针孔模型,针孔模型是很常用且有效的模型,它描述了一个一束光线通过针孔之后,在针孔背面投射成像的关系。
该模型能把外部的三维点投影到相机内部成像平面,构成相机的内参数。
小孔模型能够把三维世界中的物体投影到一个二维成像平面,可以用简单的模型来解释相机的成像过程,如图4-1所示。
对针孔模型进行几何建模,设𝑂−𝑥−𝑦−𝑧为相机坐标系,习惯上我们让𝑧轴指向相机前方,𝑥向右,𝑦向下。
𝑂为摄像机的光心,也是针孔模型中的
针孔。
现实世界的空间点𝑃,经过小孔𝑂投影之后,落在物理成像平面
𝑂′−𝑥′−𝑦′上,成像点为𝑃′。
设𝑃的坐标为[𝑋,𝑌,𝑍]𝑇,𝑃′为[𝑋′,𝑌′,𝑍′]𝑇,并且设物理成像平面到小孔的距离为𝑓(焦距)。
那么,根据三角形相似关系,有:
𝑍𝑋𝑌
𝑓=−𝑋′=−𝑌′
图4-1
其中负号表示成的像是倒立的。
为了简化模型,我们可以把成像平面对称到相机前方,和三维空间点一起放在摄像机坐标系的同一侧,如图所示。
这样做可以把公式中的负号去掉,使式子更加简洁:
𝑍𝑋𝑌
𝑓=𝑋′=𝑌′
整理得:
𝑋′=𝑓𝑋
𝑍
𝑌′=𝑓𝑌
𝑍
上述公式描述了点𝑃和它的像之间的空间关系。
不过,在相机中我们最终得到的是像素点,这需要都在成像平面上对像进行采样和量化。
为了描述传感器将感受到的光线转换成图像像素的过程。
我们设在物理成像平面上固定这一个像素平面𝑜−𝑢−𝑣。
我们在像素平面得到了𝑃′的像素坐标:
[𝑢,𝑣]𝑇。
像素坐标系的定义方式为:
原点𝑜′位于图像的左上角,𝑢轴向右与𝑥轴平行,𝑣轴向下与𝑦轴平行。
像素坐标系与成像平面之间,相差了一个缩放和一个原点的平移。
我们设像素坐标在𝑢轴上缩放了𝛼倍,在𝑣上缩放了𝛽倍。
同时,原点平移了[𝑐𝑥,𝑐𝑦]𝑇。
𝑃′的坐标与像素坐标[𝑢,𝑣]𝑇的关系为
𝑢=𝛼𝑋′+𝑐𝑥
{𝑣=𝛽𝑌′+𝑐𝑦
将𝛼𝑓合并成𝑓𝑥,𝛽𝑓合并成𝑓𝑦,得:
𝑋
𝑢=𝑓𝑥𝑍+𝑐𝑥
{𝑌
𝑣=𝑓𝑦𝑍+𝑐𝑦
其中𝑓的单位为米,𝛼,𝛽的单位为像素/米,所以𝑓𝑥,𝑓𝑦的单位为像素。
把该式写成矩阵形式会更加简洁,不过左侧需要用到齐次坐标:
𝑢1𝑓𝑥0𝑐𝑥𝑋1
(𝑣)=𝑍(0𝑓𝑦𝑐𝑦)(𝑌)≜𝑍𝑲𝑷
1
将𝑍挪到左侧:
001𝑍
𝑢𝑓𝑥0𝑐𝑥𝑋
𝑍(𝑣)=(0𝑓𝑦𝑐𝑦)(𝑌)≜𝑲𝑷
1001𝑍
在上式中将中间的量所组成的矩阵称为相机的内参数矩阵𝑲。
通常认为,相机的内参在出厂之后是固定的,不会再使用过程中发生变化。
由于相机在运动,所以相机𝑃的相机坐标应该是世界坐标(记为
𝑃𝑤),根据相机的当前位姿变换到相机坐标系下的结果。
相机的位姿
有它的旋转矩阵𝑹和平移向量𝒕来描述。
则:
𝑢
𝑍𝑷𝒖𝒗=𝑍[𝑣]=𝑲(𝑹𝑷𝒘+𝒕)=𝑲𝑻𝑷𝒘1
相机的位姿𝑹,𝒕又称为相机的外参数。
相比较不变的内参,外参会随着相机运动发生改变。
因为其次坐标乘上非零常数后表达同样的含义,所以可以简单地把𝑍去掉:
𝑷𝒖𝒗=𝑲𝑻𝑷𝒘
利用相机的成像原理,在本题中进行两次空间变化。
第一次根据车侧面的坐标值构建空间关系,求解相机内参𝑲。
第二次根据相机内参求解地面的平面方程,带入已知数值求解该问题。
根据平面成像原理以及图像中所显示出的车内人与车辆的相对位置关系,我们可以合理预估车侧面的车把手和车门相对于相机的位置,即我们可以得到较为准确的坐标[𝑋,𝑌,𝑍]𝑇。
根据小孔成像原理,如图4-2所示,我们可得相机内参。
图4-2小孔成像原理
第二步我们假设地面的坐标为𝐴𝑋+𝐵𝑌+𝐶𝑍+1=0,根据:
𝑋=𝑢𝑥𝑍
𝑓𝑥
𝑢𝑦
𝑌=
𝑓𝑦
𝑍
我们可得到新的公式:
𝑢𝑥
𝑢𝑦
𝐴
𝑓𝑥
𝑍+𝐵
𝑓𝑦
𝑍+𝐶𝑍+1=0
因此:
𝑍=−
𝑢𝑥
1
𝑢𝑦
𝐴𝑓𝑥+𝐵𝑓𝑦+𝐶
已知平面任意两点[𝑋,𝑌,𝑍]𝑇及[𝑋′,𝑌′,𝑍′]𝑇,可得
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 视觉情报信息分析 研究生 数学 建模 竞赛 优秀论文 视觉 情报 信息 分析 272