基于Tango手机系统的3D扫描系统设计.docx
- 文档编号:25557003
- 上传时间:2023-06-09
- 格式:DOCX
- 页数:38
- 大小:3.10MB
基于Tango手机系统的3D扫描系统设计.docx
《基于Tango手机系统的3D扫描系统设计.docx》由会员分享,可在线阅读,更多相关《基于Tango手机系统的3D扫描系统设计.docx(38页珍藏版)》请在冰豆网上搜索。
基于Tango手机系统的3D扫描系统设计
本科毕业设计(论文)
学院(部)
机电工程学院
题目
基于Tango手机系统的3D扫描系统设计
年级
2014级
专业
电气工程及其自动化
班级
电气班
学号
1429402027
姓名
缪天缘
指导老师
余雷
职称
副教授
论文提交日期
2018年5月19号
基于Tango手机系统的3D扫描系统设计
摘要
在人工智能和计算机视觉快速发展的时代背景下,设计3D扫描系统对场景进行三维重建是前沿和热点问题之一。
目前的三维重建技术根据传感器不同,主要分为基于激光雷达设备的建模和基于视觉的相机建模。
激光雷达设备具有高精度,高实时性的特点,但其价格昂贵,成本太高,且适用环境受到限制,在空中或水下的建模效果差;基于视觉的三维重建设备代表之一是微软公司推出的Kinect相机,其可以捕捉RGB图像和深度图像中的信息从而实现场景的三维重建,成本低廉,但存在精确度较低,重建操作复杂,不易携带等缺陷。
针对此问题,本设计提出基于Tango手机的3D扫描系统。
利用联想公司推出的Tango嵌入式手机,实现对场景的实时三维重建,在保证重建精度的基础上,降低了硬件成本,简化了重建操作,同时便于携带,具有广泛而深远的发展前景。
本文介绍了Tango手机平台的硬件结构以及利用RGB-DSLAM技术采集数据信息的原理;使用张正友标定法和高斯滤波对数据进行预处理从而减小系统误差和噪声对重建效果的影响;通过比较多种特征点的提取和匹配算法,最终确定采用改进的ORB特征提取算法配上BRIEF描述子和K-D树搜索算法来实现;基于视觉内容搭建词袋模型,利用闭环检测解决场景模型的累积漂移问题;最后采用g2o框架进行图优化,解决非线性系统的位姿状态估计问题。
通过实验对本设计进行验证,利用Tango手机开发平台对多个室内场景三维重建,并对比Kinect的扫描系统,操作简单,重建速度较快,具有相对的高实时性,同时重建模型精度满足任务要求,总体达到了预期目标。
关键词:
Tango;RGB-DSLAM;ORB算法;闭环检测;图优化
Abstract
Underthebackgroundoftherapiddevelopmentofartificialintelligenceandcomputervision,designing3Dscanningsystemstoperform3Dreconstructionofscenesisoneofthefrontierandhotissues.Thecurrentthree-dimensionalreconstructiontechnologyisbasedondifferentsensorsandismainlydividedintotwotypes:
Lidar-basedmodelingandvision-basedcameramodeling.Laserradarequipmenthasthecharacteristicsofhighprecisionandhighreal-timeperformance,butitspriceishigh,theapplicableenvironmentislimited,andthemodelingeffectintheairorunderwaterispoor;oneoftherepresentativesofvisual-based3DreconstructionequipmentistheKinectcameralaunchedbyMicrosoftCorporation,whichcancapturetheinformationintheRGBimageanddepthimagetoachievethethree-dimensionalreconstructionofthescene.Thecostislow,butthereisaloweraccuracy,complexreconstructionoperations,noteasytocarryandotherdefects.
Tosolvethisproblem,thisdesignproposesa3DscanningsystembasedonTangomobilephones.UsingtheTangoembeddedmobilephoneintroducedbyLenovo,thereal-time3Dreconstructionofthesceneisrealized.Onthebasisofensuringthereconstructionaccuracy,thehardwarecostisreducedandthereconstructionoperationissimplified.Itisconvenienttocarryandhasextensiveandfar-reachingdevelopmentprospects.ThisarticleintroducesthehardwarestructureoftheTangomobilephoneplatformandtheprincipleofusingRGB-DSLAMtechnologytocollectdatainformation.ItusesZhengyouZhangcalibrationmethodandGaussianfiltertopreprocessthedatatoreducetheinfluenceofsystemerrorandnoiseonthereconstructioneffect;Bycomparingtheextractionandmatchingalgorithmsofmultiplefeaturepoints,theORBfeatureextractionalgorithmisfinallydeterminedtomatchtheBRIEFdescriptorandtheK-Dtreesearchalgorithm;Basedonthevisualcontent,abagmodelisbuilttosolvetheproblemofcumulativedriftofthescenemodelbyusingclosed-loopdetection.Finally,thegraphisoptimizedbyusingtheg2oframeworktosolvetheposestateestimationproblemofthenonlinearsystem.
Theexperimentwasusedtoverifythedesign,usingtheTangomobilephonedevelopmentplatformtoperform3DreconstructionofmultipleindoorscenesandtocomparethescanningsystemofKinect.Theoperationissimple,therebuildingspeedisfast,andithasrelativelyhighreal-timeperformance.Atthesametime,theaccuracyofthereconstructionmodelmeetstherequirementsofthetask,andtheoverallgoalisachieved.
Keywords:
Tango;RGB-DSLAM;ORBalgorithm;closed-loopdetection;graphoptimization
第一章绪论
1.13D扫描系统的研究背景与意义
人工智能[1](ArtificialIntelligence)是二十世纪五十年代的产物,发展至今,已成为二十一世纪三大尖端技术(基因工程、纳米科学、人工智能)之一。
人工智能近三十年里的进步飞速,在涉及到的很多科学领域内都取得了丰硕的成果。
其中,计算机视觉是人工智能的重要分支,利用传感器代替人眼,通过计算机进行信息处理后,可以对目标进行识别、跟踪和分析,使计算机能够像人那样通过视觉观察和分析,获得自主适应环境的能力。
本文研究的3D扫描系统设计,旨在通过摄像机采集数据并通过一系列处理方式,达到实时地构建出场景的三维模型。
三维重建技术[2]的应用方向极为广泛,在机器人自主导航、无人汽车、无人机航拍、教育、3D打印、医疗影像、虚拟现实游戏及电影等领域,是未来不可或缺的一项技术,具有着广阔的发展前景。
三维重建技术的发展之初是利用机器人携带相机对场景进行拍摄或扫描,结束之后将获得的视频或照片在具有强大功能的计算机上处理,以此完成对场景的三维重建。
但这种方法存在一个明显的缺陷:
非实时性。
一旦场景发生变化,重建的价值也会大打折扣。
为解决这个问题,研究人员提出了以视觉传感器为中心的视觉SLAM[3](SimultaneousLocalizationandMapping,同时定位与地图构建)技术,涉及数学、物理学、几何学、图像处理、机器人、仪器科学等多门学科。
它是指携传感器的主体,在没有环境这类先验信息的情况下,通过运动过程中获取的信息,建立周围环境的模型,同时估计自己的运动轨迹。
利用视觉SLAM技术进行场景三维重建的代表之一就是手持扫描仪KinectFusion。
用户手持Kinect[4]相机,缓慢移动,将采集到的数据直接反馈给具有强大处理能力的GPU和CUP计算机,再经过一个优化的过程,即可在计算机上实时观测到高质量,几何精确的场景三维模型。
不同于PC端的实时三维重建,本文的研究方向是基于嵌入式设备的实时三维重建,将PC端上操作复杂的重建系统简化到一个嵌入式设备上,在尽量不牺牲重建精确性的基础上,实现操作简单,携带方便的3D扫描系统设备。
主要利用了联想公司推出的Tango手机设备和RGBD-SLAM技术以达到预期目标。
1.2国内外研究现状
1.2.1三维重建研究现状
三维重建技术按实时性分为非实时性重建和实时性重建,按传感器种类分为激光雷达设备和视觉传感器设备,按实现平台分为PC端和手机端。
随着计算机视觉领域的不断扩大,SLMA技术也被用于解决在未知环境中机器人的定位和构建地图问题。
基于此的视觉SLAM在三维重建领域带来了转变和突破。
目前,主流的重建方式是基于激光雷达的PC端三维重建,用于满足工业上的需求,其高精确度是其他重建方式不可比拟的,但由于设备的高额成本,无法实现在日常生活中的普及。
另一类重建方式是利用最普遍的传感器—相机采集视觉数据,降低了成本,但精确度下降,如微软公司的Kinect和Google公司的Tango平台。
此类的研究方向大多是利用Kinect相机的特有结构进行场景重建,要想取得较好的模型需要改进各个模块算法或利用GPU加速实现[5]。
基于Kinect的PC端三维重建技术基本成熟,甚至可以做到实时三维重建,但其在面对用户方面显得比较笨重复杂,不具有便携性。
在嵌入式设备Tango手机上进行三维重建的研究正在发展阶段,随着重建技术的逐步完善,该类重建技术具有的应用前景和市场也是可观的。
1.2.2基于视觉的SLAM技术
按测量深度信息的方式不同,视觉SLAM使用的相机可分为单目相机(Monocular)、双目相机(Stereo)和深度相机(RGB-D)三类。
单目相机只有一个摄像头,通过采集彩色图像获取RGB信息,再利用相机移动时产生的视差计算物体的远近,但该方法存在尺度不确定性,无法确定真实尺度;双目相机有两个相机,除了可以获取RGB信息外,也可以利用两个相机之间的基线确定深度(三角法测量),但其缺陷是计算量大,不利于重建的实时性;深度相机克服了前两种相机存在的缺陷,既可以通过彩色图像采集到RGB信息,还可以通过飞行时间法(Time-ofFlight)或红外结构光来获取深度信息[6]。
飞行时间法获取深度信息的原理是利用红外发射器发射一束近红外光,根据反射时间差或相位差换算出物体与相机间的距离。
利用这种方法获取深度信息的缺点是分
辨率较低且成本较高。
红外结构光法是一种主动式测量方式,发射一束红外激光束经衍射光栅分解投影到目标上,然后根据目标平面与参考平面的距离和光斑偏移之间的约束关系,测量光斑的偏移即可转换出目标物体与相机间的距离,计算简单,价格便宜。
但红外结构光法获取的深度信息容易受到日光或其他传感器发出的红外光的干扰,因此仅适于在室内使用。
图1-1单目相机图1-2双目相机
图1-3深度相机
经过过去十几年的研究,视觉SLAM已经形成了经典的框架[7],如图1-4:
建图
后端
非线性优化
传感器数据
闭环检测
图1-4经典视觉SLAM框架图
本框架通过传感器采集数据,这些传感器多种多样,包括相机、激光、编码器、陀螺仪、加速度计、IMU(惯性测量原件)等。
将采集到的数送给视觉里程计(VisualOdometry)估算相邻图像间相机的运动,同时用闭环检测判断是否回到了之前到过的位置。
后端对接收到的相机位姿和闭环检测信息优化,得到全局一致的地图和轨迹,最后根据估计的轨迹构建与任务要求相符合的地图。
1.3本设计内容及结构安排
本文将对利用Tango手机进行三维重建系统设计,各章节主要内容如下:
第一章为绪论,首先介绍了三维重建技术的研究背景和长远发展前景,然后根据研究现状并按照重建技术不同将三维重建系统分类。
最后是本文主要的研究内容和文章的结构安排。
第二章介绍了嵌入式设备Tango手机的硬件构成和获取深度信息的原理,然后使用标定和滤波方法减小系统误差和噪声影响。
第三章为基于特征点法的视觉里程计,该部分模块负责计算相机的运动和特征点的位置。
特征点的提取算法是通过比较后选取效果最好的ORB提取算法,而后基于ORB特征提取算法配合BRIEF描述子和K-D树搜索算法实现特征点的匹配。
第四章为后端非线性优化环节和闭环检测模块。
针对非线性系统的状态估计问题,通过参考文献,选用g2o框架的图优化求解相机位姿的状态。
使用词袋模型的闭环检测解决累积漂移带来的重建失败,最终构建具有全局一致性的轨迹和地图。
第五章为实验验证与分析。
通过Tango手机重建的结果分析本系统的可靠性和重建效率,是否能满足任务要求。
第六章为全文总结,并对利用嵌入式设备进行场景三维重建的未来工作和发展方向进行展望。
第二章数据信息采集与处理
2.1Tango手机的硬件构成
本设计的任务是在嵌入式设备上实现三维重建,鉴于深度相机获取深度信息的便捷性,选择了Tango手机(如图2-1)作为本设计的硬件基础设备。
深度感知摄像头(红外线发射+接收器)
运动追踪摄像头(鱼眼)
1600万像素PDAF摄像头
图2-1Tango手机示意图
上图是联想公司联合谷歌、高通打造的国内第一款TangoAR手机。
使用QualcommSnapdragon6528核处理器,系统内存4GB,存储容量64GB,Android6.0系统,拥有前置800万像素摄像头,后置1600万像素摄像头,深度感知摄像头,支持RGB和红外线探测功能,运动追踪摄像头,重力传感器,亲近感应器,光线感应器,加速计,陀螺仪等,其中深度感知摄像头由红外发射器和红外接收器组成。
该手机具有特有相机结构和传感器可以实现对物体的测绘和追踪,实时显示立体室内方位,虚拟和现实的交互等强大的AR体验。
2.2利用Tango手机采集数据
三维重建设计的第一步就是要采集数据,本文需要使用Tango手机获取RGB信息和深度信息。
RGB信息可以利用1600万像素的PDAF相机获取,而深度信息需要利用深度感知摄像头获取。
该深度摄像头采用的是红外结构光法测深度信息,由一个红外发射器和一个红外接收器组成[8]。
红外结构光法[9]是一种主动式测量方式,发射一束红外激光束经衍射光栅分解投影到目标上,然后根据目标平面与参考平面的距离和光斑偏移之间的约束关系(如图2-2),测量光斑的偏移即可转换出目标物体与相机间的距离Z。
图2-2红外结构光测量原理
由三角形相似原理,得:
(2-1)
(2-2)
图2-2中f为相机焦距,p为目标物体,p所在平面为目标平面,O为参考平面上的点,D为目标平面和参考平面间的距离,D0为相机平面和参考平面间的距离,b为相机基线长度,d为像素偏移。
联立式(2-1)和式(2-2),可得:
(2-3)
Z即为此时的目标物体深度信息[10]。
2.3标定与滤波处理
采集到的Z是相机坐标系下空间点P在z轴上的投影坐标,要想获得P在空间坐标系下的坐标,还需要求解相机的内参、外参和畸变系数。
图2-3相机成像模型图
如图2-3为相机成像模型,空间点P在相机坐标系下的坐标为[X,Y,Z]T,经小孔成像后在物理成像平面的坐标为P’=[X’,Y’]T,由三角形相似关系式2-4可以求出物理成像平面上的坐标。
(2-4)
(2-5)
在物理成像平面上,为了实现对像素的采样和量化,建立像素平面坐标系,经缩放和平移后,P’在像素平面坐标为[u,v]T,u轴缩放α倍,v轴缩放β倍,原点平移[cx,cy],即式2-6,将式2-5代入式2-6并简化可得式2-7:
(2-6)
(2-7)
把式2-7写成式2-8的矩阵形式:
(2-8)
将Z移到左边得:
(2-9)
该式中P为目标空间点在相机坐标系下的坐标,K为要求的相机内参矩阵,求取内参矩阵K的过程即为标定[11]过程。
利用内参矩阵K,可以将目标物体的像素坐标转换为该点在相机坐标系下的坐标。
为了获取较好的成像效果,相机前方通常要加上透镜,但由于透镜对光线的传播有影响,使成像位置发生变化,将这种位置的变化称为畸变。
其中,由于透镜的存在将空间直线变为曲线的畸变叫做径向畸变(图2-4);由于安装过程存在的误差,使成像平面和透镜平面不平行产生的畸变称为切向畸变[12](图2-5)。
图2-4径向畸变图
图2-5切向畸变图
对于径向畸变,使用一对与中心距离相关的二次及高次多项式(2-10)纠正;对于切向畸变,使用另一对包含p1和p2两个参数的多项式(2-11)纠正。
通过k1,k2,k3,p1,p2这5个畸变系数,可以求取像素点在相机坐标系下的实际坐标P。
(2-10)
(2-11)
(2-12)
由于相机一直处于运动过程,所以相机坐标系也在不断变换,同一个空间点Pw在不同相机坐标系下的坐标也随着相机坐标系的变换而变换。
相机的运动包括旋转和平移,可以用矩阵表示为旋转矩阵R和平移向量t,将RPw+t记为T,称为相机的外参数。
TPw=P,所以可以由外参矩阵和目标点在相机坐标系下的坐标求得目标点在空间坐标系下的坐标Pw。
本实验中,使用棋盘格进行标定,同时使用高斯滤波,用一个模板扫描图像中的每一个像素,模板中心像素点的灰度值用模板内像素的加权平均值替代,平滑滤波,消除高斯噪声,减小深度信息的误差,最后利用重投影方法计算误差。
2.4本章小结
本章介绍了Tango手机采集图像RGB和深度信息的原理;根据相机成像原理,利用空间目标点P在空间坐标系、相机坐标系、物理成像平面和像素平面之间坐标的变化求取空间点坐标。
其中,为消除透镜带来的成像畸变影响,通过5个畸变系数进行矫正,减小系统误差,同时通过高斯滤波减小随机误差。
第三章基于特征点的视觉里程计
3.1视觉里程计
视觉里程计[13-14]属于三维重建框架的前端,可根据相邻图像的约束关系粗略估计出相机运动。
其实现方法可分为直接法和特征点法。
在计算机视觉领域,图像是被当作矩阵处理,若直接利用该矩阵求解位姿变化,计算量过大,难以实现实时性。
若将图像中相似的点删除,挑选出具有代表性的点(即特征点),在这些点的基础上进行位姿求解则会大大减少运行时间。
鉴于基于特征点法的视觉里程计模块运行稳定,对动态物体和光照不敏感,且方案比较成熟,符合任务要求,本设计选取基于特征点的视觉里程计作为前端实现方法。
3.1.1特征点提取
特征点由关键点和描述子构成。
关键点是该特征点在图像中的位置,描述子则是一个向量,包含关键点周围像素的信息。
目前,基于视觉的RGB-DSLAM技术利用的特征提取算法主要有Harris角点检测、SIFT(尺度不变特征变换)、SURF(加速鲁棒性特征)、ORB等[15]。
其中Harris角点检测是在某个点的邻近区域内平滑移动一个窗,在各个方向上求一阶偏导,灰度值变化剧烈的就是角点;SIFT[16]特征点提取算法利用尺度空间图像梯度分布特性构建特征描述,由差分高斯查找满足不同尺度下都存在的特征点并通过拟合三维二次函数确定关键点位置;SIFT描述子通过选取以关键点为中心的8*8窗口,再将其划分成4个4*4小窗口,对每个小窗口内的像素梯度值加权处理,由于每个梯度包含8个方向,所以形成4个128维(4*4*8)向量,并选出最大值,使每个关键点对应一个128维的特征向量作为描述子,如图3-1所示。
图3-1SIFT特征提取图
SIFT特征点提取算法考虑了光照、旋转、尺度等变化,虽然定位准确但带来了极大的计算量,一般仅用于拥有GPU加速的PC端三维重建模式,要想在手机端使用SIFT特征提取算法进行实时三维重建目前不易实现;SUFT特征提取算法是在SIFT算法基础上改进得到的,利用Hessian行列式金字塔选取极值点作为关键点,通过积分图像和harr特征计算图像卷积,简化对关键点的描述。
SUFT算法对噪声和光学畸变有更好的鲁棒性,大大缩减了运行时间。
ORB算法是基于FAST角点提取算法和BRIEF特征描述算法改进得到,利用机器学习的三叉树排除伪角点,设定阈值筛选角点,特征点提取速度非常快,但缺乏描述子,因而采用速度极快的BRIEF二进制描述子,ORB算法使整个图像特征提取环节时间大大缩减。
相较于SUFT特征提取算法,ORB特征提取算法虽然提取的精度有所下降,但是提取的效率也得到了提高,且对于特征点的匹配来说也更加方便。
3.1.2ORB特征提取算法
ORB特征是目前实时性最好的特征,虽然精度上比不上SIFT和SUFT特征,但考虑到手机上的三维重建,可以牺牲部分精度换取高实时性,本设计的特征提取就是采用ORB特征。
ORB特征也是由关键点和描述子构成,关键点的选择是通过改进过后的FAST角点法,对关键点的描述则采用BRIEF描述子[17-18]。
关键点提取过程:
从图片中选取一个像素P并设定一个灰度阈值t和数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Tango 手机 系统 扫描 设计