轨迹数据的空间概化毕业论文.docx
- 文档编号:29602463
- 上传时间:2023-07-25
- 格式:DOCX
- 页数:105
- 大小:5.50MB
轨迹数据的空间概化毕业论文.docx
《轨迹数据的空间概化毕业论文.docx》由会员分享,可在线阅读,更多相关《轨迹数据的空间概化毕业论文.docx(105页珍藏版)》请在冰豆网上搜索。
轨迹数据的空间概化毕业论文
本科生毕业论文
姓名:
学号:
学院:
计算机科学与技术学院
专业:
信息安全
论文题目:
轨迹数据的空间概化
专题:
指导教师:
职称:
2011年6月
毕业论文任务书
任务下达日期:
2011年1月10日
毕业论文日期:
2011年2月21日至2011年6月15日
毕业论文题目:
轨迹数据的空间概化
毕业论文专题题目:
毕业论文主要内容和要求:
设计轨迹数据空间概化的相关方法,减少轨迹数据的隐私信息。
采用C++或C#实现轨迹数据空间概化和聚类原型系统,以飓风数据为测试数据集,对所实现的方法进行测试。
要求:
(1)抽取轨迹数据关键点,根据空间相近性对抽取的关键点进行分组;
(2)抽取每组内的中心点作为概化点;
(3)将原始轨迹根据概化点生成概化轨迹,并对轨迹进行聚类;
(4)实现轨迹数据空间概化和聚类的原型系统;
(5)以飓风数据为测试数据集,对所实现的方法进行测试。
院长签字:
指导教师签字:
摘要
轨迹数据空间概化作为轨迹数据挖掘的一个重要研究内容,其目的是对轨迹数据进行空间抽象,达到降维和隐私保护的目的。
本文主要对轨迹数据空间概化方法和基于空间概化的轨迹聚类技术进行研究。
首先,阐述了轨迹数据空间概化的背景和意义,总结了轨迹数据挖掘的内容,分析了轨迹数据聚类研究方法并对其进行了分类,并介绍了轨迹数据的空间概化方法。
其次,编程实现了传统轨迹数据空间概化方法,并提出基于多约束的轨迹数据空间概化方法。
该方法首先根据轨迹点时间、位置、速度等多个特征约束提取出特征点。
然后对特征点进行分组,计算原始轨迹所经过的分组信息,连接分组区域中心点生成概化轨迹。
在上一步基础上,提出基于空间概化的轨迹聚类方法。
该方法对整条概化轨迹进行聚类,并针对不同聚类方法所得聚类结果进行相似性比较。
飓风数据实验表明,选择合适概化参数后,在概化轨迹满足聚类等数据处理要求的基础上,数据维度大大降低,所要处理的轨迹点数大大减少,消耗的聚类时间大大减少。
同时,实验比较聚类结果的相似性表明,选择合适概化参数后,概化后的轨迹仍然保持了良好的轨迹位置等特征。
最后,在理论研究的基础上,本文设计并实现了空间概化轨迹聚类分析系统Trajectory-Generalization,可以轨迹数据集进行概化和聚类分析,能获得更具可视化效果的轨迹数据空间概化和聚类结果。
关键词:
轨迹空间概化;轨迹特征点;多约束;轨迹聚类;相似性
ABSTRACT
Asahottopicofthetrajectorydatamining,spatialgeneralizationoftrajectorydataisaimedatspecialabstractionoftrajectorydata,whichisusefulfordimensionalityreductionandprivacyprotection.
Firstly,thispaperrepresentsthebackgroundandmeaningoftrajectorydataclustering,andthensummarizesthecontentsoftrajectorydatamining.Afterthat,weanalyzethetrajectoryclusteringresearchmethodsandmakeaclassificationtothesemethods.Atlast,wediscussthemethodofspatialgeneralizationoftrajectorydata.
Secondly,wedesignaprogramtotestandverifythetraditionalmethodforspatialgeneralizationoftrajectorydata,andthenproposeanewmethodwithmultipleconstraintsforthat.Themethodfirstlyextractsfeaturetrajectorypointswithmultiplefeatureconstraints,forexample,time,position,speed,etc.Thenthemethodgroupsthefeaturepoints,andcalculatesthegroupinformationofwhichtheorigintrajectoriespass.Atlast,weconnectgroupingregionalcenterpointinordertogeneratinggeneralizedtrajectories.Aftertheabovesteps,weproposethespatialgeneralizationtrajectoryclusteringmethod.Themethodclustersontheentiregeneralizedtrajectories,andmakeacomparisonforvariousclusteringresultsgeneratedbydifferentclusteringmethods.
ExperimentsonHurricanedatashowthattheoriginaldatadimensionisgreatlyreducedwiththeappropriateparameterschosenintheconditionthatgeneralizedtrajectoriesaresatisfiedwiththerequirementsofclusteringandtheclusteringtimeconsumptionisalsogreatlyreduced.Atthesametime,theexperimentsoncomparisonofclusteringresults’similarityshowthatafterselectingtheappropriateparameters,almostoftrajectoriesremainsgoodfeaturesofthetrajectoriessuchasthepositioninformation.
Finally,basedontheresearchtheory,thispaperdesignsandachievestheprimitivesystemofTrajectory-Generalization,whichcandoclusteringanalysisontrajectorydata,andvisualizationresultsfortrajectorydatageneralizationandclustering.
Keywords:
spatialgeneralization;characteristicpoints;multipleconstraints;trajectoryclustering;similarity
1绪论1
1.1研究背景与意义1
1.2国内外研究现状2
1.3论文主要的研究内容2
1.4论文结构3
1.5本章小结4
2轨迹数据挖掘及空间概化方法5
2.1轨迹数据挖掘概述5
2.2轨迹数据挖掘研究内容5
2.3轨迹数据聚类方法6
2.3.1基于层次方法7
2.3.2基于划分的方法7
2.3.3基于密度的方法7
2.3.4基于模型的方法7
2.3.5基于网格的方法8
2.3.6其他方法8
2.4轨迹数据概化方法8
2.5本章小结9
3基于多约束的轨迹数据空间概化方法10
3.1引言10
3.2传统的轨迹数据空间概化方法10
3.2.1具有时间意识的轨迹特征点提取10
3.2.2将空间中的特征点分组12
3.2.3定位区域中心15
3.2.4概化轨迹的生成16
3.3轨迹数据的特性和基本定义17
3.3.1轨迹的几个特性17
3.3.2轨迹的基本定义18
3.4基于多约束的轨迹数据空间概化方法19
3.4.1具有多约束下的轨迹特征点提取19
3.4.2轨迹概化的其他步骤22
3.5实验及分析22
3.5.1实验数据及运行环境22
3.5.2提取轨迹特征点23
3.5.3特征点分组25
3.5.4概化点和概化轨迹生成27
3.6本章小结29
4基于空间概化的轨迹聚类方法30
4.1引言30
4.2聚类算法的讨论31
4.2.1传统的聚类算法及其局限性31
4.2.2DBSCAN算法描述及其实现31
4.3基于空间概化的轨迹聚类32
4.4空间概化聚类同原始轨迹聚类相似性对比33
4.5实验及分析34
4.5.1实验数据及运行环境34
4.5.2实验分析35
4.6本章小结41
5轨迹数据的空间概化和聚类原型系统的设计与实现43
5.1系统架构概述43
5.1.1数据获取43
5.1.2数据预处理43
5.2系统的实现44
5.2.1系统结构44
5.2.2关键类结构46
5.3系统的运行46
5.3.1运行环境46
5.3.2输入数据46
5.3.3功能展示47
5.4本章小结52
6结论53
参考文献54
翻译部分57
英文原文57
中文译文67
致谢75
1绪论
1.1研究背景与意义
移动设备例如手机、掌上电脑,嵌入式点子产品等已经广泛应用于人们的生活之中,而且将越来越普及。
现代的移动设备越来越多都具有GPS功能,设备服务端可以通过移动端为用户提供主动式、基于位置的服务,极大地方便了人们对于位置定位、路线识别等服务的需求。
服务提供商为用户提供这些服务的同时也收集到大量的位置数据,这些数据作为宝贵的信息资源,记录了移动对象在某时刻的位置信息,这些数据传达了移动对象在一定时间段内的运动轨迹,通过对这些数据的分析,可以得出一些共性的有价值的模式,利用这些模式可以分析移动对象的日常生活习惯、活动轨迹,提供更好的主动式信息供给、用户位置查询等服务。
ITU-国际电信联盟[1]指出截至2010年底,全球移动电话注册数量达52.8亿,普及率达86.47%,2009年底,该数据为46.6亿,普及率达为67%,而在峰会第一阶段会议召开之际(2003年)普及率仅为20%,移动蜂窝的快速腾飞出人意料。
发展中国家的普及率于2008年超过50%,一些区域(欧洲和独联体国家)已达到100%大关;并将在2015年基本实现100%的覆盖。
这有可能带来全世界所有人对电话服务的获取。
另一方面,手机服务运营商通过各种定位技术如GSM和UMTS,能更好更精确的提供计算一个用户位置的能力,而各种移动标准技术的综合使用:
配备GPS的移动设备可以发送他们的轨迹给服务提供者(欧洲伽利略卫星定位系统、中国的北斗卫星导航系统等都可以提供高精度和高普及程度),Wi-Fi和蓝牙设备可以作为一种用于室内定位的数据源,Wi-Max能成为户外定位的一种替代品,还有很多其他的移动轨迹数据源获取技术[2]。
可见随着卫星,传感器,RFID和无线网络等技术的迅速发展,记录了海量的物体移动轨迹数据。
例如,一个零售商拥有3000个零售店,每天每个店销售10000件商品,每件商品在被卖掉之前平均移动10次,这样每天就产生3000×10000×10=3亿的数据,那一个月,一年的数据是非常巨大的;一个城市每天的交通轨迹数据也是海量的。
对于这些轨迹数据挖掘是现实世界的实际需要驱动的:
(1)城市交通方面:
现在的很多出租、邮政和货运车辆都配备了GPS设备,这些设备以一定的频率向某些特定的管控中心定时发送自己的坐标。
交通警察、公路运输管理、快递公司等单位或部门通过将这些点按时间顺序连接起来就可得到车辆的运行轨迹,这样可以保证车辆的安全和有效调度,以及对交通流量的分析等等。
(2)天气预报方面:
气象局对于每次的台风都有记录,台风的风速、中心位置、中心附近的风力、台风的等级都有详细的记录;根据历史的台风轨迹数据,预测未来的台风轨迹,能减少很多的人民财富损失。
(3)煤矿安全方面:
对于煤矿井下人员定位系统,在煤矿的普及率越来越高,而煤矿人员定位系统长期运行后,也产生海量的轨迹数据,对这些海量的历史轨迹数据进行分析,利用分析获得的规律指导今后的煤矿安全工作,具有重要的实际意义。
(4)其他:
如通过动物运动轨迹,分析研究动物群居的习性;通过研究大超市里人们的购物移动路线,分析研究购物者们的购物爱好,以便后来更好的布置购物场所;另外对于定位服务、视频监控还有其他很多的现实应用都有轨迹数据挖掘的需求。
1.2国内外研究现状
轨迹数据挖掘是数据挖掘领域下一个新兴的研究方向,近几年才开始有较大的发展,目前国内外研究的机构和学者还不是很多。
国内研究轨迹数据挖掘的专家和研究机构主要有:
四川大学唐常杰教授领导的数据库与知识工程研究所,做了轨迹数据异常检测[3]、[4]、轨迹预测[5]、[6]、序列模式挖掘[7]等方向的研究;中国人民大学孟小峰教授领导的网络与移动数据管理实验室,做了移动数据库系统[8]和移动对象索引[9]等技术的研究;华中科技大学李国徽教授;中国科学院软件研究所丁治明教授;台湾地区中央研究院李强教授、曾新穆教授、彭文志教授和黄三义教授也做了些对轨迹数据挖掘的研究。
国外研究机构和专家相对比较多:
在HanJ.W.教授领导下,美国伊利诺大学香槟校区的数据挖掘实验室开展了AnalysisofSpatiotemporal、TrajectoryandTrafficData的相关研究,,并且取得了颇多成果,在轨迹模式挖掘、异常发现、轨迹聚类分析等多方面都有较好的表现;意大利比萨大学的知识发现和传递实验室进行了从事移动数据分析(MobilityDataAnalysis)相关方向的研究;还有Australia'sICTResearchCentreofExcellence,IBMChinaResearchLab,MicrosoftResearchAsia,U.S.ArmyResearchLaboratory等等研究机构也做了一些对轨迹数据挖掘的研究工作。
聚类分析已经有很长的历史,它在数据挖掘、机器学习等研究领域有着非常重要的地位,然而轨迹数据聚类分析是近几年才热门起来。
1999年,ScottGaffney[10]等人较早提出了进行轨迹数据聚类研究,他们用回归模型组件组成的混合模型,采用基于EM算法的无监督学习方法进行聚类;2004年,YifanLi、JiaweiHan[11]等人提出移动对象聚类研究;2006年,YutakaYanagisawa[12]等人提出一种基于移动对象的形状和速度的多维度模型进行轨迹聚类的方法;2007年,Jae-GilLee[13]等人提出一种基于TRACLUS轨迹聚类算法的框架,XiaoleiLi[14]提出用基于密度算法的FlowScan算法来发现城市交通的热点道路。
2009年,ChengChang[15]等人采用分段思想,通过多粒度的可视化来展示聚类结果,ElioMasciari[16]提出另外一种轨迹聚类框架,用字符串代替轨迹,采用字符串的编辑距离来比较轨迹间的距离,ElioMasciari还提出利用PCA主成份分析[17],将轨迹分割成多个区域的序列,然后用傅里叶变换来比较轨迹的相似性。
可以看出,很多学者在轨迹聚类分析上做了大量的研究,但是目前这些方法大多还存在如下几方面的缺点:
(1)仅仅只对采样点的位置进行聚类分析,不能从全局的角度把握轨迹的特征、运动趋势等信息。
(2)只考虑轨迹点的位置,没有考虑轨迹点的速度、方向、加速度因素。
(3)大部分方法对一整条轨迹作为一个整体来处理,忽略轨迹局部的相似特征,而往往两条轨迹在整体上是不相似的。
(4)没有考虑移动对象运动时所在环境对其的影响。
(5)聚类结果不可靠性:
对于同一个轨迹聚类算法,采用不同的参数设置结果有较大的差异性;对于同一轨迹数据集,采用不同的轨迹聚类算法可能得到完全不同的结果。
1.3论文主要的研究内容
本文的主要研究内容包括以下几个方面:
(1)研究轨迹数据的空间概化的方法
海量轨迹数据处理过程耗时太久,占用空间大。
本文的轨迹数据空间概化方法能够在保持数据原有位置特征的基础上对轨迹进行降维处理。
轨迹的空间概化方法基于对轨迹进行特征点提取。
概化后的轨迹保留了物体基本的运动特征。
轨迹概化的程度可以通过参数设置来控制。
(2)研究基于空间概化的轨迹聚类方法
现有研究对轨迹聚类研究,主要是在完整的轨迹模型上进行聚类分析,而对于海量数据的处理,完整的轨迹聚类消耗的时间非常大。
本文先将原始轨迹进行概化处理,得到概化轨迹。
通过基于空间概化的轨迹聚类方法,使用概化处理后的轨迹进行聚类处理。
将结果同原始轨迹聚类处理得到的结果进行比较,验证了方法可行性。
(3)设计并实现空间概化轨迹聚类分析系统
在理论研究的基础上,本文设计并实现空间概化轨迹聚类分析系统,可以对轨迹数据进行概化和聚类分析,能更方便的获得更具可视化效果的轨迹数据概化和聚类结果。
1.4论文结构
下面给出论文的具体组织结构,本论文一共有六章,具体安排如下:
第一章:
绪论。
论述课题的选题背景与研究意义,介绍了国内外关于轨迹数据挖掘的研究现状,重点讨论了轨迹数据聚类的研究情况,分析了该领域存在的技术难点以及未来的发展趋势。
第二章:
轨迹数据挖掘及空间概化方法。
主要讨论轨迹数据挖掘的研究内容,重点介绍了轨迹数据聚类的基本理论、过程和方法,以及一些轨迹数据聚类的基本概念和轨迹概化的相关方法。
第三章:
基于多约束的轨迹数据空间概化方法。
首先编程实现了传统的轨迹数据空间概化方法,在此基础上提出基于多约束的轨迹数据空间概化方法。
该方法首先对轨迹提取特征点,考虑轨迹点的位置、开放角、方向角、速率和速度等多个因素。
在提取特征点的基础上,对特征点进行分组。
使用每个分组的中心点作为轨迹的概化点,生成VoronoiCell。
最后,对原始轨迹路经分组信息计算,查找原始轨迹经过的一系列分组,并用分组区域中心的连接来代替原始轨迹,达到轨迹数据的空间概化目的。
通过飓风数据实验对轨迹数据的空间概化方法进行了分析比较。
第四章:
基于空间概化的轨迹聚类方法。
为了验证前面章节中提出的轨迹数据空间概化方法,提出了基于空间概化的轨迹聚类方法,方法使用概化处理后的轨迹作为实验数据集,聚类算法针对轨迹特征,聚类元素为整条轨迹线段。
聚类结束后,针对原始轨迹聚类簇集合以及概化轨迹聚类簇集合进行结果的相似性比较。
通过飓风数据实验对基于空间概化的轨迹聚类方法进行了分析比较。
第五章:
轨迹数据空间概化和聚类原型系统。
在理论研究的基础上,本文设计并实现了空间概化轨迹聚类分析系统Trajectory-Generalization,可以对模拟交通数据、真实的飓风运动和动物移动等数据进行概化和聚类分析,能更方便的获得更具可视化效果的轨迹数据概化和聚类结果。
第六章:
结论。
对本研究课题作了总结和概括,
1.5本章小结
本章主要介绍了本文的选题背景、国内外本体研究现状、本文的研究思路、研究内容及组织结构。
2轨迹数据挖掘及空间概化方法
2.1轨迹数据挖掘概述
数据挖掘[18]就是从大量数据中发现隐含的知识和规律。
它既是一种知识获取技术,又是一个数据处理过程。
它是数据库研究、开发和应用最活跃的分支之一,是一个多学科的交叉领域,它出现于20世纪80年代后期,90年代有了突飞猛进的发展,近年来已经取得了重大进展,开发出了许多新的数据挖掘方法、系统和应用。
很多人把数据挖掘作为另一个普遍使用的术语,从数据库中发现知识即KDD(KnowledgeDiscoveryinDatabases)[19],这是从数据中提取有趣的并且以前未知的知识,用来提供战略决策支持。
随着卫星、网络、跟踪设备和视频监控等的发展,人们已经能够捕获大量移动物体的轨迹数据,如车辆移动、动物移动、台风走向、人员移动等等轨迹数据。
但是对于如此海量的数据,人们却没有加以利用,而是仅仅记录了。
这些轨迹数据是基于时间和空间的序列数据,可以也应该通过轨迹数据仓库,发现新的有趣的知识[20]。
轨迹数据与传统数据相比,具有以下两方面的特点:
一方面轨迹数据都与某一对象相关,轨迹数据中除包含以字符、文字为特征的属性信息外,还包含以距离关系、方向关系、拓扑关系为特征的轨迹信息;另一方面是轨迹数据具有空间自相关性,即每一个事物都与其它事物相关,但邻近事物间的相关性比距离较远的事物间的相关性要大得多[21]。
这就使得轨迹数据挖掘比传统数据挖掘更为困难,因此研发高效的轨迹数据挖掘技术是当前轨迹数据挖掘面临的主要挑战。
2.2轨迹数据挖掘研究内容
轨迹数据挖掘主要研究内容有如下几点:
1)轨迹的异常检测:
异常检测在数据挖掘领域中比较流行,然而对于轨迹数据的异常检测研究却严重缺乏,现在几乎还没有比较好的算法用于轨迹数据异常检测[22]。
轨迹数据挖掘异常(离群)检测,检测那些极不同的或与现有轨迹数据集不一致的轨迹数据。
目前主要异常检测算法有:
通过检测轨迹的局部异常程度来判断两条轨迹是否全局匹配,进而检测异常轨迹[3];文献[4]提出的轨迹向量度量方法可以有效检测出轨迹点和轨迹分段在空间位置和轨迹方向上的离群性,通过挖掘离群轨迹点探测离群轨迹,并且通过Grid空间划分法,提高算法的运行率;XiaoleiLi[22]等人提出的ROAM移动对象异常检测方法,将离散模式的轨迹片段进行特征分析,组成一个多层次的特征空间,提出一个通用的,基于分类器的结构化、多层次的有效学习的检测办法;Jae-GilLee[23]等人提出基于TRAOD算法的的异常轨迹检测框架,先将轨迹分成线段集,然后通过检测异常线段来检测异常轨迹。
文献[24]对移动对象轨迹数据流的异常检测做了一定的研究,它用局部连续性特征对数据流进行局部聚类得到局部聚类簇,然后通过有效的剪枝策略进行异常监测。
2)轨迹模式发现:
FoscaGiannotti[25]等人最早提出轨迹模式挖掘研究,以移动对象的轨迹模式挖掘为示例,朝着序列模式挖掘这个方向研究,并且简化了轨迹模式挖掘在空间和时间域下的描述。
唐常杰[7]等人提出了PartSpan并行轨迹模式挖掘算法,该算法受时间约束,通过前缀投影办法分解搜索空间来减少候选轨迹序列,引入并行策略将并行计算分解为数据制定和任务制定计算,再通过特定的候选策略来有效的挖掘轨迹模式。
文献[26]通过弗里歇距离来找最长公共子轨迹,然后再对子轨迹进行聚类分析得到轨迹模式。
JiongYang[27]等人提出一种基于min-max属性认证的轨迹模式挖掘算法-TrajPattern。
文献[28]对轨迹周期性模式挖掘做
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 轨迹数据的空间概化 毕业论文 轨迹 数据 空间