出租车轨迹数据挖掘进展Word格式.docx
- 文档编号:22633261
- 上传时间:2023-02-05
- 格式:DOCX
- 页数:19
- 大小:182.93KB
出租车轨迹数据挖掘进展Word格式.docx
《出租车轨迹数据挖掘进展Word格式.docx》由会员分享,可在线阅读,更多相关《出租车轨迹数据挖掘进展Word格式.docx(19页珍藏版)》请在冰豆网上搜索。
同时,轨迹数据与其他社会、经济、人口数据的关联分析,能发觉城市人口流淌模式[13-16]、社会活动动态[17-18]、能源消耗分布[19-20]及环境污染状况[21-22]等,挂念提高城市管理决策水平。
近年来,围绕出租车轨迹数据挖掘开放了大量争辩,并取得了丰硕的成果。
同时,随着滴滴出行、Uber等新型出行方式的兴起,以及神经网络与深度学习方法的热潮,出租车轨迹数据挖掘领域正面临着重大机遇和挑战,有必要对该领域的争辩现状进行梳理总结。
为此,本文综合分析近十年来出租车轨迹数据挖掘方向的争辩成果,从争辩方法与争辩应用两个维度对出租车轨迹数据挖掘争辩成果进行剖析,试图描绘出该领域的进展历程与争辩前景,以期为轨迹数据挖掘等相关领域学者供应参考。
本文首先从空间统计、时间序列、图论与简洁网络及机器学习4类争辩方法阐述出租车轨迹数据挖掘领域的争辩现状;
其次从智能交通、环境与资源疼惜、城市规划及社会感知4个应用方面来归纳分析该领域的最新进展;
最终争辩该领域目前面临的主要问题和有待探究的争辩方向。
一、出租车轨迹数据
1.1数据内容
原始的出租车轨迹数据集本质上都是出租车轨迹点集,由多行采样记录构成,每条记录代表一个轨迹点,包括出租车编号、时间戳、经纬度坐标、速度和方向等基本行驶数据,部分数据集还会记录载客状态、车辆类型等信息。
从数据集中抽取出以车为单位的轨迹点序列,就形成轨迹。
此外,出租车轨迹在一些特殊场合,也通过二维曲线或关键位置序列如路段编号字符串、交通格网编号序列等来描述。
具有不同属性特征的轨迹适用于不同争辩主题,如载客轨迹与空载轨迹常被用于人群移动[14,17]、出行模式[23-24]和运营策略[25]等争辩;
低速行驶轨迹可以用于发觉交通拥堵现象[26];
特殊轨迹能作为评估司机驾驶行为[27]或感知交通突发大事[28]的依据。
1.2数据特点
(1)掩盖范围广。
出租车轨迹数据在时间和空间尺度上的掩盖范围比其他交通轨迹数据更广。
出租车运营时间可达全天24h,而且出租车行驶在城市交通路网中,不受线路制约。
如图1所示,武汉市一天的出租车轨迹数据可掩盖城市中心路网的80%以上。
图1武汉市一天的出租车轨迹数据掩盖范围
(2)采样密度高。
出租车轨迹数据的采样间隔一般在1min以内,部分数据集可达到3s以内,能完整地记录出租车的行驶路径,具有时空序列性和连续性。
(3)位置精度高。
出租车轨迹数据是通过车载GNSS采集获得的出租车位置数据,其精度较高,一般为5~20m[2]。
同时由于出租车始终行驶在城市路网中,因此可以通过地图匹配等方法进一步提高数据的位置精度[29]。
(4)数据规模大。
由于城市出租车数量多、运营时间长、采样密度高,因此出租车轨迹数据集往往规模浩大,中心城市如武汉等一天就可产生200多万条出租车轨迹数据记录。
而滴滴出行等商业平台每日新增轨迹数据就超过106TB,每日处理数据更是达到4875TB[30]。
(5)蕴含信息丰富。
出租车轨迹数据中记录的最直接信息是出租车在每个时间点的位置坐标,这些连续坐标点刻画了出租车在一段时间内的移动轨迹。
移动轨迹体现出租车司机的运营特征,包括寻客策略[11]、路径选择偏好[31]、载客范围[10]或欺诈绕路现象[27]等。
出租车在城市交通中所占比重较大,达到总交通流的20%左右,在一些关键区域甚至可以达到50%[32]。
国家交通运输部发表的《2018年交通运输行业进展统计公报》表明,2018年出租车客运量达到351.67亿人。
因此,出租车速度和密度等属性否定程度上能够反映城市交通流和人群移动的整体状况,从而用于估量或猜想通行时间和交通流量、监测交通拥堵状况[4-6],并结合POI数据进行城市规划结构、用地分类[33-35]等的进一步探测。
1.3数据预处理
原始的出租车轨迹数据多存在特殊点、噪音点、轨迹点漂移等问题,因此在对数据进行挖掘分析之前通常要对数据预处理。
出租车轨迹数据预处理过程包括数据清洗、地图匹配、数据轨迹化与轨迹划分、质量评价4个部分。
数据清洗主要是为了剔除数据中的特殊点和噪音点,其中卡尔曼滤波[36]、粒子滤波[37]等都是常用的数据清洗方法。
而地图匹配的目的是要将出租车轨迹点精确 地匹配到城市路网上。
现有的地图匹配算法可分为确定性地图匹配算法与不确定性地图匹配算法两大类[29],具体有投影算法[38]、概率统计算法[39]、模糊规律算法[40]、相关性分析算法[41]等。
数据轨迹化则是将原始的出租车轨迹点数据转化为线数据的方法。
基本思想是将每辆出租车的连续GNSS采样点依据时间挨次先后连接起来,映射到地图上即得到一条与道路地图相匹配的有向曲线[42]。
出租车轨迹数据质量评价方面可分为两部分,一是对出租车轨迹数据定位精度进行评定;
二是出租车与真实的交通流之间存在密度与速度[43]上的差异,这些差异会导致最终交通流计算或猜想结果中存在误差[44],因此还需要对出租车轨迹数据的计算精度进行评定与校正。
1.4开放数据集
目前通过互联网可免费猎取到很多公开出租车轨迹数据集。
如微软T-Drive项目供应的2008年北京出租车一周内的轨迹数据[45];
纽约Taxi&
LimousineCommission(TLC)官方网站发布的纽约市出租车轨迹数据集[46],时间区间为2009—2018年,可以月为单位下载所需的数据;
CRAWDAD是达特茅斯学院的一个无线数据资源网站[47],包含了大量出租车轨迹数据集,如旧金山海湾地区500辆出租车30d内的轨迹数据、上海4000辆出租车在2007年2月20日这一天内24h的轨迹数据、罗马市区320辆出租车在2014年2月1日至3月2日一个月内的行驶数据等;
滴滴出行通过盖亚数据开放方案向争辩者免费开放了部分网约车数据[48],目前已供应西安市和成都市2016年的局部轨迹。
二、争辩趋势分析
出租车轨迹数据挖掘相关争辩的历史最早可追溯至1999年,第3代蜂窝通信网络与基于位置的服务(LBS)在这一时期开头兴起,如图2所示。
移动特性的学问对规划、设计和运行通信网络具有重要意义,因此争辩者们利用全球定位系统(GNSS)测定一段时间内出租车的位置数据,来评估物体的移动特性[49-50]。
之后这些出租车轨迹数据开头被尝试用于估量路段速度[51]、进行出租车调度[52]和监测交通排放量[53]等智能交通与环境疼惜方面。
图21999—2019年出租车轨迹数据挖掘领域文献数量
在2011年第十三届普适计算国际会议上,文献[54]提出利用出租车轨迹数据检测城市规划中的缺陷。
此后,利用出租车轨迹数据发觉并评价城市规划结构的争辩成果开头大量涌现,如发觉城市中的功能区域[55]、识别城市土地利用分类[34,56]、评估城市交通系统应对突发大事的力气[10]等。
基于出租车轨迹数据进行城市动态争辩的文献在同一时期开头毁灭,如文献[57]以北京1万多辆出租车为争辩对象,对人类移动行为建模分析;
文献[13]基于上海158万条出租车轨迹数据,识别城市居民出行模式;
文献[58]从葡萄牙里斯本5个月的出租车轨迹数据中发觉城市流淌规律等。
总的来说,出租车轨迹数据挖掘领域在2011—2012年间发生了重大变化,毁灭了两个新的争辩方向:
一是城市规划,指利用出租车轨迹数据发觉、识别并评估静态的城市规划和城市结构;
二是社会感知,指基于出租车轨迹数据对城市内人群活动的动态变化、移动模式进行分析和监测。
这时期毁灭的一系列重要成果彻底转变了之前出租车轨迹数据只能在交通领域内得到应用的状况,出租车轨迹数据挖掘领域进入新的进展阶段。
智能交通、资源与环境疼惜两个应用方面贯穿出租车轨迹数据挖掘领域始终,尤其智能交通方面,是出租车轨迹数据的直接应用领域,直至现在也是每年发表争辩成果数量最多的方向,如图3所示。
城市规划和社会感知虽然都是于2011年前后开头起步,但这两个方面的联系较为紧密,城市规划结构可以看作是社会感知争辩的基础,因此城市规划方面相对来说得到了更多的关注和进展,但近年来社会感知争辩也开头毁灭上升的趋势。
图32008—2019年出租车轨迹数据挖掘争辩数量的应用领域分布
空间统计、时间序列、图与简洁网络等传统的分析挖掘方法是该领域早期的主要争辩方法,如图4所示。
空间统计方法适用范围广,能解决多种类型的问题,如热点区域发觉、通行时间估量、猜想等。
时间序列方法主要用于出租车轨迹数据的频繁模式挖掘与相像性度量。
图与简洁网络方法则是对基于出租车轨迹数据抽取出的网络结构如道路网、市民出行网等进行网络相关特性的挖掘分析。
值得留意的是,从2014年开头,由于计算机处理力气和硬件设备的提升,机器学习中的神经网络与深度学习方法重新吸引了各领域科学家的目光,也开头被用于出租车轨迹数据挖掘领域中猜想通行时间、打车需求等问题。
图42008—2019年出租车轨迹数据挖掘争辩数量的争辩方法分布
2014—2015年可看作是出租车轨迹数据挖掘领域的第2个分界点。
从2014年至今,出租车轨迹数据挖掘领域都照旧处于转型过渡阶段。
这一时期,除了引入神经网络与深度学习方法外,更重要的是毁灭了滴滴出行、Uber、共享单车等新型出行方式。
《中国共享经济进展年度报告(2019)》表明,网约出租车客运量占总出租车客运量的比重达到36.3%,这对传统出租车行业造成了否定冲击。
很多城市的出租车公司与滴滴出行合作,传统出租车也能通过在线接单来寻客,因此出租车行业整体的运营方式也转变了。
出租车行业的巨大转变与前沿技术的进展,对出租车轨迹数据挖掘领域,既是机遇也是挑战。
一方面,基于滴滴平台获得的网约出租车轨迹数据比传统出租车轨迹数据的采样密度更高,达到1~3s一个轨迹点;
采集精度更高,由于滴滴依据行驶轨迹计费,GNSS数据与实际行驶路径匹配精确 率可达到100%;
掩盖范围更广,以北京为例,62%的滴滴网约车起点或终点位于城市边缘公共交通掩盖不足地区,且包含大量跨城轨迹[59]。
这为出租车轨迹数据挖掘争辩供应了质量更高、更具代表性的数据源。
另一方面,滴滴网约车与传统出租车之间因其行业背景不同而存在差异。
例如,主要寻客方式由过去的巡游寻客变为在线派单,滴滴网约车本身存在专车、快车、出租车和顺风车等多种运营形式,这些因素影响行车阅历挖掘、载客点推举等问题的结果。
此外,神经网络与深度学习方法的应用尚未深化。
在解决不同问题时应当怎样选择网络?
在使用不同网络时又应当怎样选择出租车轨迹数据的输入形式?
神经网络与深度学习对轨迹数据来说是否真的适用?
这些问题都还未得到完整解答。
从图2可看到,2017年后出租车轨迹数据挖掘争辩的文献数量有所回落,这否定程度上表示出租车轨迹数据挖掘领域渐渐开头进入新的瓶颈期,需要进一步探究新型前沿技术在该领域的应用,以及与多源数据的联合分析。
近年来,部分学者发表了出租车轨迹数据挖掘综述成果,为本文方法和应用综述争辩奠定了否定基础。
文献[60]从社会动态、交通动态和行为动态3方面来对出租车轨迹争辩进行分析总结;
文献[61]以城市计算为动身点,综述出租车轨迹数据在城市感知和规划方面的应用;
文献[62]总结了出租车轨迹数据在交通状态分析、运营管理及支持和路径规划及猜想等智能交通方面的争辩。
这些争辩综述的角度有所不同,各有侧重。
本文综述争辩的重点是出租车轨迹数据挖掘与分析的理论和方法,以及总结该领域争辩主题变化趋势和挑战。
在出租车轨迹数据领域面临转变的背景下,本文旨在梳理出租车轨迹数据挖掘争辩的现状,同时思考将来可能的进展趋势,为宽敞争辩人员把握现有争辩状况、定位和规划将来争辩方向供应参考。
三、出租车轨迹数据挖掘方法
多年来,各个领域的学者都不断试图从出租车轨迹数据中挖掘出新的学问与阅历,所涉及的理论与方法掩盖多个学科,接受的主要方法可以归纳为4类:
空间统计、时间序列方法、图论与简洁网络及机器学习。
3.1空间统计
空间统计方法能直观地挂念争辩者获得数据集的整体分布特征,从而选择相应的统计模型对轨迹数据进行后续分析。
因此,空间统计方法是应用最多最广泛的基本数据挖掘技术,它可以作为独立的方法对轨迹数据进行分析,也可以作为前期的数据处理方法为后续的争辩供应依据。
3.1.1探究性空间分析
探究性空间数据分析方法的特点是对数据集的总体不作假设,而是使用统计图表、图形和统计概括等探究性、描述性的方法对数据的特征进行分析和描述[63]。
在面对出租车轨迹数据时,数据的整体特征对争辩者来说往往是未知的。
接受该类方法可以获得数据集的整体统计特征,计算得到载客里程、载客时间、载客数、上下客点数、行驶速度、换乘时间间隔等统计量,挂念发觉时空分布规律,进而建立统计模型解决相应问题。
例如,司机收入这一统计量通常被作为衡量司机寻客策略有效性的标准[64-67]。
在此基础上,通过跟踪高收入司机的行车轨迹,可以为其他出租车司机推举载客点和供应行车指导[11,25,68-69],从而提高出租车服务质量和司机收入水平。
除了对出租车行业本身的探究与评价之外,部分争辩综合考虑公交站点分布[70]、网约车服务[71-72]、天气[9]等外界因素从而进一步发掘出租车行为规律。
在统计量的基础上进行简洁计算能粗略估量城市道路交通状况和交通容纳量[3,73-75],提取居民出行与移动的规律[23,57,76]。
基于与道路网和社会经济数据的联合分析,可以探测城市功能区域和土地利用布局[56,77]、估量城市汽油消耗和尾气排放总量[19,20,78]。
探究性空间分析方法能挂念简洁、直观地把握整个数据集的特征,但结果都是比较概括性的结论,简洁受到数据处理过程中的误差影响,不能充分挖掘轨迹数据的价值。
3.1.2空间聚类
空间聚类方法是数据挖掘领域的关键技术之一。
依据聚类对象的不同,出租车轨迹数据的空间聚类方法可分为点聚类方法和轨迹聚类方法。
点聚类方法主要是对出租车轨迹数据中的点数据进行空间聚类,包括出租车的GNSS采样点、停留点或者是上下客点。
常用的聚类算法有k-means算法和DBSCAN算法。
聚类分析的结果直观简明,能直接从结果中发觉特定的出租车行为规律。
例如,通过对出租车上下客点进行点聚类能获得热门上下客区域,从而向出租车司机推举最佳载客点[79-81]。
下客点聚类结果反映了市民出行偏好,可挂念城市规划布局[16,34,82]。
道路网中大量低速聚集状态的出租车集群是道路拥挤现象的表现,因此,通过道路低速点聚类能对城市道路拥堵模式进行估量和分析[83-84]。
文献[85]还基于空间聚类提出一种城市交叉口自动识别方法,为城市交通路网局部结构的探测供应了新途径。
点聚类得到的结果通常是要素聚集的面状区域,但在数据量较大时,难以快速识别出不规章外形的聚类簇。
同时,如何确定具有多重属性的点数据相像系数也是目前难点之一。
如文献[86]针对现有算法在出租车载客热点区域提取结果的不足,提出一种顾及路网约束的改进DBSCAN算法,将道路拓扑关系与路段长度数据加入聚类算法的相像性度量中。
轨迹聚类是对出租车行驶轨迹进行聚类,得到的结果是具有相像形态且聚集的轨迹簇。
例如,对下客热点到上客热点之间的轨迹进行聚类,得到最具有寻客潜力的最优路径[87]。
或者,跟踪特定区域间的下客轨迹,从而识别出城市交通流向规律[88]。
此外,文献[26]基于相像轨迹聚类的思想提出拥堵同伴的概念和发觉算法,筛选出可能发生拥堵的浮动车数据,进而对拥堵区域的变化趋势进行猜想。
轨迹聚类的难点是如何定义轨迹在时空维度上的相像性度量,基于整体的轨迹聚类会忽视子轨迹的细节信息,而基于分段的轨迹聚类会分割轨迹,使一条轨迹分属于多个聚类簇。
从聚类精确 度动身,多数争辩者认为基于分段的轨迹聚类方法粒度更细、精确 度更高。
3.1.3空间回归分析
空间回归分析是定量描述空间数据之间关系的常用方法。
出租车轨迹数据记录了出租车的行驶路线,在空间分布上具有明显的空间异质性,并与社会经济因素和城市规划布局紧密相关;
同时,也受城市居民的出行规律影响,在时间上表现出明显的周期性。
因此,空间回归分析方法常被用来拟合并猜想出租车客流量,并量化分析乘客需求与社会经济因素、环境质量之间的关系。
例如,各种回归模型被用来拟合出租车上客点的数量分布[89],再对热点地区乘客的时空变化和等待时间进行猜想[10,90-92]。
或者,利用地理加权回归模型来刻画出租车的空间异质性[93],并将客流量与社会人口和建筑环境变量关联起来。
空间回归分析能精确 地刻画因子之间的相关性和拟合程度,但其应用范围会受到回归模型假设条件的限制,且模型的构建通常是一个探究性的过程,因此结果依靠于争辩者对因子的选择和表达。
3.1.4密度分析
密度分析是用来计算整个争辩区域内数据聚集状况的方法,利用离散的点(线)生成连续的曲面,从而发觉要素较为集中的区域,包括一般的点(线)密度分析方法和核密度分析方法。
一般的点(线)密度分析对落入搜寻区域的点或线进行求和,计算区域单位面积内的元素数量。
出租车停留点密度能作为有效估量区域内打车需求与出租车充电需求[94-95]的指标、提取城市热点区域和人们出行规律[35]的依据;
同时,跟踪出租车停留点密度变化过程可以探测城市中上下客大事的冷热点集群变化规律[17,96]。
这种方法的局限在于会导致网格边缘毁灭过大落差,也就是“断崖”现象。
核密度分析方法中,落入搜寻区的点具有不同的权重,分析的结果是平滑、连续的表面,避开了一般的点(线)密度分析中“断崖”的毁灭。
通过核密度分析方法能提取出租车集聚的热点区域[97]、分析出租车行为的时空分布模式[98]。
与一般密度分析方法相比,核密度分析方法提取的区域边界更平滑、更合理,但由于带宽的设置会直接影响结果的好坏,因此依据数据集的特点选择合适的带宽是该方法的关键。
3.1.5其他方法
除了上述方法之外,还有大量争辩使用基于空间统计理论的其他方法来挖掘出租车轨迹数据,如利用OD矩阵分析[15,99]、隐马尔可夫模型[100]、离散选择模型[31]等对出租车上下客行为进行建模猜想,通过图像处理方法从出租车轨迹数据中提取路网结构[101]等。
另外统计检验方法[102]、基于证据理论的方法[103]、主成分分析方法[28]等也渐渐受到人们的关注。
总之,空间统计方法种类众多,所应用的争辩领域也涵盖甚广,但使用时多受前提假设的限制,是一类基础而又需谨慎使用的方法。
3.2时间序列方法
时间序列数据反映了一类事物或现象随时间的变化状态或程度。
出租车轨迹数据可以看作是依据否定时间间隔通过定位设备采样得到的时间序列数据,因此部分争辩利用时间序列方法的思想对出租车轨迹数据进行分析。
例如,文献[104]使用PrefixSpan的思想搜寻轨迹的频繁模式子序列,并构建一个频繁轨迹图模型,该模型能计算得到最佳打车推举结果。
文献[105]对GSP算法进行改进以应对大规模轨迹数据,挖掘出租车频繁轨迹特征[106],从而分析出租车司机的驾驶阅历与行为模式,并为其他司机供应路径规划。
相比轨迹数据,时间序列数据的相像性度量要简洁得多,因此有部分争辩首先将轨迹数据转换为时间序列数据,再对其进行轨迹聚类,从而探测十字路口[107]和道路网变化[108]、挖掘司机行为规律[109]等。
但其缺点在于转换过程中会损失信息,且时间序列方法是用于分析一维数据的方法,在应用于二维数据的过程中存在很多限制。
3.3图论与简洁网络
出租车轨迹数据可以看作是城市道路网的映射,能够从中提取出城市道路网的主干结构。
同时,由于出租车轨迹数据记录了居民出行路径,将出行热点区域作为节点,区域间的交通轨迹作为边,可以构建乘客出行网络图。
利用从轨迹数据中提取出的图和网络特性,通过图论与简洁网络相关方法能解决更多特定问题。
3.3.1路径搜寻方法
路径搜寻方法是解决在图或网络中怎样依据特定的规章从一个顶点到达另一个顶点问题的一类方法,实际应用时通常先构建交通道路网,再遵循长度最短或时间最短的条件在道路网中计算最佳路径,最终将计算的结果推举给司机,为司机供应路径规划和导航[110-113]。
例如文献[7]基于k-最短路径算法提出了一种具有负载均衡支配的时空轨迹模型,该模型为出租车司机供应推举点间的最短路线。
最短路径搜寻可以供应抱负状况下的路径参考,然而在现实状况下,距离最短的路径不否定是司机第一选择的路径,还受到很多环境因素的影响如道路拥堵、交通限速等,同时也依靠于道路网构建合理与否。
3.3.2可达性衡量方法
在城市道路网络中,可达性指的是道路网中从一个区域到达某个特定区域的简洁程度,是评价城市区域和道路网规划是否满足市民需求的指标[114-115]。
如文献[116]构建了两个矩阵模型来分别表示每条轨迹的起讫网格和经过的网格坐标,并接受基于位置的可达性衡量法对争辩区域的城市规划进行评价。
这类方法要求争辩者对城市规划和交通规划有比较深刻的生疏,充分理解可达性的内涵与类型,同时考虑各个指标的假设条件限制。
3.3.3社区发觉方法
社区发觉方法是用于发觉简洁网络中的社区结构的一种算法,社区是一个子图,而整个网络可以看作是由多个社区构成的。
其中社区内节点与节点之间的连接很紧密,而社区与社区之间的连接比较稀疏,因此社区发觉方法与聚类方法有否定的相像性。
社区发觉方法可以探测道路网、市民出行OD网络的子结构,并分析评价城市结构与空间的相互作用,跟踪其动态演化过程[33,117]。
如文献[118]基于出租车轨迹数据,把空间单元看作节点,人类运动流看作边,建立了空间嵌入式网络模拟城市内部空间互动。
目前社区发觉方法所争辩的对象已不局限于静态单一的网络,如何在多模式、多维度网络当中解决不同模式及
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 出租车 轨迹 数据 挖掘 进展