用出租车GPS数据分析深圳市道路交通况Word文档下载推荐.docx
- 文档编号:17339756
- 上传时间:2022-12-01
- 格式:DOCX
- 页数:31
- 大小:569.18KB
用出租车GPS数据分析深圳市道路交通况Word文档下载推荐.docx
《用出租车GPS数据分析深圳市道路交通况Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《用出租车GPS数据分析深圳市道路交通况Word文档下载推荐.docx(31页珍藏版)》请在冰豆网上搜索。
00处于拥挤的路口和路段相对较少,其他时间基本没有出现拥堵情况。
关键词:
DBSCAN聚类K-MeansOD矩阵隶属度函数信息熵
一、问题重述
各大城市出租车越来越多的安装了GPS终端,这些终端能够每隔1分钟向出租车管理中心发送本车的位置、速度和方向等信息,是车辆GPS实时数据。
原始数据主要保存出租车上装配的GPS终端所采集的数据,这些数据包括序号,车牌号码,GPS时间,经度,纬度,车辆状态(空车、重车),车辆速度,车辆方向(8个方向)等信息。
附注网站提供了深圳市出租车GPS数据,从这些数据你是否能够:
1.根据出租车载客的起讫点,结合深圳市的交通地图,恰当的划分交通小区,并选择小区中的某一点,用其经纬数值作为该小区的坐标。
2.根据小区划分和出租车GPS数据,给出载客出租车的OD时空分布。
如:
某时刻从坐标
到
、
的出租车有多少辆。
3.由此,在合理的假设条件下,能否对人们出行的OD时空分布进行推断?
4.根据出租车载客后的行驶数据,筛选出拥堵的路段时段以与拥堵的路口时段。
拥堵的标准自己设定,如某路段在某个时段平均行驶速度小于多少公里/小时(比如,10公里/小时),可认为是拥堵。
二、问题分析
2.1交通小区的概念
交通诱导是均衡一定区域的交通流量,区域控制是对一定数量交叉口的协调控制。
将这个有限的交通区域称之为交通小区。
交通小区是具有一定交通关联度和交通相似度的节点或连线的集合,随时间、关联度和相似度的变化而变化,反映城市路网交通特征的时空变化特性。
交通小区具有同质性关联性、动态性、稳定性、自组织性等特性[1]。
交通小区的划分是分析城市交通网络的一个很好的方式,因为交通小区内具有相似的交通特征和较强的交通关联性交通小区的划分与该城市的人口面积经济特征产业结构等密切相关,并在一定程度上反应了一个城市的吸引力。
一般来说,交通小区的划分应该遵循以下原则[2]:
(1)分区内的经济、社会等特性尽量一致;
(2)小区划分尽量不打破行政区的划分,以便可以利用行政区的统计资料;
(3)尽量以铁路、河川等天然屏障作为分界线,尽可能避免小区内存在人为或自然障碍线;
(4)分区数量适当,中等城市不超过50个,大城市最多不超过100-150个数量太多将加重规划的工作量,数量太少又会降低调查和分析的精度;
(5)小区尽可能规整,避免狭长形状。
本文主要针对深圳市的具体情况划分交通小区。
从资料中得到深圳市行政区划分图为:
深圳市行政区划分图
2.2问题一的分析
问题一要求根据出租车载客的起讫点,结合深圳市的交通地图,恰当地划分交通小区,并确定小区的经纬度。
首先对数据进行分析,发现这是一份相当庞大且很全面的数据,同时也存在划分小区时所用不到的信息。
GPS终端采集的数据包括序号,车牌号码,GPS时间,经度,纬度,车辆状态(空车、重车),车辆速度,车辆方向等信息。
本题需要得到出租车起讫点的信息。
所以只需挑选出车辆状态从空车变为重车,重车变为空车时对应的数据。
根据起讫点的经纬度确定出租车的位置,毫无疑问是大量的二维的样本点,想到用聚类的方法按照出租车起讫点的密集程度将深圳市划分为几个交通小区,然后可以选择小区内各点经纬度的平均值作为小区的坐标。
2.3问题二的分析
问题二需要在第一问的交通小区划分的基础上,给出载客出租车的OD时空分布。
OD时空分布就是某时刻各小区之间的交通量分布。
本文选取居民出行量较多的上班时刻2011/4/19,7:
40,来计算各个小区之间的出租车通行量。
首先得确定出该时刻下有哪些出租车处于载人状态或者开始载人,然后确定这些出租车在这个时刻处于哪个小区,接着追踪乘客的目的地,确定目的地在哪个小区。
对到达各个小区的出租车辆数进行累加求和,即可得到该时刻载客出租车的OD时空分布。
2.4问题三的分析
在前两问的基础上可以求出载客出租车的OD时空分布,如果要对人们出行的OD时空进行推断,首先得知道居民出行时有多大可能选择乘坐出租车,即得到各个小区之间居民乘坐出租车来往的概率分布,可以考虑建立居民出行基于距离而考虑选择出租车的隶属度函数。
然后根据已知的载客出租车的OD时空分布,除以对应的概率,即可得到人们的总的出行OD时空分布。
2.5问题四的分析
衡量路段或路口的标准有很多种,这里选择路段或路口的平均速度来判断某路段或某路口是否拥堵。
在路口时,由于行驶方向较多,并且设置红绿灯,交通相对复杂,出租车的行驶速度也会放慢,所以设定路口行驶车辆的平均速度小于10km/h时,认定其会导致路段拥堵。
在路段行驶时,来往车辆按两个方向进行行驶,交通较为顺畅,所以设定路段行驶车辆的平均速度小于20km/h时,认为其导致路段拥堵。
本文将2011/4/19等间隔分成一些时间段。
通过出租车行驶方向是否变化来判断路口和路段位置,分别计算出路口路段车辆的平均行驶速度,确定出拥堵的路口路段,得到各个时间段得交通拥堵图。
三、模型假设
1、假设深圳市在采集数据的时间内没有出现阻碍或促进居民出行的情况,例如一些活动;
2、假设地球是规则的球体;
3、假设居民出行选择出租车时只考虑距离的长短;
4、假设出租车的在路段平均行驶速度小于20km/h时导致路段拥堵;
5、假设出租车在楼口的平均速度小于10km/h时导致路口拥堵;
四、符号说明
符号
说明
name
车牌号
time
采集时间点
jd
经度
wd
纬度
status
车辆状态
v
车速
angle
行车方向
出租车载客起讫点的经度
出租车载客起讫点的纬度
交通小区坐标
从小区i出发去往小区j的的所有车次
n
小区个数
m
小区中样本点的个数
l
两个小区之间的距离
p
在某两个小区之间居民乘坐出租车的概率
注:
status为0时表示车辆非打表,即空载,为1时表示已打表,即重载;
angle分别为0=东;
1=东南;
2=南;
3=西南;
4=西;
5=西北;
6=北;
7=东北;
其他符号在文中出现处予以说明。
五、模型的建立与求解
5.1问题一的求解
交通小区是为了减少交通控制和管理系统的复杂性提出的,为了减少交通控制,一些交通相似的地区所组成的紧密区域可以作为一个交通小区。
载客出租车的起始地点和目的地就是交通密集的地方,根据载客出租车起讫点的密集程度用聚类算法方法将深圳市划分为若干个交通小区,在根据小区内各点经纬度的平均值确定小区的坐标。
5.1.1数据处理
由于题目所给数据时时间段为2011/04/18—2011/4/26,车辆总数为13798的GPS数据,数据量十分庞大,基于缩短数据查询时间与提高整体运算性能等方面,本题选取时间段为2011/4/19,8:
00—9:
00的数据。
GPS终端采集的数据包括序号,车牌号码,GPS时间,经度,纬度,车辆状态(空车、重车),车辆速度,车辆方向等信息。
数据中车辆状态status为0时表示出租车空载,为1时表示重载,所以当status从0变为1时,status值为1的位置即为乘客上车的位置,视为起点;
status从1变为0时,status值为0的位置即为乘客下车的位置,视为讫点。
针对车辆粤B000H6做如下具体说明:
从数据表中挑选出的2011/4/19,8:
00时段的部分原始数据如下:
表1:
部分原始数据
粤B000H6
2011/4/19
8:
08:
31
114.0842
22.571
1
51
6
53
114.0811
22.57247
66
12:
18
114.0639
22.57123
13
18:
50
114.054
22.57888
17
3
19:
20
114.0542
22.5784
22
44:
58
114.0493
22.52568
2
45:
根据出租车载客起讫点的确定方法剔除无用数据后,得到如下筛选数据:
表2:
对应优化后数据
上表中status为0的经纬度即为乘客的下车地点,status为1的经纬度即为乘客的上车地点。
利用这种方法对2011/4/19,8:
00时间段的数据进行优化得到出租车载客起讫点的数据,进而划分交通小区。
获取数据的散点图如下:
图1:
数据散点图
5.1.2交通小区的划分
1.DBSCAN聚类划分交通小区
本文利用出租车载客起讫点的密度,首先采用DBSCAN算法对深圳市进行交通小区的划分。
DBSCAN算法是一种基于密度的聚类算法。
它利用类的密度连通特性,可以快速发现任意形状的类。
其优点在于,它可以发现任意形状的聚类,并且不受"
噪声"
的干扰。
其关键思想是,聚类中每个核心点在给定半径(Eps)的圆内的相邻对象至少必须达到一个数量(MinPts),也就是相邻对象的数量必须超过一个阈值。
具体划分过程如下:
图2:
DBSCAN交通小区划分流程图
参照深圳市行政区面积与我国其他城市交通小区的面积,设定数据点的最小领域Eps为0.0097度,领域内最小车辆数MinPts为20。
根据以上流程对深圳市交通小区的划分图为:
图3:
DBSCAN聚类小区划分图
2.结果分析
从上图可以看出,交通小区划分结果并不理想,其中深圳市南部出租车载客起讫点非常密集,划分结果没有区分开来,这主要是因为DBSCAN算法的缺陷导致的。
由于DBSCAN算法用的是全局Eps值,所以数据空间中的所有对象的领域大小被设置为一致,但是实际起讫点的密度和类间距离是分布不均匀的,所以选取的Eps值很容易让离得较近而密度较大的那些类归为一类。
查询深圳市地图可以知道该区域分别为南山区、福田区、罗湖区、盐田区,这些地区人口居住密集,工业密集,商业繁华,娱乐设施齐全,为深圳市的核心区,且靠近香港,相对而言人类出行较为频繁。
本文考虑用K-Means聚类对这些密集地区进行重新划分。
深圳市西北方出现较多噪声点,对应深圳市地图可以知道该区为光明新区,该地区占地面积较大,但是靠近西部,工业较少,经济相对较差,交通相对较少。
但是这些噪声点不能剔除,因为剔除后无法反映实际交通情况,不利于政府统计数据进行城市规划。
因此本文将这部分噪声点划分为一个独立的交通小区,反应光明光明新区交通量较少的情况。
3.K-Means聚类细分交通小区
针对上述用基于密度聚类的DBSCAN算法对起讫点密集地区划分结果不理想的情况,用K-Means算法对密集地区进行重新划分。
K-Means算法是一种分割式聚类方法,它是数据挖掘技术中一种经典的基于划分的聚类算法。
其目的在于从大量数据点中找出具有代表性的数据点,即中心点,然后再根据这些中心点进行后续的处理。
图4:
K-Means交通小区细分流程图
根据深圳市行政区的划分情况,将划分个数K设置为7,划分的小区图如下:
图5:
K-Means细分小区图
综上,基于DBSCAN聚类和K-Means聚类结合的方法得到的深圳市交通小区划分图为:
图6:
深圳市交通小区划分图
从上图可以看出,通过聚类运算将深圳市划分为A-K等11个交通小区,与深圳市地图结合,发现居民出行较为频繁的地区与深圳市经济娱乐发展较成熟的区域一致,且基本符合行政区域的划分,证明了交通小区划分的合理性。
5.1.3小区坐标
各交通小区已经划分完毕,每个小区中对应部分出租车载客起讫点的经纬度,本文根据小区内各点经纬度的平均值确定小区的坐标。
即小区坐标
的计算公式为:
式中,m为小区中数据点的个数,
为数据点的经度,
为数据点的纬度。
利用各交通小区中数据点的经纬度,通过公式
(1)的计算可以得出各小区坐标为:
表3:
A
B
C
D
E
F
114.23005
114.2451251
114.195238
113.8919059
114.04679
113.9578
22.55717481
22.72517273
22.64873674
22.70123756
22.53716
22.54838
G
H
I
J
K
114.03809
113.91925
113.87093
114.13132
114.10517
22.64962
22.52958
22.59263
22.58996
22.54743
小区中心已在上图中标出。
5.2问题二的求解
5.2.1模型建立
用OD矩阵表示OD时空分布,OD矩阵定义如下:
式中,
表示某时刻,从小区i出发去往小区j的的所有车次;
n表示小区的个数。
本文选取居民出行量较多的上班时刻来具体说明如何确定载客出租车的OD时空分布,设定该时刻为2011/4/19,7:
40。
根据数据库中的数据,确定出该时刻下处于载人状态或刚好载人的出租车与其经纬度,通过计算这些出租车与所有小区坐标的马氏距离来判定出租车是属于哪个小区的,与哪个小区的马氏距离最小,则判定出租车属于该小区。
之后追踪这些出租车的目的地的经纬度,根据与各小区的马氏距离来判定差租车驶往哪个小区。
对到达个小区的所有车次进行累加求和,即可得出该时刻的载客出租车的OD时空分布。
具体操作流程图如下:
图7:
计算出租车OD时空分布的流程图
5.2.2模型求解
基于以上流程图进行计算,得出2011/4/19,7:
40,该时刻各小区之间的交通量,即载客出租车的OD时空分布如下:
表4:
载客出租车得OD时空分布
上车人次
9
15
40
45
5
10
16
281
27
24
130
529
19
42
14
114
12
4
90
177
30
62
63
210
7
25
39
131
11
41
113
263
28
121
49
269
530
下车人次
47
86
525
198
146
156
112
147
574
2027
从上表中可以看出,上班时间E区和K区乘坐出租车上班的人数最多且在两小区下车人数也最多,说明这两个小区交通量大,工作单位多,经济相对发达。
查询深圳市地图可知,E区和K区分别对应福田区和罗湖区,恰恰是深圳市的经济核心区。
由此证明了交通小区划分的合理性和OD时空分布计算的正确性。
类比以上方法可以求出其他不同时刻下载客出租车得OD时空分布。
5.3问题三的求解
本文考虑先求出各个小区间居民选择出租车进行来往的概率,根据已知的载客出租车的OD时空分布,推出人们出行的OD分布。
5.3.1模型建立
1.各交通小区间距离
因为各小区坐标是以经纬度形式表示的,不利于计算两个小区之间的距离,现对其进行转化。
假设地球为一个规则的球体,地球半径为R=6371.004km。
查询可知深圳市所在纬度圈半径为:
式中,θ为纬度角,资料显示22.45°
<
θ<
22.87°
,介于其范围较小,将θ设定为22.5°
。
单位纬度对应的距离为:
单位经度对应的距离为:
通过代入R和θ的值进行计算得到:
所以深圳内两点间所跨经纬度对应的距离为:
为小区i和j之间的纬度差。
为小区i和j之间的经度差。
综上可以得到两个交通小区之间的距离为:
2.隶属度函数
居民选取交通工具跟其出发点与目的地之间的距离有关系,本文假设居民出行选择出租车作为交通工具只与小区间的距离有关系,通过资料查询,居民出行选择出租车的最大概率为0.7,建立居民出行选择出租车作为交通工具的概率随小区间距离变化的隶属度函数如下:
式中,l为两个小区之间的距离;
α,β为未知参数。
5.3.2模型求解
1.小区距离
利用公式(3)—公式(7)可以计算出A-K各交通小区之间的距离(单位为km),分别为:
表5:
各交通小区之间的距离
0.000
18.745
10.791
38.244
18.952
27.975
22.234
32.066
37.092
10.775
12.871
9.924
36.373
29.189
35.456
22.862
39.914
41.159
19.044
24.439
31.695
19.656
26.815
16.139
31.288
33.886
9.263
14.576
24.206
18.296
16.073
19.294
12.268
27.526
27.789
9.222
12.537
13.125
19.085
10.480
6.103
13.953
4.479
10.190
18.409
15.133
18.087
18.300
11.649
13.289
8.590
22.791
19.197
26.744
24.576
5.439
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 出租车 GPS 数据 分析 深圳市 道路交通