基于Spark的并行化出租车轨迹热点区域提取与分析
Extraction and Analysis of Hotspot Region of Parallel Taxi Trajectory Based on Spark
DOI: 10.12677/CSA.2018.89161, PDF,    国家自然科学基金支持
作者: 李雪丽*, 兰小机:江西理工大学建筑与测绘工程学院,江西 赣州;盛 勇:上海数慧系统技术有限公司,上海
关键词: GPS轨迹数据地图匹配热点区域出行热点GPS Trajectory Data Map Matching Hotspot Area Travel Hotspot
摘要: 从出租车GPS轨迹数据中可挖掘出丰富的居民出行规律信息,但数据量的不断增加,对数据挖掘的准确性和效率提出了新的要求。本文以成都市出租车GPS轨迹数据为研究对象,首先对原始数据进行失真数据剔除、多余字段删除和部分时段数据过滤三方面的预处理,其次进行地图匹配,最后利用Spark大数据处理平台,实现K-Means||算法,分为工作日和休息日的不同时段进行挖掘分析,得到成都市居民出行热点区域及其时空分布特征,并将单机K-Means算法和K-Means||算法的性能进行对比分析,结果表明:相比于单机,K-Means||算法在准确性和时间效率上具有优越性。
Abstract: The taxi GPS trajectory data can mine wealthy residents travel law information, but for the increasing number of data, there are new requirements have been put forward about the accuracy and efficiency of data mining. This paper takes Chengdu taxi GPS trajectory data as the research object. First, the distortion of the original data and the redundant field should be deleted, and partial time data should be filtered, then the map should be matched; finally using the spark Big Data processing platform, it realized K-means| |, divided into working days and rest days to analyze and get the hot spot area of Chengdu residents and its space-time distribution characteristics. Finally, com-pared the performance of the K-means and K-means| |, the result showed that K-means| | had superiority in accuracy and time efficiency compared with the single machine.
文章引用:李雪丽, 盛勇, 兰小机. 基于Spark的并行化出租车轨迹热点区域提取与分析[J]. 计算机科学与应用, 2018, 8(9): 1482-1489. https://doi.org/10.12677/CSA.2018.89161

参考文献

[1] Yue, Y., Wang, H.D., Hu, B., et al. (2012) Exploratory Calibration of a Spatial Interaction Model Using Taxi GPS Trajectories. Com-puters, Environment and Urban Systems, 36, 140-153. [Google Scholar] [CrossRef
[2] Peng, C.B., Jin, X.G., Wong, K.C., Shi, M.X. and Pietro, L. (2012) Collective Human Mobility Pattern from Taxi Trips in Urban Area. PLoS One, 7. [Google Scholar] [CrossRef] [PubMed]
[3] Veloso, M., Phithakkitnukoon, S. and Bento, C. (2011) Urban Mobility Study Using Taxi Traces. International Workshop on Trajectory Data Mining and Analysis, 23-30.
[4] 周勍, 秦昆, 陈一祥, 李志鑫. 基于数据场的出租车轨迹热点区域探测方法[J]. 地理与地理信息科学, 2016, 32(6): 51-56, 127.
[5] 张俊涛, 武芳, 张浩. 利用出租车轨迹数据挖掘城市居民出行特征[J]. 地理与地理信息科学, 2015, 31(6): 104-108.
[6] Savage, N.S., Nishimura, S., Chavez, N.E., et al. (2010) Frequent Trajectory Mining on GPS Data. Proceedings of LocWeb, ACM Press, New York, 3-7.
[7] 付鑫, 孙茂棚, 孙皓. 基于GPS数据的出租车通勤识别及时空特征分析[J]. 中国公路学报, 2017, 30(7): 134-143.
[8] 程静, 刘家骏, 高勇. 基于时间序列聚类方法分析北京出租车出行量的时空特征[J]. 地球信息科学学报, 2016, 18(9): 1227-1239.
[9] 牟乃夏, 张恒才, 陈洁, 张灵先, 戴洪磊. 轨迹数据挖掘城市应用研究综述[J]. 地球信息科学学报, 2015, 17(10): 1136-1142.
[10] 桂智明, 向宇, 李玉鉴. 基于出租车轨迹的并行城市热点区域发现[J]. 华中科技大学学报(自然科学版), 2012, 40(S1): 187-190.
[11] 王丽鲲. 基于社交媒体地理数据挖掘的游客时空行为分析[D]: [硕士学位论文]. 上海: 上海师范大学, 2017.
[12] 葛小三, 付魁, 程钢, 马勇, 孙玉祥. 数据挖掘支持下的网络热点事件地理可视化研究[J]. 河南理工大学学报(自然科学版), 2016, 35(5): 655-659.
[13] 张玉峰, 曾奕棠. 基于动态数据挖掘的物流信息分析模型研究[J]. 情报科学, 2016, 34(1): 15-19, 33.
[14] 胡继华, 邓俊, 黄泽. 一种基于乘客出行轨迹的公交断面客流估算方法[J]. 计算机应用研究, 2014, 31(5): 1399-140.
[15] 毛峰. 基于多源轨迹数据挖掘的居民通勤行为与城市职住空间特征研究[D]: [博士学位论文]. 上海: 华东师范大学, 2015.