基于随机森林算法的盖亚大数据清洗的研究
An Automatic Data Cleaning Method for GPS Trajectory Data on Didi Chuxing GAIA Open Dataset Using Random Forest Algorithm
DOI: 10.12677/CSA.2019.99196, PDF,  被引量    科研立项经费支持
作者: 张家顺*:河北工业大学,天津
关键词: 数据清洗机器学习随机森林Data Cleaning Machine Learning Random Forest
摘要: 本文针对滴滴出行的盖亚开放数据集中的GPS轨迹数据,设计了一种自动数据清洗方法。该方法基于随机森林算法,用来识别盖亚开放数据集原始GPS轨迹数据中的无效数据,弱信号数据和正常数据。首先根据三类数据的数学特征选择其特征集,然后确定其最优的特征子集维度。最后,基于python的pandas和scikit-learn实现所提出的方法,并以盖亚数据集中的2016年10~11月成都市二环数据集作为样本进行了实验来验证该数据清洗方法的效果,结果表明了该方法可以有效地完成弱信号数据和无效数据的数据清洗工作。
Abstract: A new data cleaning method for the GPS trajectory data on Didi Chuxing GAIA Open Dataset is developed. Random forests algorithm is employed to the identification of invalid, weak, and normal data of the Didi Chuxing GAIA Open Dataset raw data. Firstly, the feature set is selected according to the mathematical characteristics of three types of data, and then the optimal feature subset dimension is determined. Finally, to implement the proposed method, the Pandas and scikit-learn Python library are used to read and process the data and the result illustrates the effectiveness of this method.
文章引用:张家顺. 基于随机森林算法的盖亚大数据清洗的研究[J]. 计算机科学与应用, 2019, 9(9): 1747-1752. https://doi.org/10.12677/CSA.2019.99196

参考文献

[1] Baur, J., Moreno-Villanueva, M., Kötter, T., Sindlinger, T., Bürkle, A., Berthold, M.R. and Junk, M. (2015) MARK-AGE Data Management: Cleaning, Exploration and Visualization of Data. Mechanisms of Ageing and Develop-ment, 151, 38-44. [Google Scholar] [CrossRef] [PubMed]
[2] Röhm, P., Merz, M. and Kuckertz, A. (2019) Identifying Corporate Venture Capital Investors—A Data-Cleaning Procedure. Finance Research Letters.
[3] Gueta, T. and Carmel, Y. (2016) Quantifying the Value of User-Level Data Cleaning for Big Data: A Case Study Using Mammal Distribution Models. Ecological Informatics, 34, 139-145. [Google Scholar] [CrossRef
[4] Khedri, R., Chiang, F. and Sabri, K.E. (2013) An Algebraic Approach towards Data Cleaning. Procedia Computer Science, 21, 50-59. [Google Scholar] [CrossRef
[5] Salem, R. and Abdo, A. (2016) Fixing Rules for Data Cleaning Based on Conditional Functional Dependency. Future Computing and Informatics Journal, 1, 10-26. [Google Scholar] [CrossRef
[6] Gilla, S. and Lee, B. (2015) A Framework for Distributed Cleaning of Data Streams. Procedia Computer Science, 52, 1186-1191. [Google Scholar] [CrossRef
[7] Li, C., Lan, T., Wang, Y., Liu, J., Xie, J., Lan, T., Li, H. and Qin, H. (2018) An Automatic Data Cleaning Procedure for the Electron Cyclotron Emission Imaging on EAST Tokamak Using Machine Learning Algorithm. Journal of Instrumenta-tion, 13, P10029. [Google Scholar] [CrossRef
[8] 张西宁, 张雯雯, 周融通, 向宙. 基于单类随机森林的异常检测方法及应用[J/OL]. 西安交通大学学报, 2019(12): 1-8.
[9] 徐乔, 张霄, 余绍淮, 陈启浩, 刘修国. 综合多特征的极化SAR图像随机森林分类算法[J]. 遥感学报, 2019, 23(4): 685-694.
[10] 郑建华, 刘双印, 贺超波, 符志强. 基于混合采样策略的改进随机森林不平衡数据分类算法[J]. 重庆理工大学学报(自然科学), 2019, 33(7): 113-123.
[11] 刘云翔, 陈斌, 周子宜. 一种基于随机森林的改进特征筛选算法[J]. 现代电子技术, 2019, 42(12): 117-121.
[12] 尹儒, 门昌骞, 王文剑. 一种模型决策森林算法[J/OL]. 计算机科学与探索, 1-11.
[13] 林栢全, 肖菁. 基于矩阵分解与随机森林的多准则推荐算法[J]. 华南师范大学学报(自然科学版), 2019, 51(2): 117-122.
[14] 张宸宁, 李国成. 基于BL-SMOTE和随机森林的不平衡数据分类[J]. 北京信息科技大学学报(自然科学版), 2019, 34(2): 23-28.
[15] 孙悦, 袁健. 基于Spark的改进随机森林算法[J]. 电子科技, 2019, 32(4): 60-63+67.
[16] 董娜, 常建芳, 吴爱国. 基于贝叶斯模型组合的随机森林预测方法[J]. 湖南大学学报(自然科学版), 2019, 46(2): 123-130
[17] 朱冰, 李伟男, 汪震, 赵健, 何睿, 韩嘉懿. 基于随机森林的驾驶人驾驶习性辨识策略[J]. 汽车工程, 2019, 41(2): 213-218+224.
[18] 关晓蔷, 庞继芳, 梁吉业. 基于类别随机化的随机森林算法[J]. 计算机科学, 2019, 46(2): 196-201.