多种数据补全策略对商超客流量预测影响研究
Research on the Influence of Multiple Data Completion Strategies on the Forecast of Supermarket Passenger Flow
DOI: 10.12677/CSA.2023.1312247, PDF,    科研立项经费支持
作者: 关家豪:河北地质大学信息工程学院,河北 石家庄;屈俊峰:湖北文理学院计算机工程学院,湖北 襄阳
关键词: 客流量预测时间序列ARIMA模型Holt-Winters模型特征工程Passenger Flow Forecast Time Series ARIMA Model Holt-Winters Model Feature Engineering
摘要: 数据的准确性对传统线下零售商超的客流量预测有着较为显著的影响。通过对某商超2021年的客流量分析发现,受ERP系统不稳定的影响,传统线下零售商超的客流量曾出现了明显的波动,在2021年3月初到2021年7月末,客流量数据出现了断崖式下降。因此在进行客流量预测时,应当针对数据不稳定性对数据进行一定的特征工程处理。为了探究不同特征工程对客流量预测的影响,我们提出了采用删除异常值、Arima模型填充异常值、Mean-Value填充异常值等多种特征工程处理异常值的方式;使用SArima模型、Holt-Winters模型。在多轮实验中,实验训练集将包含2021年3月初到2021年7月末。并且时间序列模型的参数将以数据为准,选择最优参数进行训练,最终实验生成的模型都将使用2021年8月1日至2021年8月31日的数据做预测验证。结果显示,当不使用任何数据补充的特征工程策略时,Holt-Winters模型较好,而使用了数据补全策略后,SArima模型的预测能力得到了显著提升,并且使用Arima模型进行的数据填充,在一定程度上可以提高SArima模型的预测能力。
Abstract: The accuracy of data has a significant impact on the customer flow prediction of traditional offline retailers. Through the analysis of the passenger flow of a supermarket in 2021, it is found that due to the instability of the ERP system, the passenger flow of traditional offline retailers had a signifi-cant fluctuation, and from the beginning of March 2021 to the end of July 2021, the passenger flow data showed a cliff decline. Therefore, when the passenger flow forecast is carried out, it is neces-sary to carry out some feature engineering processing to the data in view of the instability of the data. In order to explore the influence of different feature engineering on passenger flow prediction, we propose several feature engineering methods to deal with outliers, such as deleting outliers, filling outliers with Arima model, and filling outliers with Mean-Value. Use the SArima model, Holt-Winters model. In multiple rounds of experiments, the experimental training set will cover the period from early March 2021 to the end of July 2021. In addition, the parameters of the time series model will be based on the data, and the optimal parameters will be selected for training. The final models generated by the experiment will use the data from August 1, 2021 to August 31, 2021 for prediction verification. The results show that the Holt-Winters model is better when no data-supplemented feature engineering strategy is used, but the prediction ability of the SArima model is significantly improved after the data completion strategy is used, and the data filling with the Arima model can improve the prediction ability of the SArima model to a certain extent.
文章引用:关家豪, 屈俊峰. 多种数据补全策略对商超客流量预测影响研究[J]. 计算机科学与应用, 2023, 13(12): 2474-2499. https://doi.org/10.12677/CSA.2023.1312247

参考文献

[1] 赵雷. GA-SVM研究及在航空客流量预测中的应用[D]: [硕士学位论文]. 昆明: 云南大学, 2012.
[2] Siami-Namini, S., Tavakoli, N. and Namin, A.S. (2018) A Comparison of ARIMA and LSTM in Forecast-ing Time Series. 2018 17th IEEE International Conference on Machine Learning and Applications (ICMLA), Orlando, 17-20 December 2018, 1394-1401. [Google Scholar] [CrossRef
[3] 洪嘉灏. 基于Holt-Winters模型的股价趋势预测研究[D]: [硕士学位论文]. 广州: 暨南大学, 2017.
[4] 王莹, 韩宝明, 张琦, 李得伟. 基于SARIMA模型的北京地铁进站客流量预测[J]. 交通运输系统工程与信息, 2015, 15(6): 205-211. [Google Scholar] [CrossRef
[5] 邢金城, 孙家丽, 凌继红, 等. 天津市西青区某大型超市客流量等的调查研究[C]//中国建筑学会暖通空调分会, 中国制冷学会空调热泵专业委员会. 全国暖通空调制冷2008年学术年会资料集. 重庆: 暖通空调, 2008: 106.
[6] 赵加宁, 武丽霞, 王昭俊, 方修睦. 大型超市客流量的调查与分析[J]. 暖通空调, 2004(6): 53-56.
[7] 王旭天. 基于BP神经网络的我国汽车销量预测分析[D]: [硕士学位论文]. 上海: 东华大学, 2016.
[8] 姜春雷, 张树清, 张策, 李华朋, 丁小辉. 基于SARIMA-BP神经网络组合方法的MODIS叶面积指数时间序列建模与预测[J]. 光谱学与光谱分析, 2017, 37(1): 189-193.
[9] 毛远宏, 孙琛琛, 徐鲁豫, 刘曦, 柴波, 贺鹏超. 基于深度学习的时间序列预测方法综述[J/OL]. 微电子学与计算机, 2023(4): 8-17. [Google Scholar] [CrossRef
[10] 李海林, 张丽萍. 时间序列数据挖掘中的聚类研究综述[J]. 电子科技大学学报, 2022, 51(3): 416-424.
[11] 孙湘海, 刘潭秋. 基于神经网络和SARIMA组合模型的短期交通流预测[J]. 交通运输系统工程与信息, 2008(5): 32-37. [Google Scholar] [CrossRef
[12] 赵喜仓, 周作杰. 基于SARIMA模型的我国季度GDP时间序列分析与预测[J]. 统计与决策, 2010(22): 18-20. [Google Scholar] [CrossRef
[13] Siami-Namini, S. and Namin, A.S. (2018) Forecasting Eco-nomics and Financial Time Series: ARIMA vs. LSTM.
[14] Fattah, J., Ezzine, L., Aman, Z., et al. (2018) Forecasting of Demand Using ARIMA Model. International Journal of Engineering Business Management, 10, 3-7. [Google Scholar] [CrossRef
[15] 何雪晴. 基于网络搜索数据和降噪处理的旅游客流量预测研究[D]: [硕士学位论文]. 大连: 东北财经大学, 2019.[CrossRef
[16] 段然. 基于SARIMA模型的铁路站点客流量预测[D]: [硕士学位论文]. 柳州: 广西科技大学, 2017.[CrossRef
[17] 苏耘. 基于深度学习的时间序列分类方法综述[J]. 电子技术与软件工程, 2022(14): 259-262.
[18] 邱敦国, 杨红雨. 一种基于双周期时间序列的短时交通流预测算法[J]. 四川大学学报(工程科学版), 2013, 5(5): 64-68. [Google Scholar] [CrossRef
[19] 方昇越. 基于XGBoost的地铁短时客流量预测研究[D]: [硕士学位论文]. 大连: 大连海事大学, 2022.[CrossRef
[20] 鄢仕林. 中小机场航线客流量预测问题研究[D]: [硕士学位论文]. 德阳: 中国民用航空飞行学院, 2022.[CrossRef
[21] 马毅. 基于改进粒子群算法的BP神经网络研究及旅游客流量预测[D]: [硕士学位论文]. 荆州: 长江大学, 2022.[CrossRef
[22] 冒志恒. 基于改进神经网络的交通短时客流量预测研究[D]: [硕士学位论文]. 镇江: 江苏大学, 2021.[CrossRef
[23] 蔡纯. 基于多源数据的游乐园运营分析研究[D]: [硕士学位论文]. 成都: 西南财经大学, 2019.[CrossRef
[24] 成翔. 基于机器学习的商铺客流量预测[D]: [硕士学位论文]. 成都: 电子科技大学, 2018.
[25] 熊笑. 基于梯度上升决策回归树的网约出租车需求动态预测[D]: [硕士学位论文]. 武汉: 华中科技大学, 2017.
[26] 邓雨菲. ARIMA-ATT-LSTM在旅游客流量预测中的应用研究[D]: [硕士学位论文]. 大连: 大连理工大学, 2022.[CrossRef
[27] 常昊. 基于LSTM神经网络的地铁短时客流量预测研究[D]: [硕士学位论文]. 西安: 西京学院, 2022.[CrossRef
[28] 殷志敏. 基于LightGBM和LSTM模型的地铁客流量短期预测[D]: [硕士学位论文]. 武汉: 华中科技大学, 2020.[CrossRef
[29] 吕高帆. 超市客流预测模型的研究与应用[D]: [硕士学位论文]. 北京: 北京工业大学, 2019.[CrossRef
[30] 张璐. 基于GA-LSSVM与ARIMA组合的短期风功率预测[D]: [硕士学位论文]. 包头: 内蒙古科技大学, 2022.[CrossRef
[31] 龙会典, 严广乐. 基于SARIMA、GM(1,1)和BP神经网络集成模型的GDP时间序列预测研究[J]. 数理统计与管理, 2013, 32(5): 814-822. [Google Scholar] [CrossRef