基于多尺度地理环境变量的随机森林空间推测建模
Random Forest Spatial Prediction Modeling Based on Multi-Scale Geographic Environment Variables
摘要: 在数据科技快速发展的时代下,空间推测(Spatial Prediction)是指利用空间理论技术对空间对象进行建模、描述和表示,并以此为基础对空间对象间的空间关系进行定性或定量分析和处理的过程。机器学习方法作为空间智能领域的常用推测方法之一,它能够融合多维辅助变量的信息,提高模型的推测精度,但是不能有效结合空间位置关系信息来进一步提高推测精度。本文基于随机森林空间推测框架,将协变量的多尺度特征图层与随机森林空间推测算法结合,提出了基于多尺度地理环境变量的随机森林空间推测建模方法。应用Meuse数据集对所提出的方法进行对比实验,并与随机森林方法、随机森林的空间推测方法相对比,检验所提方法的推测精度。实验表明,本文提出的基于多尺度地理环境变量的随机森林空间推测建模方法相较于RF、RFsp-MS (k = 0)、RFsp-MS (k = 1)、RFsp-MS (k = 2),可获得更加精准的空间推测结果,土壤制图结果也具有更加合理的空间分布和丰富的细节信息。因此,多尺度地理环境变量的随机森林空间推测方法能够有效结合自变量信息与空间位置关系信息,有效提高土壤变量推测的精度,同时能够输出有效的不确定性表达信息。
Abstract: In the era of rapid development of data science and technology, spatial prediction refers to the pro-cess of using spatial theory technology to model, describe, and represent spatial objects, and based on this, qualitatively or quantitatively analyze and process the spatial relationships between spatial objects. Machine learning method, as one of the commonly used inference methods in the field of spatial intelligence, can fuse information from multi-dimensional auxiliary variables to improve the inference accuracy of the model. However, it cannot effectively combine spatial position relationship information to further improve the inference accuracy. Based on the framework of random forest spatial inference, this article combines the multi-scale feature layer of covariates with the random forest spatial inference algorithm, and proposes a modeling method for random forest spatial in-ference based on multi-scale geographic environment variables. Meuse dataset was used to conduct comparative experiments on the proposed method and compare it with the random forest method and the spatial inference method of the random forest to test the inference accuracy of the proposed method. The experiment shows that the random forest spatial inference modeling method based on multi-scale geographic environment variables proposed in this article can obtain more accurate spatial inference results compared to RF, RFsp-MS (k = 0), RFsp-MS (k = 1), and RFsp-MS (k = 2), and soil mapping results also have more reasonable spatial distribution and rich detailed information. Therefore, the random forest spatial inference method for multi-scale geographic environment var-iables can effectively combine independent variable information and spatial position relationship information, effectively improve the accuracy of soil variable inference, and output effective uncer-tainty expression information.
文章引用:吴慧, 吴田军. 基于多尺度地理环境变量的随机森林空间推测建模[J]. 统计学与应用, 2023, 12(6): 1775-1784. https://doi.org/10.12677/SA.2023.126180

参考文献

[1] 李海涛, 邵泽东. 空间插值分析算法综述[J]. 计算机系统应用, 2019, 28(7): 1-8.
[2] 王福涛, 李景文, 李占元. GIS空间数据表达与存储研究综述[J]. 中国水运(学术版), 2006, 6(11): 139-141.
[3] Tobler, R.W. (2016) A Computer Movie Simulating Urban Growth in the Detroit Region. Economic Geography, 46, 234-240. [Google Scholar] [CrossRef
[4] 尹镇南. 地质统计学(空间信息统计学)基本理论与方法应用[M]. 北京: 地质出版社, 2012: 83-85.
[5] Mohanasundaram, S., Udmale, P., Shrestha, S., et al. (2020) A New Trend Func-tion-Based Regression Kriging for Spatial Modeling of Groundwater Hydraulic Heads under the Sparse Distribution of Measurement Sites. Acta Geophysica, 68, 751-772. [Google Scholar] [CrossRef
[6] 姚旭峰, 杜世昌, 费兰, 等. 基于克里金方法的平面建模和误差预测[C]//中国质量协会, 卓越国际质量科学研究院. 使命与责任——以质量方法促转型升级——第五届中国质量学术与创新论坛论文集(上). 北京: 中国质量杂志出版社, 2012: 6.
[7] 关莹莹, 李雪铭, 杨俊, 等. 基于地理加权回归模型的辽宁省城市人居环境综合适宜性评价[J]. 地理科学, 2022, 42(12): 2097-2108.
[8] Breiman, L. (2001) Random Forests. Machine Learning, 45, 5-32. [Google Scholar] [CrossRef
[9] Tomislav, H., Madlene, N., Wright, M.N., Heuvelink, G.B.M. and Gräler, B. (2018) Random Forest as a Generic Framework for Predictive Modeling of Spatial and Spatio-Temporal Var-iables. PeerJ, 6, e5518. [Google Scholar] [CrossRef] [PubMed]
[10] Sekulić, A., Kilibarda, M., Heuvelink, B.G., et al. (2020) Random Forest Spatial Interpolation. Remote Sensing, 12, Article 1687. [Google Scholar] [CrossRef
[11] 黄玉婧, 徐智, 单添敏, 等. 基于多尺度空间的直升机滚动轴承故障诊断[J]. 测控技术, 2022, 41(10): 52-57, 65.
[12] 李召艺. 基于随机森林的北京市城市热岛效应与三维景观格局多尺度关系研究[D]: [硕士学位论文]. 长春: 吉林大学, 2022.
[13] 刘亚彬, 刘大有. 空间推理与地理信息系统综述[J]. 软件学报, 2000, 11(12): 1598-1606.
[14] 钱江波, 陈涤, 王夏晖, 等. 基于机器学习的区域土壤重金属污染风险诊断研究[J/OL]. 环境工程, 2023: 1-12.
https://kns.cnki.net/kcms/detail/11.2097.x.20230609.1146.006.html
[15] 余浪, 胡德勇, 汪小勇. 赫章县铅锌矿典型区域土壤及水体重金属污染现状研究[J]. 中国资源综合利用, 2022, 40(8): 148-151.
[16] 盛美玲. 基于环境相似性的作物生长模型参数空间推测方法研究[D]: [博士学位论文]. 南京: 南京师范大学, 2019.
[17] 付杰, 宋伦, 雷利元, 等. 最优尺度和随机森林算法下盘锦海岸带遥感监测[J]. 遥感信息, 2022, 37(2): 7-15.
[18] 王铭鑫, 范超, 高秉博, 等. 融合半变异函数的空间随机森林插值方法[J]. 中国生态农业学报(中英文), 2022, 30(3): 451-457.
[19] 黄明. 基于地统计方法的成都市住宅价格空间格局分析[J]. 经纬天地, 2019(5): 8-13.
[20] Pekel, J.F., Cottam, A., Gorelick, N. and Belward, A.S. (2016) High-resolution Mapping of Global Surface Water and Its Long-Term Changes. Nature, 504, 418-422. [Google Scholar] [CrossRef] [PubMed]
[21] 焦思佳, 吴田军, 董世英, 等. 基于反距离加权随机森林的空间推测方法研究[J]. 昆明理工大学学报(自然科学版), 2022, 47(4): 46-54.
[22] 曾芸芸, 张红英, 袁明东. 多尺度融合的双分支特征提取人群计数算法[J/OL]. 计算机工程与应用, 2023: 1-10.
https://kns.cnki.net/kcms/detail/11.2127.TP.20230628.1602.013.html
[23] 杨鹏杰, 徐宇, 郑晨一. 基于多尺度自适应残差卷积神经网络的新能源配电网故障定位技术[J]. 水利水电技术(中英文), 2023, 54(S2): 439-446.
[24] 李玲玲, 刘劲松, 李智, 等. 人口密度随机森林模型优化实验研究[J]. 地理学报, 2023, 78(5): 1304-1320.
[25] 张志斌, 蔡来良, 杜庄, 等. 多尺度点云特征随机森林滤波算法[J]. 激光杂志, 2023, 44(2): 76-82.
[26] 张亦然, 刘廷玺, 童新, 等. 基于多源遥感和机器学习方法的科尔沁沙地植被覆盖度反演[J]. 中国沙漠, 2022, 42(3): 187-195.
[27] 丁学辉, 许海林, 罗颖婷, 等. 基于随机森林特征优选与MAEPSO-ELM算法的变压器DGA故障诊断[J]. 电力科学与技术学报, 2022, 37(2): 181-187.
[28] 陈飞, 王斌, 刘婷, 等. 基于时移多尺度注意熵和随机森林的水电机组故障诊断[J]. 水利学报, 2022, 53(3): 358-368, 378.
[29] 王雪洁, 施国萍, 周子钦, 等. 基于随机森林算法对ERA5太阳辐射产品的订正[J]. 自然资源遥感, 2022, 34(2): 105-111.
[30] 余新华, 赵维清, 朱再春, 等. 基于遥感和作物生长模型的多尺度冬小麦估产研究[J]. 光谱学与光谱分析, 2021, 41(7): 2205-2211.
[31] 董红瑶, 王弈丹, 李丽红. 随机森林优化算法综述[J]. 信息与电脑(理论版), 2021, 33(17): 34-37.