强化学习算法研究热点与发展趋势探析
An Analysis of Research Hotspots and Development Trends in Reinforcement Learning Algorithms
DOI: 10.12677/csa.2026.162050, PDF,    科研立项经费支持
作者: 佟 磊:河北软件职业技术学院软件工程系,河北 保定;河北省智能互联装备与多模态大数据应用技术研发中心,河北 保定
关键词: 强化学习文献计量法研究热点发展趋势技术融合Reinforcement Learning Bibliometric Method Research Hotspots Development Trends Technology Integration
摘要: 为系统揭示2021年至2025年强化学习领域的研究态势与发展脉络,以中国知网收录的5099篇“强化学习”主题核心期刊论文为研究对象,采用文献计量法与可视化分析法,从文献时间分布、关键词共现与聚类、关键词突现等维度展开分析。研究发现:该领域文献呈快速扩张和稳定提质两阶段增长特征,前期聚焦基础算法改进与单一场景验证,后期转向细分场景深化与多技术融合;研究热点覆盖算法创新、多领域落地、技术协同与安全保障;前沿演进遵循技术融合到场景深化再到知识驱动的路径。研究可为科研人员把握领域热点、布局未来研究方向提供参考,为强化学习技术的产业化应用提供理论支撑。
Abstract: To systematically reveal the research status and development context of the reinforcement learning field from 2021 to 2025, this study takes 5099 core journal papers themed “reinforcement learning” included in China National Knowledge Infrastructure (CNKI) as the research objects, and conducts analysis from the dimensions of literature time distribution, keyword co-occurrence and clustering, and keyword burst detection by adopting the bibliometric method and visual analysis method. The results show that the literature in this field has two-stage growth characteristics of rapid expansion and steady quality improvement: the early stage focuses on basic algorithm improvement and single-scenario verification, while the later stage shifts to the deepening of subdivided scenarios and multi-technology integration. The research hotspots cover algorithm innovation, multi-field application, technical collaboration and security assurance. The frontier evolution follows the path from technology integration to scenario deepening and then to knowledge-driven development. This study can provide references for researchers to grasp the hotspots of the field and layout future research directions, as well as offer theoretical support for the industrial application of reinforcement learning technology.
文章引用:佟磊. 强化学习算法研究热点与发展趋势探析[J]. 计算机科学与应用, 2026, 16(2): 182-190. https://doi.org/10.12677/csa.2026.162050

参考文献

[1] Sutton, R.S. and Barto, A.G. (1998) Reinforcement Learning: An Introduction. IEEE Transactions on Neural Networks, 9, 1054. [Google Scholar] [CrossRef
[2] 申铠瑶. 基于强化学习的序列决策在两栖无人车跨域的应用研究[D]: [硕士学位论文]. 北京: 军事科学院, 2025.
[3] 赵星宇, 丁世飞. 深度强化学习研究综述[J]. 计算机科学, 2018, 45(7): 1-6.
[4] 陈刚, 王志坚, 徐胜超. 基于强化学习的移动边缘计算任务卸载方法[J]. 计算机测量与控制, 2023, 31(10): 306-311.
[5] 梁俊斌, 张海涵, 蒋婵, 等. 移动边缘计算中基于深度强化学习的任务卸载研究进展[J]. 计算机科学, 2021, 48(7): 8.
[6] 刘亮, 荆腾祥, 段洁, 等. 空天地一体化网络中基于联邦深度强化学习的边缘协作缓存策略[J]. 通信学报, 2025, 46(1): 93-107.
[7] 陈超美, 陈悦, 侯剑华, 等. CiteSpaceII: 科学文献中新趋势与新动态的识别与可视化[J]. 情报学报, 2009, 28(3): 401-421.
[8] 王鹏, 程思儒. 人工智能高质量数据集的发展趋势及热点——基于CiteSpace的知识图谱分析[J]. 技术经济与管理研究, 2025(4): 43-48.
[9] 陈伊高, 黄楚新. 人工智能技术与出版深度融合的焦点透视与趋势展望——基于CiteSpace的可视化分析[J]. 科技与出版, 2024(4): 112-120.
[10] 吴岩, 王光政. 基于CiteSpace的配电网韧性评估与提升研究综述与展望[J]. 中国电力, 2023, 56(12): 100-112+137.
[11] 毛国君, 顾世民. 改进的Q-Learning算法及其在路径规划中的应用[J]. 太原理工大学学报, 2021, 52(1): 91-97.
[12] 杨志鹏, 李波, 甘志刚, 等. 基于深度强化学习的四旋翼无人机航线跟随[J]. 指挥与控制学报, 2022, 8(4): 477-482.
[13] 邓柏荣, 陈俊斌, 丁巧宜, 等. 融合电网运行场景聚类的多任务深度强化学习优化调度[J]. 电网技术, 2023, 47(3): 978-990.
[14] 易佳豪, 王福杰, 胡锦涛, 等. 基于行为克隆的机械臂多智能体深度强化学习轨迹跟踪控制[J]. 计算机应用研究, 2025, 42(4): 1025-1033.
[15] 蔡玉, 官铮, 王增文, 等. 基于多智能体深度强化学习的车联网区分业务资源分配算法[J]. 计算机工程与科学, 2024, 46(10): 1757-1764.
[16] 钟子山, 唐建航, 金柯兵, 等. 基于深度强化学习的混合数字孪生边缘部署[J/OL]. 计算机工程: 1-12. 2026-01-23.[CrossRef
[17] Chen, Y., Chen, C.M., Liu, Z.Y., et al. (2015) The Methodology Function of Cite Space Mapping Knowledge Domains. Studies in Science of Science, 33, 242-253.