强化学习实验教学现状与探究——以新疆大学计算机科学与技术学院为例
Current Status and Exploration of Reinforcement Learning Experimental Teaching—Taking Xinjiang University’s School of Computer Science and Technology as an Example
DOI: 10.12677/AE.2024.141091, PDF,    国家科技经费支持
作者: 余银峰, 汪烈军:新疆大学计算机科学与技术学院,新疆 乌鲁木齐;祝美玲*:乌鲁木齐市第五十九中学,新疆 乌鲁木齐
关键词: 实验教学策略梯度强化学习Experimental Teaching Policy Gradients Reinforcement Learning
摘要: 强化学习是一门理论性和实践性都很强的课程,实验教学起着重要的作用。本文以新疆大学计算机专业的强化学习课程为例,针对该专业特点,提出以在线Python Notebook为平台,构建适合该专业学生的强化学习课程实验教学内容,并探讨了立体化教学、案例教学、“学研”结合和鼓励学生参加人工智能算法竞赛的实验课程教学方法和手段,对提升课程教学效能具有一定的参考价值。
Abstract: Reinforcement learning is a course that is both theoretical and practical, with experimental teach-ing playing a crucial role. Taking the reinforcement learning course in the computer science pro-gram at Xinjiang University as an example, this article proposes the use of an online Python Note-book platform. It aims to build experimental teaching content suitable for students in this program, considering the characteristics of the major. The article explores three-dimensional teaching, case- based teaching, the integration of learning and research, and encourages students to participate in artificial intelligence algorithm competitions as methods and means for experimental course teaching. This approach has certain reference value for improving the effectiveness of course teaching.
文章引用:余银峰, 祝美玲, 汪烈军. 强化学习实验教学现状与探究——以新疆大学计算机科学与技术学院为例[J]. 教育进展, 2024, 14(1): 603-608. https://doi.org/10.12677/AE.2024.141091

参考文献

[1] 蔡红娟. 新工科背景下人工智能人才培养模式探索与实践[J]. 教育教学论坛, 2022(40): 107-110.
[2] 贾泽露. 非GIS专业地理信息系统课程教学思考[J]. 测绘科学, 2008(5): 230-232.
[3] 钱敏. 城市规划专业GIS课程教学改革探讨[J]. 科教文汇(中旬刊), 2014(9): 61-62.
[4] 僧德文, 王红霞. 基于SuperMap的地理信息系统课程教学设计[J]. 浙江水利水电专科学校学报, 2009, 21(3): 79-81.
[5] 刘桂萍, 陈川, 杨焱青, 等. 资源勘查工程专业GIS实验教学改革与探讨[J]. 教育教学论坛, 2018(11): 77-79.
[6] 张应武, 刘素君. 基于研究性学习的本科计量经济学教学策略研究[J]. 佳木斯教育学院学报, 2014(4): 132-133.
[7] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 北京: 人民邮电出版社, 2022.
[8] 陈红名, 刘全, 闫岩, 等. 基于经验指导的深度确定性多行动者——评论家算法[J]. 计算机研究与发展, 2019, 56(8): 1708-1720.
[9] 张建行, 刘全. 基于情节经验回放的深度确定性策略梯度方法[J]. 计算机科学, 2021, 48(10): 37-43.
[10] 王鸿涛. 基于强化学习的机械臂自学习控制[D]: [硕士学位论文]. 哈尔滨: 哈尔滨工业大学, 2019.
[11] 张大胜. 基于深度强化学习的智能体决策与控制研究[D]: [硕士学位论文]. 南京: 南京师范大学, 2021.
[12] 申怡, 刘全. 基于自指导动作选择的近端策略优化算法[J]. 计算机科学, 2021, 48(12): 297-303.
[13] 苏畅. 基于强化学习的雷达辐射源识别技术研究与应用[D]: [硕士学位论文]. 北京: 北京邮电大学, 2021.
[14] 郁洲, 毕敬, 苑海涛. 基于改进DQN算法的复杂海战场路径规划方法[J]. 智能科学与技术学报, 2022, 4(3): 418-425.
[15] 梁宏斌. 基于openAI Gym和DRL的移动机器人路径规划算法研究[D]: [硕士学位论文]. 重庆: 重庆理工大学, 2021.
[16] 韩国亮. 基于强化学习的末制导导引律设计[D]: [硕士学位论文]. 哈尔滨: 哈尔滨工业大学, 2019.
[17] 刘开宇. 基于强化学习的物体抓取方法研究[D]: [硕士学位论文]. 哈尔滨: 哈尔滨工业大学, 2020.
[18] 朱文文, 金玉净, 伏玉琛, 等. 连续空间的递归最小二乘行动者——评论家算法[J]. 计算机应用研究, 2014, 31(7): 1994-1997+2000.
[19] 黄俊宁. 基于有界动作策略的强化学习探索方法[D]: [硕士学位论文]. 广州: 广东工业大学, 2018.