1. 引言
高斯–赛德尔迭代法是数值线性代数中求解线性方程组的一种经典迭代方法,其历史可以追溯到十九世纪中叶。该方法以德国数学家卡尔·弗里德里希·高斯和菲利普·路德维希·冯·赛德尔的名字命名,虽然高斯本人并未直接提出这一具体算法,但他在最小二乘法和线性方程组求解方面的开创性工作为后续迭代方法的发展奠定了基础。赛德尔在一八四七年的工作中首次明确提出了“立即使用已更新值”这一关键思想,即对于给定的线性系统
,计算下一个变量的迭代格式为
,
其中
为
阶系数矩阵的第
个元素,迭代次数
。这一创新显著提高了迭代效率,使得该方法在计算实践中展现出明显优势[1] [2]。
十九世纪后期至二十世纪初,随着大地测量学、天文学和工程学中大规模线性方程组求解需求的增长,高斯–赛德尔迭代法因其计算效率而得到广泛应用。二十世纪中期,随着计算机的出现和矩阵理论的发展,理查德·顺克等数学家对高斯–赛德尔迭代法的收敛性进行了严格的理论分析,确立了其在数值计算中的重要地位。在现代计算科学中,尽管出现了许多更先进的迭代技术,高斯–赛德尔迭代法仍因其计算格式简洁和计算性能良好而被用作预处理子或与其他方法结合使用,继续在科学计算领域发挥着重要作用[3]。
2. 案例描述
研讨式教学法通过创设问题情境、组织研讨活动,能够有效培养学生的自主探索能力。其教学意义主要有三点,通过分组研讨算法实现细节,促进学生深度理解坐标下降法“分而治之”的优化思想;针对具体案例的讨论可以激发学生对收敛性、步长选择等关键问题的思考;研讨过程中的观点交锋有助于培养学生严谨的数学思维和表达能力。基于此,本次坐标下降算法教学将采用“问题驱动–项目实践–反思提升”的渐进式教学设计,将按照下列六个步骤组织教学活动[4] [5]。
(1) 问题导入 选择一个能够引发学生兴趣并与课程目标相关的主题,例如“如何进一步扩展高斯–赛德尔迭代法的迭代格式?”。
(2) 制定项目 设计项目任务和目标,确保任务能够激发学生的学习动机。将学生分成小组,鼓励合作、讨论和分享,促进团队合作能力的培养。
(3) 教师引导 教师提供必要的支持、指导和反馈,引导学生如何扩展高斯–赛德尔迭代法的迭代格式,并根据评估结果,调整课程设计和实施方法,不断改进项目学习的质量。例如,给出问题:
“若定义
,还可进一步诱导出什么迭代格式?”
(4) 分组探究 学生以三到五人小组为单位,针对坐标下降法的迭代过程、收敛条件等进行讨论,并尝试推导计算公式,鼓励学生展示自己的讨论结果,促进自信心和沟通能力的提高。根据上述提示,可得
,
其中
表示
阶单位阵的第
列。若该迭代格式作用到法方程
,则
。
上式即为著名的坐标下降法。
(1) 集中研讨 “坐标
该如何选取”,引导学生就不同坐标更新顺序对收敛速度的影响等关键问题进行辩论,并归纳算法要点,布置拓展性思考题。整个过程中,教师需要精心设计讨论提纲,适时提供指导,确保研讨聚焦于算法本质,避免偏离主题。
(2) 课堂练习 考虑利用坐标下降方法求解下列最小二乘问题
。
取初始向量取
,已知方程的解为
。按照固定循环顺序依次选取列指标
,计算结果如表1所示。
Table 1. When selecting column index based on the cyclic strategy, each component of the iterative vector and the error
表1. 当按照循环策略选取列指标时,迭代向量各分量及误差
迭代次数
|
列指标
|
|
|
|
|
|
1 |
1 |
5.1429 |
0.0000 |
1.0000 |
0.0000 |
0.5214 |
2 |
2 |
5.1429 |
0.3548 |
1.0000 |
0.0000 |
0.4982 |
3 |
3 |
5.1429 |
0.3548 |
1.3842 |
0.0000 |
0.4589 |
4 |
4 |
5.1429 |
0.3548 |
1.3842 |
0.0664 |
0.4572 |
5 |
1 |
3.6871 |
0.3548 |
1.3842 |
0.0664 |
0.3452 |
6 |
2 |
3.6871 |
0.5714 |
1.3842 |
0.0664 |
0.3322 |
7 |
3 |
3.6871 |
0.5714 |
1.5480 |
0.0664 |
0.3218 |
8 |
4 |
3.6871 |
0.5714 |
1.5480 |
0.1796 |
0.3147 |
9 |
1 |
2.7541 |
0.5714 |
1.5480 |
0.1796 |
0.2492 |
10 |
2 |
2.7541 |
0.7009 |
1.5480 |
0.1796 |
0.2428 |
11 |
3 |
2.7541 |
0.7009 |
1.5871 |
0.1796 |
0.2420 |
12 |
4 |
2.7541 |
0.7009 |
1.5871 |
0.3071 |
0.2299 |
“问题导入–项目制定–研讨探究”的教学模式,实际上反映了科学研究的标准流程,即从实际需求抽象数学模型、设计解决方案、通过实验验证假设、最后在研讨中形成新认知。同时,引导学生总结坐标下降方法的两个核心特征:其一,分而治之的优化哲学,将高维问题分解为一系列子问题,降低了求解复杂度;其二,即时更新的迭代策略,与雅可比迭代法有着本质区别。
3. 案例延伸
在坐标下降方法的介绍中,教学难点就是如何设计有效的列指标选取策略,对此关键技术点的教学延伸可以采用层层递进的多段式教学。
基础认知 利用数学软件MATLAB的内置函数Plot等可视化工具,动态展示不同列指标选择策略,如固定循环顺序、完全随机选择和梯度导向选择等,对比在典型测试函数上的差异表现,要求学生记录各种策略达到相同精度所需的迭代次数,建立对列指标选择重要性的直观认识。
定量分析 当坐标
按照某种概率分布选取时,该如何分析坐标下降法的收敛性?例如,在文献[6]中,列指标
被选取的概率为
,得到的随机坐标下降法的收敛性分析如下。
第一步:写出误差表达式
;
第二步:关于随机变量
计算期望
,
其中符号
表示取随机变量的条件期望;
第三步:利用矩阵的性质,得到不等式
,
其中
表示矩阵
的最小非零奇异值;
第四步:利用期望的性质,再对上式计算期望得到
,
上述收敛因子明显小于1,因而说明随机的坐标下降法是收敛的。
(3) 例题讲解 理论分析完毕后,设计具有挑战性的分组实验项目,为每组分配不同的实验任务。例如,三组学生分别采用固定循环顺序、完全随机选择和梯度导向选择列指标,另一组则设计创新的混合选择策略,记录迭代次数等关键指标,提交包含收敛曲线对比图和数据分析结论的完整实验报告。
当按照随机策略选择列指标
时,计算结果如表2所示,可以看出,列指标的选取顺序对误差影响较大。
Table 2. When selecting column index at random, each component of the iterative vector and the error
表2. 当按照随机策略选取列指标时,迭代向量各分量及误差
迭代次数
|
列指标
|
|
|
|
|
|
1 |
3 |
1.0000 |
0.0000 |
2.7143 |
0.0000 |
0.5019 |
2 |
2 |
1.0000 |
0.6221 |
2.7143 |
0.0000 |
0.4234 |
3 |
3 |
1.0000 |
0.6221 |
2.2847 |
0.0000 |
0.3637 |
4 |
1 |
1.8798 |
0.6221 |
2.2847 |
0.0000 |
0.3153 |
5 |
4 |
1.8798 |
0.6221 |
2.2847 |
0.0676 |
0.3128 |
6 |
2 |
1.8798 |
0.5438 |
2.2847 |
0.0676 |
0.3109 |
7 |
4 |
1.8798 |
0.5438 |
2.2847 |
0.1189 |
0.3094 |
8 |
1 |
1.7816 |
0.5438 |
2.2847 |
0.1189 |
0.3088 |
9 |
3 |
1.7816 |
0.5438 |
2.0124 |
0.1189 |
0.2765 |
10 |
1 |
2.2096 |
0.5438 |
2.0124 |
0.1189 |
0.2621 |
11 |
4 |
2.2096 |
0.5438 |
2.0124 |
0.2355 |
0.2528 |
12 |
2 |
2.2096 |
0.4438 |
2.0124 |
0.2355 |
0.2490 |
(4) 理论深化 围绕“高维稀疏场景下随机策略的实用性”这一主题组织课堂研讨活动,引导学生运用前期实验结果支持自己的观点。在辩论过程中,适时引入计算复杂度理论、现代改进方案,如最大加权残量的坐标下降法等进阶算法,指导学生修改完善实验方案。
假设第
步选择的列指标为
,经过一些基本推导可得,列指标对应的缺失值越大,坐标下降方法的误差变得越小。在贪婪随机坐标下降方法中[7],列指标
从下列指标
集中随机选取,其中
,
松弛参数
。为简化贪婪策略,上式可进一步改写为
。
(5) 习题讲解 当按照最大加权策略选择列指标时,计算结果如表3所示。为了更直观地展示三种列指标选取策略(循环、随机、最大加权)列指标时,对应三种坐标下降法的误差曲线如图1所示,其中横轴为迭代次数,纵轴为相对残量范数。可以看出,列指标的选取对坐标下降法的收敛速度影响较大,且按照最大加权策略选取列指标时,对应的坐标下降法具有最快收敛速度。
Table 3. When selecting column index based on the maximal weighted strategy, each component of the iterative vector and the error
表3. 当按照最大加权策略选取列指标时,迭代向量各分量及误差
迭代次数
|
列指标
|
|
|
|
|
|
1 |
1 |
5.1429 |
0.0000 |
1.0000 |
0.0000 |
0.5214 |
2 |
3 |
5.1429 |
0.0000 |
1.6293 |
0.0000 |
0.4136 |
3 |
1 |
4.1540 |
0.0000 |
1.6293 |
0.0000 |
0.3600 |
4 |
4 |
4.1540 |
0.0000 |
1.6293 |
0.3730 |
0.2841 |
5 |
1 |
3.3548 |
0.0000 |
1.6293 |
0.3730 |
0.2315 |
6 |
4 |
3.3548 |
0.0000 |
1.6293 |
0.5796 |
0.1964 |
7 |
1 |
2.9119 |
0.0000 |
1.6293 |
0.5796 |
0.1740 |
8 |
4 |
2.9119 |
0.0000 |
1.6293 |
0.6942 |
0.1601 |
9 |
1 |
2.6665 |
0.0000 |
1.6293 |
0.6942 |
0.1520 |
10 |
4 |
2.6665 |
0.0000 |
1.6293 |
0.7577 |
0.1472 |
11 |
1 |
2.5304 |
0.0000 |
1.6293 |
0.7577 |
0.1445 |
12 |
3 |
2.5304 |
0.0000 |
1.5377 |
0.7577 |
0.1370 |
Figure 1. Error curves of the coordinate descent methods corresponding to three different strategies for selecting column indicators
图1. 三种不同列指标选取策略对应的坐标下降法的误差曲线
(6) 理论证明 理论证明是数学教学活动中不可缺少的环节,它不仅是数学学科严谨性的体现,更是培养学生逻辑思维和科学素养的重要手段。通过理论分析和证明,学生能够深入理解数学概念的本质和内在联系,而不仅仅是停留在表面的公式记忆和机械运算。
当采用最大加权策略选取列指标时,对应的坐标下降法收敛的原因如下所述。
第一步:等量变换,可得
;
第二步:公式化简,可得
,
其中集合。由于
,所以集合
非空;
第三步:不等式放缩,可得
;
第四步:公式整理,可得
,
即可说明该方法是收敛的。
基于上述“基础认知–定量分析–理论深化”的教学架构,配合编程实践、数据分析和学术研讨等多元化的教学活动,帮助学生深入理解指标选择算法的本质,培养学生针对具体问题设计优化策略的创新能力。
4. 应用推广
单一学科的教学往往难以覆盖实际问题的复杂性。传统数学课程侧重算法理论的推导,却缺乏工程实践的细节。通过学科交叉教学,学生能够从数学理论到算法设计、工程实现、性能优化,理解完整的技术链条,还可以认识不同学科在解决问题中的角色,如机械工程师提供物理约束,数学家证明收敛性,计算机专家优化计算速度,便于培养学生系统思维。在柔性机器人、集群协同控制等前沿领域,均需跨学科方法支撑来应对新兴挑战[8] [9]。
现代机器人设计涉及运动学建模、高效算法实现、收敛性分析等多学科知识,而坐标下降法作为经典优化方法,恰好位于这些学科的交汇点。例如,机械臂逆运动学求解需要处理非线性方程组,计算机视觉中的位姿估计依赖稀疏优化,这些场景都离不开数值优化理论的支撑。
(1) 背景介绍 机械臂作为现代工业自动化和机器人技术的核心组成部分,广泛应用于制造业、物流、医疗、航空航天等多个领域。其运动学研究主要关注机械臂的运动规律,包括位置、姿态和运动轨迹的描述与控制。随着工业自动化和智能制造的快速发展,对机械臂的精度、灵活性和效率提出了更高的要求,这促使研究人员不断探索新的运动学建模与控制方法。
(2) 问题导入 三自由度机械臂末端定位问题本质上是求解下列形式的非线性最小二乘问题
,
其中
为待求解的关节角,以及
,
参数
分别表示第一、二、三连杆长度、末端目标横坐标、末端目标纵坐标、末端目标姿态角。该表示法可直接应用于其他链式机构的逆运动学建模,如将
替换为液压杆长度,便可得到液压机械臂模型,也可扩展到四自由度系统。
(3) 数据和实现细节 与雅可比迭代法不同,坐标下降法强调即时更新特性,如按照循环顺序更新分量,其计算过程如下所述。
(4) 分组实现 设计任务卡如表4所示。
Table 4. Task card
表4. 任务卡
组别 |
任务 |
测试用例 |
验收标准 |
A组 |
固定步长 |
标准参数 |
残差 < 1e−3 |
B组 |
Armijo线搜索 |
初始值 |
收敛速度提升 |
C组 |
随机坐标选择 |
增加连杆长度扰动 |
鲁棒性分析报告 |
(5) 性能和优化策略分析结果展示 取第一连杆长度
,第二连杆长度
,第三连杆长度
,目标横坐标
,目标纵坐标
,目标姿态角
,得到坐标下降法的收敛曲线以及机械臂构型图2所示。
(a) (b)
Figure 2. Convergence curve of the coordinate descent method (left) and the configuration of the robotic arm (right)
图2. 坐标下降法的收敛曲线(左)以及机械臂构型(右)
除了上述教学环节,还需要下面的辅助步骤:课前预习观看麻省理工学院公开课《非线性优化基础》,并完成在线测验;穿插课中检验,如下列哪种情况最适合坐标下降法,A) 稠密正定矩阵,B) 可分离非线性问题,C) 强耦合偏微分方程;课后拓展,要求完成UR5机械臂的逆运动学求解器,其中UR5是UniversalRobots公司生产的6自由度协作机器人,负载5千克,工作半径850毫米,作为工业级机械臂标准模型,其参数公开且结构典型,适合教学演示。
通过具体问题、抽象算法、工程实现、领域拓展的教学闭环,其创新点为虚实结合、分层挑战和即时反馈,既深化了学生对算法的理解,又培养了学生的跨学科系统思维能力。
5. 总结
本文以坐标下降法的教学实践为例,构建了理论、算法、应用三维一体的新型教学模式[10],为优化算法类课程提供了可复制的教学范式。在理论层面,通过递进式教学设计,将抽象的数学原理分解为可操作的迭代步骤,并创新性地引入列指标选取策略的对比分析,有效突破了传统教学中重公式推导、轻算法设计的局限。在实践层面,开发了基于MATLAB的交互式实验平台,通过机械臂逆运动学等工程案例,实现了算法从数值计算到物理系统的映射验证,搭建了数学工具与工业应用的桥梁。在跨学科维度,课程设计深度融合机械工程、计算机科学等学科需求,特别是实时求解三自由度机械臂末端定位问题的引入,培养了学生面向复杂系统的工程思维能力。本研究的核心价值在于提供了一条将数学工具课转化为创新能力培养课的有效路径。
基金项目
中南民族大学校级教研项目:并行计算课程思政示范课程项目,项目编号:KCSZX24004。