嵌套子空间的增广拉格朗日法求解稀疏广义特征值问题

doi:10.12677/orf.2025.152132

期刊菜单

嵌套子空间的增广拉格朗日法求解稀疏广义特征值问题
Nested Subspace Augmented Lagrangian Method for Solving Sparse Generalized Eigenvalue Problems

DOI: 10.12677/orf.2025.152132, PDF, HTML, XML,
作者: 梁艺赢：上海理工大学理学院，上海
关键词: 稀疏广义特征值问题；增广拉格朗日半光滑牛顿法；Lanczos方法；嵌套子空间；Sparse Generalized Eigenvalue Problem； Augmented Lagrangian Semi-Smooth Newton Method； Lanczos Method； Nested Subspace

摘要: 稀疏广义特征值问题作为计算数学领域的重要研究课题，其核心在于确定满足广义特征方程

A x = λ B x

的特征对

(λ, x)

，其中

A \in ℝ^{n \times n}, B \in ℝ^{n \times n}

为给定的系数矩阵。值得注意的是，在工程结构分析、计算金融学、量子物理模拟及航空航天设计等实际应用场景中，所涉及的矩阵往往具有大规模、稀疏性以及非对称性等复杂特性，这对传统数值求解方法提出了严峻挑战。针对对称广义特征值问题的特殊数学结构，本文研究创新性地提出一种基于子空间构造与优化算法协同的数值计算方法。该方法通过建立具有良好逼近特性的子空间，结合增广拉格朗日半光滑牛顿法(ALMSsn)实现特征系统的高效求解，为解决大规模稀疏矩阵的广义特征值问题提供了新的技术途径。

Abstract: The sparse generalized eigenvalue problem, as a pivotal research subject in computational mathematics, focuses on determining eigenpairs

(λ, x)

that satisfy the generalized eigenvalue equation

A x = λ B x

, where

A \in ℝ^{n \times n}, B \in ℝ^{n \times n}

are given coefficient matrices. It is noteworthy that in practical applications such as structural engineering analysis, computational finance, quantum physics simulations, and aerospace design, the involved matrices often exhibit complex characteristics including large-scale dimensions, sparsity, and asymmetry, posing significant challenges to conventional numerical solvers. Targeting the specific mathematical structure of symmetric generalized eigenvalue problems, this study innovatively proposes a numerical computational methodology that integrates subspace construction with optimization algorithms. By establishing subspaces with superior approximation properties and combining them with an augmented Lagrangian semi-smooth Newton method, the proposed approach enables efficient resolution of eigen-systems, thereby providing a novel technical pathway for addressing large-scale sparse generalized eigenvalue problems.

文章引用：梁艺赢. 嵌套子空间的增广拉格朗日法求解稀疏广义特征值问题[J]. 运筹与模糊学, 2025, 15(2): 866-879. https://doi.org/10.12677/orf.2025.152132

1. 引言

广义特征值问题作为科学计算领域的核心课题之一，在结构动力学分析、量子化学计算以及电磁场模拟等科学与工程领域具有重要应用价值。广义特征值问题目的是寻找一个矩阵的特征值和对应的特征向量，这些特征值和特征向量满足广义特征值方程：

$A x = λ B x$ ， $A \in ℝ^{n \times n}$ ， $B \in ℝ^{n \times n}$ ，

其中，A和B分别是已知的 $n \times n$ 实数或复数矩阵， $λ$ 是特征值， $x$ 是n维列向量，是对应的特征向量。

当涉及对称广义特征值问题时(即A、B均为对称矩阵且B正定)，其典型应用场景如大型结构振动模态分析或电子能带计算中，系数矩阵往往呈现高维度、强稀疏性等特性。在此情形下，QR分解、QZ算法等传统数值方法往往面临计算效率瓶颈：一方面，算法复杂度随矩阵维度呈三次方增长；另一方面，矩阵稀疏性在正交变换过程中会遭到破坏，导致存储需求显著增加。

近三十年来，针对对称广义特征值问题的数值解法研究取得了显著进展。当前主流方法主要采用投影技术框架，其数学本质在于构建适当的低维子空间 $S \subset ℝ^{n}$ ，将原始问题投影为 $(S^{T} A S, S^{T} B S)$ 的降维广义特征值问题，进而通过求解子空间特征系统获得原问题的近似解。投影方法的计算效能与子空间构造策略密切相关，在众多子空间选择方案中，基于Krylov子空间的方法因其优异的收敛特性备受关注。其中经典的Lanczos算法通过将原问题投影至Krylov子空间：

$K_{m} (H, x) : = span {x, H x, \dots, H^{m - 1} x}$ ，

其中， $H : = B^{- 1} A$ ，x是某个初始向量，Lanczos算法构造了 $K_{m} (H, x)$ 的基 $Z$ ，然后计算投影问题 $(Z A Z, Z B Z)$ 的特征对 $(θ, u)$ ，特征值 $θ$ 称为Ritz值，并被视为特征方程 $(A, B)$ 的近似特征值，其对应的近似特征向量 $Z u$ ，称为Ritz向量。

Lanczos算法中，在构造 $Z$ 时，并不需要显式形成 $H$ 。它的收敛性得到了广泛的研究，该方法可以很好地逼近分离良好的极端特征对。然而，当极端特征值没有很好地分离时，Ritz值的收敛速度通常相当差。为了提高收敛速度，需要使用预条件来对原问题进行优化使其特征值更加聚拢[1]，可以将Lanczos算法应用在 $B {(A - μ B)}^{- 1} B X = \hat{λ} B x$ 上，其中 $μ$ 是特定选取的，然后将 $\hat{λ}$ 转换为特征方程 $(A, B)$ 的特征值，这种预条件策略有很快的收敛速度，但是这样做需要在每次迭代中求解与原问题大小相同的线性系统。由于问题规模的大小，若通过直接方法如LU分解法求解预条件的线性系统是不可行的。在这种情况下，可以使用迭代方法来计算近似解。然而，由于Lanczos算法对扰动非常敏感，尤其是在迭代的早期阶段，因此这种嵌套了线性系统的求解方法对每步线性系统的解有非常高的精度要求，这限制了此方法的实用性。

JDQZ方法[2]，也利用了预条件策略，它对预条件线性系统的近似解的精确度要求低很多。这种方法对所需的特征对进行初始近似，并依次求解校正方程来扩展搜索子空间。它有助于校正方程选择“右”向量进行扩展，从而以最佳方式细化特征对的近似值。在这里，预条件策略适用于逼近校正方程的解，但是这种方法仍需确定不精确解的程度，从而获得更精确的特征对。另外使用GMRES或BiCG等Krylov子空间方法的预处理策略已被广泛研究[3] [4]。

另一方面，可以使用梯度类方法，例如最速下降法来找到最小的特征值。这种方法不需要任何形式的求 $B^{- 1}$ 的运算，但是，当极端特征值没有很好地分离时，它们收敛性通常很差。一些已经研究了的梯度方法包括LOBPCG方法[5]、DACG方法[6]和逆迭代的变体，称为预条件逆迭代[7]。在这里，不是应用之前的预条件策略，而是使用一种不同类型的预处理策略来加速迭代。通常，选择适用于用矩阵 $A$ 求解线性系统的前提条件并将其应用于原特征方程解的迭代中。尽管在许多情况下这些方法结果很好，但预处理策略在加速特征方程中的作用尚不清楚。

Golub和Ye提出并分析了一种不需要逆运算的Krylov子空间方法来计算对称广义特征方程 $(A, B)$ 的极端特征值[8]。与梯度类型方法一样，该算法不需要随时计算 $B^{- 1}$ ，但与许多梯度方法不同，该算法利用了Krylov子空间提供更好的近似解，此外，还有用一种预处理策略来加速算法收敛到极值特征值的方法[8]。然而，由于向量迭代的性质，逆自由Krylov子空间算法在存在多个紧密聚类的特征值的情况下收敛较差。Quillen在Golub和Ye的工作基础上开发上一方法的块泛化，该方法具有相似的收敛特性[9]。

Alimisis和Saad在2023年提出了一种用于计算近似不变子空间的子空间迭代算法的变体，他们重新审视标准子空间迭代方法，并开发了利用梯度类型算法结合了Grassmann流形的新变体[10]。该算法有时优于标准的基于切比雪夫的子空间迭代，而且不需要估计最优参数。

Zhang和Shen在2018年将经典的特征值问题Lanczos方法扩展到了信赖域子问题[11]。由于子空间的维数对于良态的信赖域子问题影响通常较小，但对于病态问题影响则可能很大。会导致计算成本、内存需求和数值稳定性方面的数值困难。他们提出了一种高效的嵌套重启策略的Lanczos方法，解决了这一数值难题，并进行了收敛性分析。

本文提出了一种基于嵌套Lanczos算法与残差驱动子空间扩展的稀疏广义特征值问题求解方法。通过嵌套迭代动态生成多维子空间，在初始化阶段以初始向量构建基向量，后续通过Lanczos过程逐步扩展子空间，并结合优化算法更新当前解。每次迭代中，计算残差并对其进行正交化处理以保持子空间多样性，将正交化后的残差向量作为新增基向量，形成高维搜索空间以增强全局优化能力。在子空间内部通过增广拉格朗日半光滑牛顿算法求解投影后的问题，该算法显著提升了大规模稀疏问题的收敛效率与解的精度。

2. 预备知识

2.1. 广义特征值问题

设 $A = (a_{i j}) \in ℝ^{n \times n}$ 是n阶实对称矩阵， $B = (b_{i j}) \in ℝ^{n \times n}$ 是n阶实对称正定矩阵，使得

$A x = λ B x$ ，

有非零解向量 $x \in ℝ^{n}$ ，则称 $λ$ 是矩阵A相对于矩阵B的特征值，且x是属于 $λ$ 的特征向量，当 $B \neq I$ 时，该问题为广义特征值问题。

定义1 如果一个函数 $R (A, B, x)$ 满足 $R (A, B, x) = \frac{x^{H} A x}{x^{H} B x}$ ，其中x为非零向量，A，B是n阶Hermitan矩阵，且B是正定矩阵，则称这样的函数为广义Rayleigh商。

2.2. Krylov子空间方法

Krylov子空间方法是特殊的Rayleigh-Ritz方法，其主要思想是在一个维数较小的子空间 $K \in ℝ^{n}$ 中寻找近似解。这类方法也被看作是一种投影方法，即寻找真解在某个子空间中的投影，可以是正交投影，也可以是斜投影。近似解的计算是通过迭代递归地找残差向量，第n个残差向量 $r_{n}$ 可通过A的某个多项式与初始残差向量 $r_{0}$ 相乘得到，即： $r_{n} = P (A) r_{0}$ 。

Krylov子空间方法有两个特征：1) 极小残差性，来保证收敛速度。2) 每一步迭代的计算量和储存量较小，保证计算的高效。

定义2 令 $v \in ℝ^{n}, v \neq 0$ ，由 $v, A v, \dots, A^{m - 1} v$ 生成的子空间，称为由A和v生成的m维Krylov子空间，记作 $K_{m} (A, v)$ ，即： $K_{m} (A, v) : = span {v, A v, \dots, A^{m - 1} v}$ 。

性质1 $K_{m} (A, v)$ 是一个Krylov子空间，则：

1) Krylov子空间是嵌套的，即： $K_{1} \subseteq K_{2} \subseteq \dots \subseteq K_{m} \subseteq \dots$ ；

2) $K_{m} (A, v)$ 的维数不超过m；

3) $K_{m} (A, v) = {x = P (A) v : P � 次 � 不超 � m - 1 的多 � 式}$ 。

定义3 对于方程 $A x = b$ ，若 $K_{m} (A, v)$ 是一个Krylov子空间，要求残量 $r = b - A x$ 满足m个正交性条件，即： $r = b - A \tilde{x} ⊥ ℒ$ 。其中， $\tilde{x}$ 是近似解， $ℒ$ 是另一个m维子空间，不同的 $ℒ$ 对应不同的投影方法当 $ℒ = K$ 时，我们称为正交投影法，否则称为斜投影法。将 $ℒ$ 称为约束空间， $K$ 称为搜索空间。

下面给出投影方法的数学描述，给定初值 $x^{(0)} \in ℝ^{n}$ ， $r_{0} = b - x^{(0)}$ 为初始残量，

$\begin{array}{l} find \tilde{x} = x^{(0)} + V y \\ s . t . W^{T} A V y = W^{T} r_{0} . \end{array}$

其中， $V = [v_{1}, v_{2}, \dots, v_{m}]$ ， $W = [w_{1}, w_{2}, \dots, w_{m}]$ 分别是 $K_{m}$ 和 $ℒ_{m}$ 的一组基。近似解 $\tilde{x}$ 存在的唯一条件是矩阵 $W^{T} A V$ 非奇异。

定理2 若 $A, K, ℒ$ 满足下面条件之一：

(1) A正定，且 $ℒ = K$ ；

(2) A非奇异，且 $ℒ = A K$ ，

则 $W^{T} A V$ 非奇异。

若 $W^{T} A V$ 非奇异，可解得 $y = {(W^{T} A V)}^{- 1} W^{T} r_{0}$ ，因此

$\tilde{x} = x^{(0)} + V {(W^{T} A)}^{- 1} W^{T} r_{0} .$

下面我们介绍如何通过Arnoldi过程和Lanczos过程找到搜索空间 $K$ 的一组正交基。

2.3. Arnoldi过程

Arnoldi过程是求解非对称矩阵的一种正交投影方法，其主要思想就是通过对一个非对称矩阵A，产生Krylov子空间的一组标准正交基的方法。

算法1：基于Gram-Schmidt正交化的Arnoldi过程

1 给定非零向量r，计算 $v_{1} = r / {‖ r ‖}_{2}$

2 当 $j = 1, 2, \dots, m - 1$ 执行

3 $w_{j} = A v_{j} h_{i j}$ ；

4 当 $i = 1, 2, \dots, j$ 执行

5 $h_{i j} = (v_{j}, w_{j})$ ；

6 $w_{j} = w_{j} - \sum_{i = 1}^{j} h_{i j} v_{j}$ ；

7 $h_{j + 1, j} = {‖ w_{j} ‖}_{2}$ ；

8 若 $h_{j + 1, j} = 0$ ，则

9 停止；

10 $v_{j + 1} = w_{j} / h_{j + 1, j}$ 。

令 $H_{m + 1, m} = [\begin{matrix} h_{11} & h_{12} & \dots & h_{1 m} \\ h_{21} & h_{22} & \dots & h_{2 m} \\ 0 & h_{32} & \dots & h_{3 m} \\ ⋮ & ⋮ & ⋮ & ⋮ \\ 0 & \dots & h_{m - 1, m} & h_{m, m} \\ 0 & \dots & 0 & h_{m + 1, m} \end{matrix}]$

设 $V_{m} = [v_{1}, v_{2}, \dots, v_{m}]$ ， $H_{m} = H_{m + 1, m} (1 : m, 1 : m) \in ℝ_{m \times m}$ ，即 $H_{m}$ 是由 $H_{m + 1, m}$ 的前m行组成的Hessenberg矩阵。则：

$A V_{m} = V_{m + 1} H_{m + 1, m} = V_{m} H_{m} + h_{m + 1, m} V_{m + 1} + e_{m}^{T}$ ，

$V_{m}^{T} A V_{m} = H_{m}$ 。

定理3 如果到第 $k (k < m)$ 步时有 $h_{k + 1, k} = 0$ ，则算法将提前终止。此时 $A v_{k}$ 必定可由 $v_{1}, v_{2}, \dots, v_{k}$ 线性表出。则有： $A V_{k} = V_{k} H_{k}$ ，即 $K_{k}$ 是A的一个不变子空间。

定理4 如果 $h_{k + 1, k} \neq 0$ ， $(k = 1, 2, \dots, m - 1)$ ，则向量 $v_{1}, v_{2}, \dots, v_{m}$ 构成 $K_{m}$ 的一组标准正交基，其中 $K_{m} (A, r) = span {r, A r, \dots, A_{m - 1} r}$ 。

2.4. Lanczos过程

对于方程 $A x = b$ ，若A是对称的，由Arnoldi过程的性质 $H_{m} = V_{m}^{T} A V_{m}$ 可知 $H_{m}$ 也是对称的，而 $H_{m}$ 又是上Hessenberg矩阵，故 $H_{m}$ 是一个对称三对角矩阵，记为 $T_{m}$ ，记 $α_{j} = h_{j, j}$ ， $β_{j} = h_{j, j + 1}$ ，则：

$T_{m} = [\begin{matrix} α_{1} & β_{1} \\ β_{1} & ⋱ & ⋱ \\ ⋱ & ⋱ & β_{m - 1} \\ β_{m - 1} & α_{m} \end{matrix}]$

与Arnoldi过程类似，Lanczos过程具有如下性质：

$A V_{m} = V_{m} T_{m} + β_{m} v_{m + 1} + e^{T}$ (1)

$V_{m}^{T} A V_{m} = T_{m}$ 。

考察关系式(1)两边的第j列，有：

$β_{j} v_{j + 1} = A v_{j} - α_{j} v_{j} - β_{j - 1} v_{j - 1}$ ，

其中， $j = 1, 2, \dots$ ， $v_{0} = 0$ ， $β_{0} = 0$ ，基于这个三项递推公式，Anoldi过程简化为Lanczos过程：

算法2：Lanczos过程

1 给定非零向量r，令 $v_{0} = 0$ ， $β_{0} = 0$ ；

2 令 $v_{1} = r / {‖ r ‖}_{2}$

3 当 $j = 1, 2, \dots, m$ 执行

4 $w = A v_{j} - β_{j - 1} v_{j - 1}$ ；

5 $α_{j} = (v_{j}, w_{j})$ ；

6 $w_{j} = w_{j} - α_{j} v_{j}$ ；

7 $β_{j} = {‖ w_{j} ‖}_{2}$ ；

8 若 $β_{j} = 0$ ，则

9 停止；

10 $v_{j + 1} = w_{j} / β_{j}$ 。

2.5. 邻近算子

定义4 (邻近算子[12])对于一个凸函数 $h (x)$ 定义它的邻近算子为：

${prox}_{h} (x) = \underset{u \in dom h}{\arg \min} {h (u) + \frac{1}{2} {‖ u - x ‖}^{2}}$ 。

邻近算子的目的是求解一个据x不算太远的点，并使函数值 $h (x)$ 也相对较小，上述问题的解是唯一的，也就是对于凸函数，它的邻近算子是唯一的，下面定理给出此问题的解的存在唯一性。

定理6 (邻近算子与次梯度的关系)若 $h (x)$ 是适当闭凸函数，则

$u = {prox}_{h} (x) \Leftrightarrow x - u \in \partial h (u)$ 。

Proof. ( $\Rightarrow$ )若 $u = {prox}_{h} (x)$ ，则由最优性条件得 $0 \in \partial h (u) + (u - x)$ ，因此 $x - u \in \partial h (u)$ 。

( $\Leftarrow$ )若 $x - u \in \partial h (u)$ ，由次梯度的定义可得到：

$h (v) \geq h (u) + {(x - u)}^{T} (v - u)$ ， $\forall v \in dom h$ ，

两边同时加上 $\frac{1}{2} {‖ v - x ‖}^{2}$ ，即有：

$\begin{matrix} h (v) + \frac{1}{2} {‖ v - x ‖}^{2} \geq h (u) + {(x - u)}^{T} (v - u) + \frac{1}{2} {‖ v - x ‖}^{2} \\ \geq h (u) + \frac{1}{2} {‖ u - x ‖}^{2}, \forall v \in dom h, \end{matrix}$

因此我们得到 $u = {prox}_{h} (x)$ 。◻

邻近算子的计算可以看成是次梯度算法的隐式格式，对于非光滑情景，由于次梯度不唯一，显示迭代格式就不唯一，而隐式格式能得到唯一解，在步长选择上面，隐式格式也优于显示格式。

2.6. 近似点梯度法(PGA)

考虑如下复合优化问题：

$\min ψ (x) = f (x) + h (x)$ ，

其中，函数f为可微函数，定义域 $dom f = ℝ^{n}$ ，函数h是凸函数，可以是非光滑的。

近似点梯度法的思想是对目标函数 $ψ (x)$ 的两部分，对一部分 $f (x)$ 做梯度下降，对非光滑部分使用邻近算子，则近似点梯度法[12] [13]的迭代公式为：

$x^{k + 1} = {prox}_{t_{k} h} (x^{k} - t_{k} \nabla f (x^{k}))$ ，

其中， $t_{k}$ 为每次迭代的步长，它可以是常数或者由线搜索得出。注意到，当 $h (x) = 0$ 时，迭代公式变为梯度下降法：

$x^{k + 1} = x^{k} - t_{k} \nabla f (x^{k})$ ；

当 $h (x) = I_{C} (x)$ 时， $I_{C} (x)$ 是指示函数，则迭代公式变为投影梯度法：

$x^{k + 1} = P_{C} (x^{k} - t_{k} \nabla f (x^{k}))$ 。

下面给出近似点梯度法的算法：

算法3 邻近点梯度法

1 输入：函数 $f (x)$ ， $h (x)$ ，初始点 $x^{0}$ ，初始化 $k \leftarrow 1$ ；

2 当未达到收敛准则执行

3 $x^{k + 1} = {prox}_{t_{k} h} (x^{k} - t_{k} \nabla f (x^{k}))$ ；

4 $k \leftarrow k + 1$ 。

当我们根据邻近算子的定义，把迭代公式展开：

$\begin{matrix} x^{k + 1} = \underset{u}{\arg \min} {h (u) + \frac{1}{2 t_{k}} {‖ u - x^{k} + t_{k} \nabla f (x^{k}) ‖}^{2}} \\ = \underset{u}{\arg \min} {h (u) + f (x_{k}) + \nabla f {(x^{k})}^{T} (u - x^{k}) + \frac{1}{2 t_{k}} {‖ u - x^{k} ‖}^{2}}, \end{matrix}$

可以发现，近似点梯度法的实质就是将问题的光滑部分线性展开再加上二次项并保留非光滑部分，然后求极小作为每一步的估计。

此外根据定理6，还可以将近似点梯度法写成

$x^{k + 1} = x^{k} - t_{k} \nabla f (x^{k}) - t_{k} g^{k}$ ， $g^{k} \in \partial h (x^{k + 1})$ ，

其本质是对光滑部分做显式梯度下降，非光滑部分做隐式梯度下降。在固定步长 $t_{k} = t \in (0, \frac{1}{L}]$ 的情况下，迭代点 $x^{k}$ 处的函数值 $ψ (x^{k})$ 以 $O (\frac{1}{k})$ 的速率收敛到 $ψ^{*}$ 。

对于近似点梯度法，它的优点是：1) 简单易实现：近似点梯度法相对于其他复杂的优化算法而言，实现起来相对简单；2) 适用性广泛：近似点梯度法可以应用于各种类型的优化问题，包括凸优化和非凸优化问题；3) 收敛性保证：在某些条件下，近似点梯度法可以保证收敛到优化问题的局部最优解。

3. 稀疏广义特征值问题的嵌套子空间方法

3.1. 求解稀疏广义特征值问题的子空间

对于广义特征值问题

$\begin{array}{l} A x = λ B x \end{array}$ 。

其中，A是对称矩阵，B为正定对称矩阵，为了计算该问题最小特征值，将问题转化为带非光滑正则项和等式约束的优化问题：

$\begin{array}{l} min_{x} & x^{T} A x + φ (x) \\ s . t . & x^{T} B x = 1. \end{array}$ (2)

我们的想法是通过Lanczos算法嵌套的迭代生成一个子空间 $span (U)$ ，在子空间中求解问题(2)，具体而言，子空间的生成过程如下：

初始化子空间：在嵌套迭代的初始阶段，子空间的生成开始，将初始向量作为子空间的第一个基向量，初始向量可以是一个随机生成向量，通常服从标准正态分布或均匀分布。在后续的迭代过程中，根据Lanczos算法，逐步生成子空间的附加基向量，在每次迭代中，通过优化算法得到当前解 $x_{k}$ 。计算当前解 $x_{k}$ 与上一次迭代的解 $x$ 之间的差值，即残差 $d_{s} = x_{k} - x$ 。

对残差 $d_{s}$ 进行正交化操作，以保持子空间的多样性。在正交化过程中，将 $d_{s}$ 与子空间中的已有基向量进行正交化，确保 $d_{s}$ 与子空间中的基向量线性无关，保证新基向量不重复已有方向，避免子空间退化。将正交化后的 $d_{s}$ 加入到之前生成的子空间中，得到新的子空间。通过不断地迭代优化过程，每次生成的残差 $d_{s}$ 都会加入到子空间中，从而形成一个多维子空间，这个多维子空间能够提供更多的搜索方向，帮助算法更好地搜索最优解。同时，通过正交化操作，保持了子空间的多样性，避免了子空间退化为低维空间的情况。这样，算法可以更有效地在高维空间中进行搜索，提高了收敛速度和全局搜索能力。

在嵌套Lanczos算法中的外部迭代过程中，每次迭代通过PGA算法求解如下子问题，以找到更优的更新方向 $d$ 。

$\begin{array}{l} min_{x} & g^{T} (x_{k} + d) + \frac{σ}{2} {‖ d ‖}^{2} + φ (x_{k} + d) \\ s . t . & {(B x_{k})}^{T} d = 0. \end{array}$

其中 $g = 2 A x$ ，令 $d = x - x_{k}$ ，则问题转换为

$\begin{array}{l} min_{x} & g^{T} x + \frac{σ}{2} {‖ x - x_{k} ‖}^{2} + φ (x) \\ s . t . & {(B x_{k})}^{T} (x - x_{k}) = 0. \end{array}$

给出上述问题的增广拉格朗日函数：

$\begin{matrix} L (x, λ) = g^{T} x + \frac{σ}{2} {‖ x - x_{k} ‖}^{2} + φ (x) - λ {(B x_{k})}^{T} (x - x_{k}) \\ = {(g - λ B x_{k})}^{T} x + \frac{σ}{2} {‖ x - x_{k} ‖}^{2} + φ (x) + λ B x_{k}^{T} x_{k} \\ = \frac{σ}{2} {‖ x - x_{k} + \frac{1}{σ} (g - λ B x_{k}) ‖}^{2} + φ (x) + λ B x_{k}^{T} x_{k} - \frac{1}{2 σ} {‖ g - λ B x_{k} ‖}^{2} . \end{matrix}$

则 $x_{k + 1}$ ， $d_{k + 1}$ 更新公式如下：

$x_{k + 1} = {prox}_{φ / σ} (x_{k} - \frac{1}{σ} (g - λ B x_{k}))$ ，

$d_{k + 1} = {prox}_{φ / σ} (x_{k} - \frac{1}{σ} (g - λ B x_{k})) - x_{k}$ 。

于是有

${({prox}_{φ / σ} (x_{k} - \frac{1}{σ} (g - λ B x_{k})) - x_{k})}^{T} B x_{k} = 0$ 。

通过以上子空间生成过程，嵌套迭代能够生成一个逐步优化的子空间，用于求解稀疏最小广义特征值问题。子空间的生成是嵌套迭代的核心部分，为算法提供了一种高效的方式来近似求解问题的最优解。

3.2. 算法投影分析

在本节中我们分析投影到子空间后的小问题：

$\begin{array}{l} \underset{x \in x_{k} + span (U)}{argmin} & x^{T} A x + φ (x) \\ s . t . & x^{T} B x = 1. \end{array}$

其中， $span (U)$ 是求解问题所在的子空间， $Q_{k}$ 是 $span (U)$ 中的一组正交基，则下一次迭代值可以表示为

$\tilde{x} = x_{k} + Q_{k} h$ 。

进而优化函数可表示为：

$\begin{matrix} F (\tilde{x}) = {(x_{k} + Q_{k} h)}^{T} A (x_{k} + Q_{k} h) + φ (x_{k} + Q_{k} h) \\ = x_{k}^{T} A x_{k} + h^{T} Q_{k}^{T} A Q_{k} h + 2 h^{T} Q_{k}^{T} A x_{k} + φ (x_{k} + Q_{k} h) \end{matrix}$ 。

约束条件 ${\tilde{x}}^{T} B \tilde{x} = 1$ 可以转化为：

$\begin{array}{l} 1 = {(x_{k} + Q_{k} h)}^{T} B (x_{k} + Q_{k} h), \\ 1 = x_{k}^{T} B x_{k} + h^{T} Q_{k}^{T} B Q_{k} h + 2 h^{T} Q_{k}^{T} B x_{k}, \\ {‖ Q_{k}^{T} B x_{k} ‖}_{2}^{2} = {‖ h ‖}_{2}^{2} + 2 h^{T} Q_{k}^{T} B x_{k} + {‖ Q_{k}^{T} B x_{k} ‖}_{2}^{2}, \\ {‖ Q_{k}^{T} B x_{k} ‖}_{2}^{2} = {‖ h + Q_{k}^{T} B x_{k} ‖}_{2}^{2} . \end{array}$

令 $z = h + Q_{k}^{T} B x_{k}$ ，则上式约束条件可以转化为：

${‖ z ‖}_{2}^{2} = {‖ Q_{k}^{T} B x_{k} ‖}_{2}^{2} \to Δ$ 。

由于 $h = z - Q_{k}^{T} B x_{k}$ ，优化函数可以进一步转变：

$\begin{array}{l} h^{T} Q_{k}^{T} A Q_{K} h + 2 h^{T} Q_{k}^{T} A x_{k} + φ (x_{k} + Q_{k} h) \\ = {(z - Q_{k}^{T} B x_{k})}^{T} Q_{k}^{T} A Q_{K} (z - Q_{k}^{T} B x_{k}) + 2 {(z - Q_{k}^{T} B x_{k})}^{T} Q_{k}^{T} A x_{k} + φ (x_{k} + Q_{k} (z - Q_{k}^{T} B x_{k})) \\ = z^{T} Q_{k}^{T} A Q_{k} z + 2 z^{T} (Q_{k}^{T} A x_{k} - Q_{k}^{T} A Q_{k}^{T} Q_{k} B x_{k}) + {(Q_{k}^{T} B x_{k})}^{T} Q_{k}^{T} A Q_{k} Q_{k}^{T} B x_{k} + φ (x_{k} + Q_{k} (z - Q_{k}^{T} B x_{k})) \\ = z^{T} Q_{k}^{T} A Q_{k} z + 2 z^{T} Q_{k}^{T} A (x_{k} - Q_{k}^{T} Q_{k} B x_{k}) + {(Q_{k}^{T} B x_{k})}^{T} Q_{k}^{T} A Q_{k} Q_{k}^{T} B x_{k} + φ (x_{k} + Q_{k} z - Q_{k} Q_{k}^{T} B x_{k}) \\ = z^{T} Q_{k}^{T} A Q_{k} z + 2 z^{T} Q_{k}^{T} A (I - Q_{k}^{T} Q_{k} B) x_{k} + {(Q_{k}^{T} B x_{k})}^{T} Q_{k}^{T} A Q_{k} Q_{k}^{T} B x_{k} + φ (Q_{k} z + (I - Q_{k} Q_{k}^{T} B) x_{k}) \end{array}$ 。

令 $(I - Q_{k}^{T} Q_{k} B) x_{k} = c_{k}$ ， $Q_{k}^{T} A Q_{k} = V$ ，

通过上述投影变换，将原问题转换成如下优化问题：

$\begin{array}{l} min_{z} & z^{T} V z + 2 z^{T} Q_{k}^{T} A c_{k} + φ (Q_{k} z + c_{k}) \\ s . t . & {‖ z ‖}_{2}^{2} = Δ . \end{array}$ (3)

3.3. 增广拉格朗日法求解投影问题

对于问题(3)，令 $y = Q_{k} z + c_{k}$ ，得到：

$\begin{array}{l} min_{z} & z^{T} V z + 2 z^{T} Q_{k}^{T} A c_{k} + φ (Q_{k} z + c_{k}) \\ s .t & {‖ z ‖}_{2}^{2} = Δ, \\ y = Q_{k} z + c_{k} . \end{array}$

其中， $Δ = {‖ Q_{k}^{T} B x_{k} ‖}_{2}^{2}$ ，这是一个带约束的流形优化问题，可以采用流形上的增广拉格朗日法，将问题转换成如下形式：

$\begin{array}{l} min_{z \in ℳ} & z^{T} V z + 2 z^{T} Q_{k}^{T} A c_{k} + φ (Q_{k} z + c_{k}) \\ s . t . & y = Q_{k} z + c_{k} . \end{array}$

其增广拉格朗日函数为：

$\begin{matrix} L_{σ} (z, y, τ) = z^{T} V z + 2 z^{T} Q_{k}^{T} A c_{k} + φ (y) + τ^{T} (Q_{k} z + c_{k} - y) + \frac{σ}{2} {‖ Q_{k} z + c_{k} - y ‖}_{2}^{2} \\ = z^{T} V z + 2 z^{T} Q_{k}^{T} A c_{k} + φ (y) + \frac{σ}{2} {‖ Q_{k} z + c_{k} - y + \frac{τ}{σ} ‖}_{2}^{2} - \frac{{‖ τ ‖}_{2}^{2}}{2 σ} . \end{matrix}$

其中， $τ$ 是对应线性约束 $y = Q_{k} z + c_{k}$ 的拉格朗日乘子，我们需要求解如下问题：

$\begin{array}{l} min_{z, y, τ} & L_{σ} (z, y, τ) \\ s . t . & z \in ℳ . \end{array}$ (4)

下面给出增广拉格朗日算法解决上述问题：

算法4：增广拉格朗日法求解投影问题

1 输入： $τ_{0} \in ℝ^{m}$ ；

3 当 $j = 0, 1, \dots$ 执行

4 $(z^{j + 1}, y^{j + 1}) = \underset{z \in ℳ, y \in span (U)}{\arg \min} L_{σ} (z, y, τ^{j})$ ；

5 $τ^{j + 1} = τ^{j} - τ (Q_{k} z^{j + 1} - c_{k} y^{j + 1})$ ；

8 若达到收敛准则，则

9 停止；

10 增加 $σ$

下面分析增广拉格朗日子问题如何求解。

3.4. 半光滑牛顿法求解子问题(4)

在这一小节中，我们用半光滑牛顿法解决子问题(4)，对 $z, y$ 同时最小化等价于：

$\min_{z \in ℳ} z^{T} V z + 2 z^{T} Q_{k}^{T} A c_{k} + φ^{σ} (Q_{k} z + c_{k} + \frac{τ}{σ})$ 。

其中， $φ^{σ}$ 是Moreau-Yosida正则化， $w = Q_{k} z + c_{k} + \frac{τ}{σ}$ ，此函数是连续可微的：

$φ^{σ} (w) : = \min_{y \in span (U)} φ (y) + \frac{σ}{2} {‖ w - y ‖}_{2}^{2} .$ (5)

公式(5)与计算对应函数的近似点映射 ${prox}_{f / σ} (x) : = \underset{y}{\arg \min} f (y) + \frac{σ}{2} {‖ x - y ‖}_{2}^{2}$ 是等价的，故：

$y^{j + 1} = {prox}_{φ / σ} (Q_{k} z^{j + 1} + c_{k} + \frac{τ^{j}}{σ}) .$ (6)

令

$Φ (z) : = z^{T} V z + 2 z^{T} Q_{k}^{T} A c_{k} + φ^{σ} (Q_{k} z + c_{k} + \frac{τ}{σ}),$ (7)

其中 $z \in ℳ$ ，则

$\begin{matrix} \nabla Φ (z) = 2 V z + 2 Q_{k}^{T} A c_{k} + \nabla_{z} φ^{σ} (Q_{k} z + c_{k} + \frac{τ}{σ}) \\ = 2 V z + 2 Q_{k}^{T} A c_{k} + σ Q_{k}^{T} [Q_{k} z + c_{k} + \frac{τ}{σ} - {prox}_{φ / σ} (Q_{k} z + c_{k} + \frac{τ^{j}}{σ})] \\ = 2 V z + 2 Q_{k}^{T} A c_{k} + σ Q_{k}^{T} Q_{k} z + σ Q_{k}^{T} c_{k} + τ Q_{k}^{T} - σ [{prox}_{φ / σ} (Q_{k} z + c_{k} + \frac{τ^{j}}{σ})] . \end{matrix}$

因此我们得到如下命题来描述问题(4)的一阶必要条件。

命题1 给定 $τ^{j}$ ，对任意 $y^{j + 1}$ 满足公式(6)和 $‖ \nabla Φ (z^{j}) ‖ = 0$ ，则

$(z^{j + 1}, y^{j + 1}) = \underset{z \in ℳ, y \in span (U)}{\arg \min} L_{σ} (z, y, τ) .$

除此之外对于适当的足够大的 $σ$ ，存在很小的 $ε > 0$ ，使得

$‖ Q_{k} z^{j + 1} + c_{k} - y^{j + 1} ‖ = Q_{k} z + c_{k} - {prox}_{φ / σ} (Q_{k} z^{j} v_{0} A v_{0} + c_{k} + \frac{τ^{j}}{σ}) \leq ε .$

命题2 令 $\partial^{2} Φ (z)$ 为 $Φ (z)$ 的Clark广义Jacbbi，则

$\begin{matrix} \partial^{2} Φ (z) = \partial \nabla Φ (z) \\ = 2 V + σ Q_{k}^{T} Q_{k} - σ Q_{k}^{T} \partial {prox}_{φ / σ} (Q_{k} z + c_{k} + \frac{τ}{σ}) Q_{k} \\ = 2 V + σ Q_{k}^{T} Q_{k} - σ Q_{k}^{T} W Q_{k} . \end{matrix}$

其中， $W \in \partial {prox}_{\frac{φ}{σ}} (Q_{k} z + c_{k} + \frac{τ}{σ})$ 。

下面给出半光滑牛顿法具体算法：

算法5：半光滑牛顿法求解子问题(4)

1 输入：初始点 $z_{0} = z_{j} \in ℳ$ ， $t \in (0, 1)$ ， $δ \in (0, 1 / 2)$ ， $k = 0$ ， $τ^{j}$

续表

2 当达到收敛准则执行

3 选择 $H^{k} \in \partial \nabla Φ (z^{k})$ ；

4 解d通过求解广义牛顿方程： $H_{k} d = - \partial Φ (z_{k})$ ；

5 令 $α = 1$ ；

6 若 $Φ (z^{k} + α d^{k}) > Φ (z^{k}) + α Φ {(z^{k})}^{T} d^{k}$ 执行

7 $α = t α$ ；

8 更新 $α^{k} = α$ 且 $z^{k + 1} = z^{k} + α^{k} d^{k}$ ， $k = k + 1$

半光滑牛顿法子问题，可以直接调用黎曼流形上的信赖域方法求解，根据 $z = h + Q_{k}^{T} B x_{k}$ 计算可以得到 $x_{k}$ ，进而能求出对应的特征值。下面给出半光滑牛顿法的收敛性分析。

定义7 如果F在x点所B-微分的元素 $J \in \partial_{B} F (x)$ 都是非奇异的，那么称F在x点是BD-正则的。

引理6 ([14])若 $Φ$ 是半光滑的和BD-正则的，则存在常数 $c > 0$ ， $κ > 0$ 和一个小邻域 $N (z^{*}, ε_{0})$ 使得对于任意的 $U \in N (z^{*}, ε_{0})$ 和 $J \in \partial_{B} Φ (U)$ ，下面的结论成立：

1) $z^{*}$ 是一个孤立解；

2) J是非奇异的并且 ${‖ J^{- 1} ‖}_{F} \leq c$ ；

3) 局部误差界条件对于 $Φ (z)$ 在邻域 $N (z^{*}, ε_{0})$ 上成立，也就是说 ${‖ U - z^{*} ‖}_{2} \leq κ ‖ Φ (U) ‖$ 。

定理9 若 $\nabla Φ (z)$ 是半光滑的且BD-正则的，并且z是优化问题(4)的最优解。那么z的迭代是良定义的，且存在一个小邻域 $N (z^{*}, ε)$ ，使得对于任意的k有 $X z^{k} \in N (z^{*}, ε)$ ，迭代是超线性收敛的。如果 $\nabla Φ (x)$ 是强半光滑的，迭代是二次收敛的。

Proof. 根据引理6，迭代是良定义的。我们可以简单地推出

$\begin{matrix} {‖ z^{k + 1} - z^{*} ‖}_{2} = {‖ z^{k} - J_{k}^{- 1} \nabla Φ (z^{k}) - z^{*} ‖}_{2} \\ \leq {‖ J_{k}^{- 1} ‖}_{F} \cdot {‖ \nabla Φ (z^{k}) - \nabla Φ (z^{*}) - J_{k} (z^{k} - z^{*}) ‖}_{2} \\ = o ({‖ z^{k} - z^{*} ‖}_{2}) . \end{matrix}$

其中最后一个等式来源于 $\nabla Φ (z)$ 的半光滑性。如果 $\nabla Φ (z)$ 是强半光滑的，则其可以改为

$O ({‖ z^{k} - z^{*} ‖}_{2}^{2})$ 。

4. 数值实验

4.1. 实验

在本节中，我们评估了本文算法在解决对称稀疏广义特征值问题时的性能。在Matlab (R2017a)中编码，并在运行Windows 10 (64位)系统、配备Intel (R) Core (TM) i5-10210U CPU @1.60 GHz和8 GB内存的PC上进行评估。

对于函数 $φ (x)$ ，我们选用 $l_{1}$ 范数进行测试，并将算法与邻近梯度法进行对比实验。

$l_{1}$ 范数

$l_{1} = {‖ X ‖}_{1}$ ，

$l_{1}$ 函数的邻近算子为

$\begin{matrix} {prox}_{φ_{L} / σ} (x) = \underset{y}{\arg \min} φ_{L} (y) + \frac{σ}{2} {‖ x - y ‖}_{2}^{2} \\ = sign (x) max {| x | - 1 / σ, 0}, \end{matrix}$

$l_{1}$ 函数的广义雅可比函数为

${[J_{L}]}_{i i} = {\begin{array}{l} 0, & | x_{i} | < 1 / σ \\ [0, 1], & | x_{i} | = 1 / σ \\ 1, & | x_{i} | > 1 / σ \end{array}$

4.2. 实验结果

参数设置：Krylov子空间 $K_{m} (A, r)$ 维度m = (10, 20)，Krylov子空间 $K_{m} (A, B x)$ 维度m = 1，外层最大子空间维度50，收敛容忍度1e-5，稀疏度1e-3。

Krylov子空间 $K_{m} (A, r)$ 维度m = 10的nested ALM实验结果见表1，Krylov子空间 $K_{m} (A, r)$ 维度m = 20的nested ALM实验结果见表2，PGA实验结果见表3。

Table 1. Nested ALM experimental results (m = 10)

表1. 嵌套子空间的增广拉格朗日法实验结果(m = 10)

n	CPU时间	残差	外层迭代步数	目标函数值
1000	3.1051	1.4287	295	−0.0879
1500	7.8445	1.4308	457	−0.0723
2000	26.5017	1.3940	906	−0.0627
2500	28.7841	1.4191	766	−0.0564
3000	67.3727	1.3800	1228	−0.0514

Table 2. Nested ALM experimental results (m = 20)

表2. 嵌套子空间的增广拉格朗日法实验结果(m = 20)

n	CPU时间	残差	外层迭代步数	目标函数值
1000	2.6639	1.3963	247	−0.0879
1500	11.3557	1.3356	603	−0.0723
2000	25.6663	1.3885	855	−0.0627
2500	33.2940	1.4138	872	−0.0564
3000	63.5617	1.4169	1126	−0.0514

Table 3. PGA experimental results

表3. 邻近梯度法实验结果

n	CPU时间	残差	迭代步数	目标函数值
1000	7.7420	1.4298	1369	−0.0879
1500	8.3456	1.4003	800	−0.0723
2000	37.8297	1.3911	1934	−0.0627
2500	39.7651	1.4258	1529	−0.0564
3000	79.2420	1.4543	2044	−0.0514

由实验结果可以看出，本文提出嵌套子空间的增广拉格朗日法，当子空间维数 $K_{m} (A, r)$ 维度为20时的时间优于维度为10的时候，但残差略逊于子空间维度取10时，在实际应用中可以根据具体问题适当调整参数，可以根据残差下降速率自适应调整维度。例如，若残差下降缓慢，则增加维度以提升搜索能力。无论子空间维度取何值本文算法在CPU时间上都明显优于PGA，说明本算法对求解对称稀疏广义特征值问题具有较高的求解效率和稳定性。

5. 结论

本文实现了一种解决对称稀疏广义特征值问题的算法，该算法结合了嵌套结构和增广拉格朗日算法的思想，用于该问题的迭代求解。算法的核心是使用PGA算法来确定搜索方向并将其加入到子空间中，并使用子空间的信息进行进一步优化，整个算法动态地生成子空间，嵌套结构的引入可以进一步提高算法的性能，使其在复杂问题中寻找较好的解。并且实验结果表明，本算法对求解对称稀疏广义特征值问题具有较高的求解效率和稳定性，为了取得更好的性能，在实际应用中可以根据具体问题和数据适当调整算法参数。

参考文献

[1]	Saad, Y. (1992) Numerical Methods for Large Eigenvalue Problems: Theory and Algorithms. Manchester University Press.
[2]	Fokkema, D.R., Sleijpen, G.L.G. and Van der Vorst, H.A. (1998) Jacobi-Davidson Style QR and QZ Algorithms for the Reduction of Matrix Pencils. SIAM Journal on Scientific Computing, 20, 94-125. https://doi.org/10.1137/s1064827596300073
[3]	Benzi, M. (2002) Preconditioning Techniques for Large Linear Systems: A Survey. Journal of Computational Physics, 182, 418-477. https://doi.org/10.1006/jcph.2002.7176
[4]	Saad, Y. (1996) Iterative Methods for Sparse Linear Systems. PWS Publishing Company.
[5]	Knyazev, A.V. (2001) Toward the Optimal Preconditioned Eigensolver: Locally Optimal Block Preconditioned Conjugate Gradient Method. SIAM Journal on Scientific Computing, 23, 517-541. https://doi.org/10.1137/s1064827500366124
[6]	Gambolati, G., Pini, G. and Sartoretto, F. (1988) An Improved Iterative Optimization Technique for the Leftmost Eigenpairs of Large Symmetric Matrices. Journal of Computational Physics, 74, 41-60. https://doi.org/10.1016/0021-9991(88)90067-8
[7]	Neymeyr, K. (2001) A Geometric Theory for Preconditioned Inverse Iteration I: Extrema of the Rayleigh Quotient. Linear Algebra and Its Applications, 322, 61-85. https://doi.org/10.1016/s0024-3795(00)00239-1
[8]	Golub, G.H. and Ye, Q. (2002) An Inverse Free Preconditioned Krylov Subspace Method for Symmetric Generalized Eigenvalue Problems. SIAM Journal on Scientific Computing, 24, 312-334. https://doi.org/10.1137/s1064827500382579
[9]	Quillen, P. and Ye, Q. (2010) A Block Inverse-Free Preconditioned Krylov Subspace Method for Symmetric Generalized Eigenvalue Problems. Journal of Computational and Applied Mathematics, 233, 1298-1313. https://doi.org/10.1016/j.cam.2008.10.071
[10]	Alimisis, F., Saad, Y. and Vandereycken, B. (2024) Gradient-Type Subspace Iteration Methods for the Symmetric Eigenvalue Problem. SIAM Journal on Matrix Analysis and Applications, 45, 2360-2386. https://doi.org/10.1137/23m1590792
[11]	Zhang, L. and Shen, C. (2018) A Nested Lanczos Method for the Trust-Region Subproblem. SIAM Journal on Scientific Computing, 40, A2005-A2032. https://doi.org/10.1137/17m1145914
[12]	Beck, A. (2017) First-Order Methods in Optimization. Society for Industrial and Applied Mathematics. https://doi.org/10.1137/1.9781611974997
[13]	刘浩洋, 户将, 李勇锋, 等. 最优化: 建模、算法与理论[M]. 北京: 高等教育出版社, 2020.
[14]	Li, X., Sun, D. and Toh, K. (2018) A Highly Efficient Semismooth Newton Augmented Lagrangian Method for Solving Lasso Problems. SIAM Journal on Optimization, 28, 433-458. https://doi.org/10.1137/16m1097572

为你推荐

友情链接