最近亏损矩阵的可信验证

doi:10.12677/AAM.2020.911228

期刊菜单

最近亏损矩阵的可信验证
The Verification of the Nearest Defective Matrix

DOI: 10.12677/AAM.2020.911228, PDF, HTML, XML, 科研立项经费支持
作者: 张春磊, 李喆^*：长春理工大学理学院，吉林长春
关键词: 特征值；亏损矩阵；验证算法；Eigenvalue； Defective Matrix； Verification

摘要: 给定具有n个互异特征值的阶矩阵Ã，以及其近似特征值λ，本文提出的验证算法可计算给定矩阵Ã的微小摄动区间矩阵A，以及给定实数λ的微小摄动区间_∧^Λ，使得在区间矩阵A中存在一个实亏损矩阵。

Abstract: Given an matrix Ã having n distinct eigenvalues and its approximate eigenvalue λ, we propose a verification algorithm for constructing an interval matrix A near to Ã and an interval _∧^Λ near to λ. The computed interval matrix A is guaranteed to contain a real defective matrix .

文章引用：张春磊, 李喆. 最近亏损矩阵的可信验证[J]. 应用数学进展, 2020, 9(11): 1974-1984. https://doi.org/10.12677/AAM.2020.911228

1. 引言

如果一个 $n \times n$ 矩阵有n个不同的特征值，则称其为单矩阵。若一个 $n \times n$ 矩阵其线性无关特征向量的个数少于n，则称其为亏损矩阵。单矩阵到其附近亏损矩阵的距离与矩阵特征值的灵敏度分析密切相关。即使矩阵的所有特征值都可以彼此很好地分离，特征值的计算也可能是病态的。Kublanovskaya [1] 通过构造一个子空间的辅助基，提供了一种计算亏损矩阵特征值的方法。Ruhe [2]、Sridhar和Jordan [3]、Kågström和Ruhe [4]、Demmel [5] 分别给出了几种计算亏损矩阵约当标准形和相关不变子空间的稳定算法。Chatelin [6] 基于对牛顿法的修正，设计算法计算亏损特征值的不变子空间。Wilkinson [7] [8] [9] 深入地研究了亏损矩阵特征值问题，并给出了基于摄动分析的全体特征值的显式表达式。Wilkinson [10] [11] 详细地讨论了如何计算与给定单矩阵距离最近的亏损矩阵。Malyshev [12] 给出了一个单矩阵到具有多重特征值矩阵的距离2范数的具体公式。Lippert和Edelman [13] 基于微分几何和奇点理论，计算了一个单矩阵到一个具有二维约当块的矩阵簇的距离。利用矩阵的特征值及特征向量，Alam和Bora [14] 给出了构造最接近给定单矩阵亏损矩阵的数值算法。Alam、Bora、Byers和Overton [15] 通过伪谱分量的合并对文献 [15] 中算法进行了优化。Akinola、Freitag和Spence [16] 提出了基于隐式行列式法的最近亏损矩阵的快速算法。

Rump基于区间算法，开发了Matlab中的INTLAB工具箱，将其用于可信计算，见文献 [17] [18]。本文利用给定单矩阵的近似特征值，设计了基于F范数的单矩阵附近最近亏损矩阵的可信验证算法。

2. 预备部分

令 $ℝ$ 表示全体实数集，设A为 $n \times n$ 矩阵， $tr (A)$ 表示A的迹， $A (:)$ 表示由A的每一列合并得到的长列向量。如果A为 $m \times n$ 矩阵， $A_{i_{1} : i_{2}, :}$ 表示由矩阵A的第 $i_{1}$ 行到第 $i_{2}$ 行所构成的矩阵， $A_{:, j_{1} : j_{2}}$ 表示由矩阵A的第 $j_{1}$ 列到第 $j_{2}$ 列所构成的矩阵。令 $O_{m, n}$ 表示 $m \times n$ 阶零矩阵， $I_{n}$ 表示n阶单位阵。

对给定的数 $\overset{⌣}{x}, \bar{x}$ ，若 $\overset{⌣}{x} < \bar{x}$ ，则称 $X = [\overset{⌣}{x}, \bar{x}] = {x \in ℝ : \overset{⌣}{x} \leq x \leq \bar{x}}$ 为区间，令 $\sup (X) = \bar{x}$ 和 $\inf (X) = \overset{⌣}{x}$ 分别表示区间 $X$ 的右边界和左边界。设 $I ℝ$ 表示全体区间的集合，分量为区间的向量和矩阵分别被称为区间向量和区间矩阵。区间向量 $X = {(X_{1}, X_{2}, \dots, X_{n})}^{T}$ 是一个n元组，其分量 $X_{i} \in I ℝ$ 。定义实向量

$\sup (X) = {(\sup (X_{1}), \sup (X_{2}), \dots, \sup (X_{n}))}^{n}$ , $\inf (X) = {(\inf (X_{1}), \inf (X_{2}), \dots, \inf (X_{n}))}^{n}$

分别为区间向量 $X$ 的右边界和左边界。

对于区间矩阵 $M \in I ℝ^{n \times n}$ ，若对满足条件 $M \in M$ 的任意实矩阵M都是对称矩阵，则称区间矩阵 $M$ 为区间对称矩阵。如果 $M$ 内的对称矩阵均为正定矩阵，则区间对称矩阵 $M$ 为区间对称正定矩阵。给定区间对称矩阵 $M$ ，如果INTLAB工具箱 [17] 中的代码输出1，则 $M$ 为区间正定对称矩阵。

定义1 (见 [18] )：给定矩阵 $A \in ℝ^{m \times n}$ ， $m \geq n$ ，定义矩阵A的余秩为 $c o r a n k (A) = n - r a n k (A)$ 。对于阈值 $δ > 0$ ，如果矩阵A的奇异值 $σ_{1} (A), \dots, σ_{n} (A)$ 满足

$σ_{1} (A) \geq \dots \geq σ_{n - q} (A) > δ \geq σ_{n - q + 1} (A) \geq \dots \geq σ_{n} (A),$

则我们说A有数值 $δ$ 余秩q，记为 $c o r a n k_{δ} (A) = q$ 。

引理1 (见 [19] )：给定矩阵 $A \in ℝ^{n \times n}$ ，若存在矩阵 $R \in ℝ^{n \times n}$ ，使得 ${‖ I_{n} - R A ‖}_{p} < 1$ ，其中 $p \in {1, 2, \infty}$ ，则A是非奇异的。

定理1 (见 [19] )：对于给定的区间矩阵 $A \in I ℝ^{n \times n}$ 和区间向量 $b \in I ℝ^{n}$ ，若INTLAB工具箱中verifylss函数成功地输出区间向量 $X \subset I ℝ^{n}$ ，则 $X$ 满足条件

$Σ (A, b) : = {x \in ℝ^{n} : A x = b, \forall A \in A, b \in b} \subseteq X .$

定理2 (见 [19] )：设 $f : ℝ^{n} \to ℝ^{n}$ 并且 $f = {(f_{1}, f_{2}, \dots, f_{n})}^{T}$ ，其中 $f_{1}, \dots, f_{n}$ 为连续可微函数。对 $\tilde{x} \in ℝ^{n}$ ， $X \in I ℝ^{n}$ ，其中 $0 \in X$ ，设 $f^{'} (\tilde{x} + X)$ 为区间 $\tilde{x} + X$ 处 $f$ 的雅可比矩阵。对于 $R \in ℝ^{n \times n}$ 和 $M \subset I ℝ^{n \times n}$ 满足 $f^{'} (\tilde{x} + X) \subseteq M$ ，假设

$- R f (\tilde{x}) + (I_{n} - R M) X \subseteq int (X),$

那么，存在唯一 $\hat{x} \in \tilde{x} + X$ ，使得 $f (\hat{x}) = 0$ 。

3. 主要结论

给定一个具有n个互异特征值的 $n \times n$ 矩阵 $\tilde{A}$ 。若对某个 $\bar{λ} \in ℝ$ ，若 $c o r a n k_{δ} (\tilde{A} - \bar{λ} I_{n}) = q$ ,则本文的主要工作是计算给定矩阵 $\tilde{A}$ 的微小摄动区间矩阵 $\bar{A}$ ，以及给定实数 $\bar{λ}$ 的微小摄动区间 $\hat{Λ}$ ，使得在区间矩阵 $\bar{A}$ 中存在一个实矩阵 $\hat{A}$ ，在区间 $\hat{Λ}$ 中存在一个实数 $\hat{λ}$ ，算法保证 $\hat{λ}$ 为矩阵 $\hat{A}$ 几何重数为q的亏损特征值。

3.1. 数值部分

记 $\tilde{A} - \bar{λ} I_{n}$ 的奇异值分解为

$\begin{matrix} \tilde{A} - \bar{λ} I_{n} = U (\bar{λ}) Σ (\bar{λ}) V {(\bar{λ})}^{T} \\ = (u_{1} u_{2} \dots u_{n}) d i a g (σ_{1}, σ_{2}, \dots, σ_{n}) {(v_{1} v_{2} \dots v_{n})}^{T}, \end{matrix}$

其中 $σ_{1} (A) \geq \dots \geq σ_{n - q} (A) > δ \geq σ_{n - q + 1} (A)$ 。引入未定元矩阵

$E = (\begin{matrix} e_{1, 1} & e_{1, 2} & \dots & e_{1, n} \\ e_{2, 1} & e_{2, 2} & \dots & e_{2, n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ e_{n, 1} & e_{n, 2} & \dots & e_{n, n} \end{matrix})$ (1)

为了简便起见，用 $e$ 表示向量 $E (:)$ 。定义矩阵

$C (λ, e) = (\begin{matrix} \tilde{A} - λ I_{n} + E & L (\bar{λ}) \\ R^{T} (\bar{λ}) & O_{q, q} \end{matrix})$ (2)

其中 $L (\bar{λ}) = (u_{n - q + 1} u_{n - q + 2} \dots u_{n})$ ， $R (\bar{λ}) = (v_{n - q + 1} v_{n - q + 2} \dots v_{n})$ 。易知， $λ = \bar{λ}$ ， $e = 0$ 时，矩阵 $C (\bar{λ}, e)$ 非奇异。

引理2：假设 $c o r a n k_{δ} (\tilde{A} - \bar{λ} I_{n}) = q$ ， $| \tilde{λ} - \bar{λ} | < ζ_{1}$ 且 ${‖ \tilde{e} ‖}_{\infty} < ζ_{2}$ 。如果

$ζ_{1} + ζ_{2} < \frac{1}{\sqrt{n + q} {‖ C {(\bar{λ}, 0)}^{- 1} ‖}_{\infty}}$ (3)

成立，则当 $λ = \tilde{λ}$ ， $e = \tilde{e}$ 时，矩阵 $C (λ, e)$ 非奇异。

证明：由已知可得

$\begin{matrix} {‖ I_{n + 1} - C {(\bar{λ}, 0)}^{- 1} C (\tilde{λ}, \tilde{e}) ‖}_{2} \leq \sqrt{n + q} {‖ I_{n + 1} - C {(\bar{λ}, 0)}^{- 1} C (\tilde{λ}, \tilde{e}) ‖}_{\infty} \\ \leq \sqrt{n + q} {‖ C {(\bar{λ}, 0)}^{- 1} ‖}_{\infty} {‖ C (\bar{λ}, 0) - C (\tilde{λ}, \tilde{e}) ‖}_{\infty} \\ < \sqrt{n + q} {‖ C {(\bar{λ}, 0)}^{- 1} ‖}_{\infty} (| \tilde{λ} - \bar{λ} | + {‖ \tilde{e} ‖}_{\infty}) \\ < 1. \end{matrix}$

则由引理1，可知 $C (\tilde{λ}, \tilde{e})$ 非奇异。 □

令 $X (λ, e)$ 和 $Y (λ, e)$ 分别是下列线性系统

$(\begin{matrix} \tilde{A} - λ I_{n} + E & L (\bar{λ}) \\ R^{T} (\bar{λ}) & O_{q, q} \end{matrix}) (\begin{matrix} X (λ, e) \\ Y (λ, e) \end{matrix}) = (\begin{matrix} O_{n, q} \\ I_{q} \end{matrix})$ (4)

解的前n行和后q行。由引理2可知，存在以 $(\bar{λ}, 0)$ 为中心的邻域，使得对于该邻域内任意的 $(\tilde{λ}, \tilde{e})$ ，矩阵 $C (\tilde{λ}, \tilde{e})$ 非奇异。进一步，在该邻域内，系统(4)解向量的每个分量关于所有变量都充分可微。对系统(4)两端关于 $λ$ 求导可得下列系统

$(\begin{matrix} \tilde{A} - λ I_{n} + E & L (\bar{λ}) \\ R^{T} (\bar{λ}) & O_{q, q} \end{matrix}) (\begin{matrix} \frac{\partial^{(l)} X (λ, e)}{\partial λ^{(l)}} \\ \frac{\partial^{(l)} Y (λ, e)}{\partial λ^{(l)}} \end{matrix}) = (\begin{matrix} l \frac{\partial^{(l - 1)} X (λ, e)}{\partial λ^{(l - 1)}} \\ O_{q, q} \end{matrix}), l = 1, 2, \dots$ (5)

对于 $(i, j)$ ，其中 $1 \leq i \leq n, 1 \leq j \leq n$ ，对系统(4)关于变量 $e_{i, j}$ 求偏导，可得

$(\begin{matrix} \tilde{A} + E - λ I_{n} & L (\bar{λ}) \\ R^{T} (\bar{λ}) & O_{q, q} \end{matrix}) (\begin{matrix} \frac{\partial X (λ, e)}{\partial e_{i, j}} \\ \frac{\partial Y (λ, e)}{\partial e_{i, j}} \end{matrix}) = - (\begin{matrix} O_{i - 1, q} \\ X {(λ, e)}_{j, :} \\ O_{n + q - i, q} \end{matrix}) .$ (6)

对于 $(i_{1}, j_{1}), (i_{2}, j_{2})$ ，其中 $1 \leq i_{1} \leq n, 1 \leq j_{1} \leq n, 1 \leq i_{2} \leq n, 1 \leq j_{2} \leq n$ ，对系统(6)关于变量 $e_{i_{1}, j_{1}}, e_{i_{2}, j_{2}}$ 求偏导，有

$(\begin{matrix} \tilde{A} + E - λ I_{n} & L (\bar{λ}) \\ R^{T} (\bar{λ}) & O_{q, q} \end{matrix}) (\begin{matrix} \frac{\partial^{(2)} X (λ, e)}{\partial e_{i_{1}, j_{1}} \partial e_{i_{2}, j_{2}}} \\ \frac{\partial^{(2)} Y (λ, e)}{\partial e_{i_{1}, j_{1}} \partial e_{i_{2}, j_{2}}} \end{matrix}) = - (\begin{matrix} O_{i_{1} - 1, q} \\ {(\frac{\partial X (λ, e)}{\partial e_{i_{2}, j_{2}}})}_{j_{1}, :} \\ O_{n + q - i_{1}, q} \end{matrix}) - (\begin{matrix} O_{i_{2} - 1, q} \\ {(\frac{\partial X (λ, e)}{\partial e_{i_{1}, j_{1}}})}_{j_{2}, :} \\ O_{n + q - i_{2}, q} \end{matrix}) .$ (7)

对于 $(l, i, j)$ ，其中 $l \geq 1, 1 \leq i \leq n, 1 \leq j \leq n$ ，系统(5)两端对 $e_{i, j}$ 求偏导，可得

$(\begin{matrix} \tilde{A} - λ I_{n} + E & L (\bar{λ}) \\ R^{T} (\bar{λ}) & O_{q, q} \end{matrix}) (\begin{matrix} \frac{\partial^{(l +1)} X (λ, e)}{\partial λ^{(l)} e_{i, j}} \\ \frac{\partial^{(l +1)} Y (λ, e)}{\partial λ^{(l)} e_{i, j}} \end{matrix}) = (\begin{matrix} l \frac{\partial^{(l)} X (λ, e)}{\partial λ^{(l - 1)} e_{i, j}} \\ O_{q, q} \end{matrix}) - (\begin{matrix} O_{i - 1, q} \\ {(\frac{\partial^{(l)} X (λ, e)}{\partial λ^{(l)}})}_{j, :} \\ O_{n + q - i, q} \end{matrix}) .$ (8)

对于 $(l, i_{1}, j_{1}), (l, i_{2}, j_{2})$ ，系统(5)关于变量 $e_{i_{1}, j_{1}}$ 和 $e_{i_{2}, j_{2}}$ 求偏导，可得

$\begin{array}{l} (\begin{matrix} \tilde{A} + E - λ I_{n} & L (\bar{λ}) \\ R^{T} (\bar{λ}) & O_{q, q} \end{matrix}) (\begin{matrix} \frac{\partial^{(l + 2)} X (λ, e)}{\partial λ^{(l)} \partial e_{i_{1}, j_{1}} \partial e_{i_{2}, j_{2}}} \\ \frac{\partial^{(l + 2)} Y (λ, e)}{\partial λ^{(l)} \partial e_{i_{1}, j_{1}} \partial e_{i_{2}, j_{2}}} \end{matrix}) \\ = (\begin{matrix} l \frac{\partial^{(l + 1)} X (λ, e)}{\partial λ^{(l - 1)} \partial e_{i_{1}, j_{1}} \partial e_{i_{2}, j_{2}}} \\ O_{q, q} \end{matrix}) - (\begin{matrix} O_{i_{1} - 1, q} \\ {(\frac{\partial^{(l + 1)} X (λ, e)}{\partial λ^{(l)} \partial e_{i_{2}, j_{2}}})}_{j_{1}, :} \\ O_{n + q - i_{1}, q} \end{matrix}) - (\begin{matrix} O_{i_{2} - 1, q} \\ {(\frac{\partial^{(l + 1)} X (λ, e)}{\partial λ^{(l)} \partial e_{i_{1}, j_{1}}})}_{j_{2}, :} \\ O_{n + q - i_{2}, q} \end{matrix}) . \end{array}$ (9)

注1：对于满足条件 $c o r a n k_{δ} (\tilde{A} - \bar{λ} I_{n}) = q$ 的矩阵 $\tilde{A}$ 及实数 $\bar{λ}$ ，数值部分的主要工作是求解以下约束优化问题

$\begin{array}{l} \min \frac{1}{2} {‖ e ‖}_{2}^{2} \\ s .t . Y (λ, e) = O_{q, q}, \end{array}$ (10)

$\begin{array}{l} \frac{\partial^{(l)} Y (λ, e)}{\partial λ^{(l - 1)}} = O_{q, q}, 1 \leq l \leq k - 1, \\ \frac{\partial^{(k)} Y (λ, e)}{\partial λ^{(k)}} \neq O_{q, q} . \end{array}$ (11)

利用牛顿迭代法来计算优化问题(10)的数值稳定点。需要注意的是，条件(11)中出现的正整数k是根据阈值 $δ$ 计算出来的。初始k值应满足以下条件

${‖ \frac{\partial^{(k - 1)} Y (\bar{λ}, 0)}{\partial λ^{(k - 1)}} ‖}_{\infty} < δ, {‖ \frac{\partial^{(k)} Y (\bar{λ}, 0)}{\partial λ^{(k)}} ‖}_{\infty} \geq δ .$

对于更新的 $(\tilde{λ}, \tilde{e})$ ，如果

${‖ \frac{\partial^{(k - 1)} Y (\bar{λ}, 0)}{\partial λ^{(k - 1)}} ‖}_{\infty} < δ$

不成立，则需要更新k，使得条件

${‖ \frac{\partial^{(k - 1)} Y (\bar{λ}, 0)}{\partial λ^{(k - 1)}} ‖}_{\infty} < δ, {‖ \frac{\partial^{(k)} Y (\bar{λ}, 0)}{\partial λ^{(k)}} ‖}_{\infty} \geq δ .$

成立。 □

注2：令 $H e s s (\frac{\partial^{(i)} Y (λ, e)}{\partial λ^{(i)}})$ 为 $\frac{\partial^{(i)} Y (λ, e)}{\partial λ^{(i)}}$ 的Hession矩阵，其中 $0 \leq i \leq k - 1$ ，定义非线性系统

$F (λ, e) = (\begin{matrix} Y (λ, e) (:) \\ \frac{\partial Y (λ, e)}{\partial λ} (:) \\ ⋮ \\ \frac{\partial^{(k - 1)} Y (λ, e)}{\partial λ^{(k - 1)}} (:) \end{matrix}) = 0,$ (12)

则优化问题(10)相应的拉格朗日函数为

$L (λ, e, ω) = \frac{1}{2} {‖ e ‖}_{2}^{2} + ω^{T} F (λ, e),$ (13)

其中 $ω = {(ω_{0}, ω_{1}, \dots, ω_{k q^{2} - 1})}^{T}$ 为拉格朗日乘子，函数 $L (λ, e, ω)$ 的梯度和Hession矩阵分别为

$L^{'} (λ, e, ω) = (\begin{matrix} 0 \\ e \\ O_{k q^{2}, 1} \end{matrix}) + (\begin{matrix} F^{'} {(λ, e)}^{T} ω \\ F (λ, e) \end{matrix}),$ (14)

$L^{″} (λ, e, ω) = (\begin{matrix} 0 & O_{1, n^{2}} & O_{1, k q^{2}} \\ O_{n^{2}, 1} & I_{n^{2}} & O_{n^{2}, k q^{2}} \\ O_{k q^{2}, 1} & O_{k q^{2}, n^{2}} & O_{k q^{2}, k q^{2}} \end{matrix}) + (\begin{matrix} Hess (F (λ, e)) & F^{'} {(λ, e)}^{T} \\ F^{'} (λ, e) & O_{k q^{2}, k q^{2}} \end{matrix}) .$ (15)

注3：数值部分采用牛顿数值迭代法

${(\begin{matrix} \tilde{λ} & \tilde{e} & \tilde{ω} \end{matrix})}^{T} \leftarrow {(\begin{matrix} \tilde{λ} & \tilde{e} & \tilde{ω} \end{matrix})}^{T} - L^{″} {(\tilde{λ}, \tilde{e}, \tilde{ω})}^{- 1} L^{'} (\tilde{λ}, \tilde{e}, \tilde{ω})$ (16)

来更新 $(\tilde{λ}, \tilde{e}, \tilde{ω})$ ，使得 $L^{'} (\tilde{λ}, \tilde{e}, \tilde{ω})$ 接近零向量。 □

3.2. 验证部分

引理3：若向量 $(\hat{λ}, \hat{e})$ 满足条件 $Y (\hat{λ}, \hat{e}) = O_{q, q}$ ，且

$| \hat{λ} - \bar{λ} | + {‖ \hat{e} ‖}_{\infty} < \frac{1}{\sqrt{n + q} {‖ C {(\bar{λ}, 0)}^{- 1} ‖}_{\infty}}$

成立，则

$c o r a n k (\tilde{A} + E - \hat{λ} I_{n}) = q .$ (17)

证明：根据引理2可知， $C (\hat{λ}, \hat{e})$ 非奇异。若 $Y (\hat{λ}, \hat{e}) = O_{q, q}$ ，则有

$(\tilde{A} + \hat{E} - \hat{λ} I_{n}) X (\hat{λ}, \hat{e}) = O_{n, q}, R^{T} (\hat{λ}) X (\hat{λ}, \hat{e}) = I_{q} .$

显然， $X (\hat{λ}, \hat{e})$ 是线性无关的。假设 $c o r a n k (\tilde{A} + \hat{E} - \hat{λ} I_{n}) > q$ ，对于某非零向量 $β \in \ker (\tilde{A} + \hat{E} - \hat{λ} I_{n})$ 有

$(W (\hat{λ}, \hat{e}) β)$ 满秩，则对于非零实向量 $γ$ ，有

$(\begin{matrix} \tilde{A} + \hat{E} - \hat{λ} I_{n} \\ R^{T} (\hat{λ}) \end{matrix}) (W (\hat{λ}, \hat{e}) β) γ = 0 .$

上式与假设条件矛盾，故(17)成立。 □

假设1：雅可比矩阵 $F^{'} (0)$ 满秩。

命题1：假设 $(\hat{λ}, \hat{e})$ 是系统(12)的解，且满足条件

$| \hat{λ} - \bar{λ} | + {‖ \hat{e} ‖}_{\infty} < \frac{1}{\sqrt{n + q} {‖ C {(\bar{λ}, 0)}^{- 1} ‖}_{\infty}},$

则对每一个正整数l，其中 $1 \leq l \leq k$ ，下列向量的序列

$\frac{\partial^{(t)} X {(\hat{λ}, \hat{e})}_{:, s}}{\partial λ^{(t)}} 1 \leq s \leq q, 0 \leq t \leq l - 1$ (18)

构成 $\ker {(\tilde{A} + \hat{E} - \hat{λ} I_{n})}^{l}$ 的基。

证明：设实矩阵 $\hat{E} \in ℝ^{n \times n}$ 满足条件 $\hat{E} (:) = \hat{e}$ 。当 $l = 1$ 时，根据引理3知， $W (\hat{λ}, \hat{e})$ 是 $\ker (\tilde{A} + \hat{E} - \hat{λ} I_{n})$ 的一个基。假设正整数 $1 \leq l \leq k - 1$ ，向量组(18)是 $\ker {(\tilde{A} + \hat{E} - \hat{λ} I_{n})}^{l}$ 的一组基。下面考虑 $l + 1$ 时的情况。显然

$\ker ({(\tilde{A} + \hat{E} - \hat{λ} I_{n})}^{l +1}) \supseteq span {\frac{\partial^{(t)} W {(\hat{λ}, \hat{e})}_{:, s}}{\partial λ^{(t)}} 1 \leq s \leq q, 0 \leq t \leq l} .$ (19)

接下来证明向量组

$\frac{\partial^{(t)} X {(\hat{λ}, \hat{e})}_{:, s}}{\partial λ^{(t)}} 1 \leq s \leq q, 0 \leq t \leq l$ (20)

线性无关。然而，如果存在一个q维非零实向量序列 $α^{(0)}, α^{(1)} ， \dots, α^{(l)}$ ，使得

$\sum_{t = 0}^{l} \frac{\partial^{(t)} W (\hat{λ}, \hat{e})}{\partial λ^{(t)}} α^{(t)} = 0,$

则

$\sum_{t = 1}^{l} \frac{\partial^{(t - 1)} W (\hat{λ}, \hat{e})}{\partial λ^{(t - 1)}} α^{(t)} = 0,$

由数学归纳法可知向量组 $α^{(t)}, t = 1, \dots, l$ 全是零向量。因此 $W (\hat{λ}, \hat{e}) α^{(0)} = 0$ ，而 $W (\hat{λ}, \hat{e})$ 列向量线性无关，故 $α^{(0)} = 0$ 成立。综上可得矛盾，所以(20)线性无关。

最后假设存在非零实向量 $z$ 满足条件

$z \in \ker {(\tilde{A} + \hat{E} - \hat{λ} I_{n})}^{l +1} \ span {\frac{\partial^{(t)} W {(\hat{λ}, \hat{e})}_{:, s}}{\partial λ^{(t)}} 1 \leq s \leq q, 0 \leq t \leq l},$ (21)

则存在不全为零的向量组 $β^{(t)} \in ℝ^{q}$ ， $t = 1, \dots, l$ ，使得

$(\tilde{A} + \hat{E} - \hat{λ} I_{n}) z = \sum_{t = 0}^{l - 1} \frac{\partial^{(t)} W (\hat{λ}, \hat{e})}{\partial λ^{(t)}} β^{(t + 1)}$

成立。因此，存在一个q维向量 $β^{(0)}$ ，使得

$z = W (\hat{λ}, \hat{e}) β^{(0)} + \sum_{t = 0}^{l - 1} \frac{1}{t + 1} \frac{\partial^{(t + 1)} W (\hat{λ}, \hat{e})}{\partial λ^{(t + 1)}} β^{(t + 1)},$

这与(21)式矛盾。 □

注4：利用命题1和verifylss函数可知，验证算法计算包含实向量 $(\tilde{λ}, \tilde{e}, \tilde{ω})$ 的区间向量 $(\hat{Λ}, \hat{E}, \hat{W})$ ，使得区间向量 $(\hat{Λ}, \hat{E}, \hat{W})$ 中包含实向量 $(\hat{λ}, \hat{e}, \hat{ω})$ ，其满足条件 $L^{'} (\hat{λ}, \hat{e}, \hat{ω}) = 0$ 。对于包含实向量 $(\tilde{λ}, \tilde{e}, \tilde{ω})$ 的任意区间向量 $(\tilde{Λ}, \tilde{E}, \tilde{W})$ ，利用定理1和verifylss函数，求解当 $λ = \tilde{Λ}, e = \tilde{Ε}, ω = \tilde{W}$ 时的线性系统(6) (7) (8) (9)，可得到区间梯度向量 $L^{'} (\tilde{Λ}, \tilde{E}, \tilde{W})$ 和区间雅可比矩阵 $L^{″} (\tilde{Λ}, \tilde{E}, \tilde{W})$ 。 □

4. 主要算法

本节提出一种计算及验证优化问题(10)局部最优解的算法。对于实数x，代码 $i n t v a l (x)$ 输出区间 $[x, x]$ ，且对于实数 $a, b$ 满足 $a < b$ ，代码 $i n f s u b (a, b)$ 输出区间 $[a, b]$ 。对于区间 $X$ ，代码 $h u l l (X, 0)$ 返回同时包含 $X$ 和 $0$ 的最小区间。

算法1

输入 $\tilde{A}$ ： $n \times n$ 对称矩阵；

$δ$ ：数值秩的容差；

$t o l$ ：数值牛顿迭代的容差；

$\bar{λ}$ ：初始近似特征值；

N：数值迭代的最大次数。

输出 $\hat{Λ} \in ℝ$ ， $\hat{E} \subset I ℝ^{n \times n}$ ， $q \in ℕ$ 和 $k \in ℕ$ 或“失败”。

步骤1 对 $\tilde{A} - \bar{λ} I_{n}$ 进行奇异值分解。若 $c o r a n k (\tilde{A} + E - \hat{λ} I_{n}) = q$ ，进行第二步，否则返回失败并停止。

步骤2 数值部分。

步骤2.1 初始化 $i t e r = 0, k = 0, \tilde{λ} = \bar{λ}, \tilde{e} = 0$ 。

步骤2.2 当 ${‖ \frac{\partial^{(k)} Y (\tilde{λ}, \tilde{e})}{\partial λ^{(k)}} ‖}_{\infty} < δ$ 进行

令 $k \leftarrow k + 1$ ；

当 $λ = \tilde{λ}, e = \tilde{e}, l = k$ ，求解线性系统(5)得到 $\frac{\partial^{(k)} Y (\tilde{λ}, \tilde{e})}{\partial λ^{(k)}}$ 。

步骤2.3 如果 $k = 1$ ，返回失败并停止，否则进行下一步。

步骤2.4 求解线性系统(5) (6) (8)得到 $F^{'} (λ, e)$ 。

步骤2.5 初始化

$\tilde{ω} \leftarrow (F^{'} {(\tilde{λ}, \tilde{e})}^{T}) + (\begin{matrix} \tilde{λ} \\ \tilde{e} \end{matrix})$ 。

步骤2.6 当 $‖ L^{'} (\tilde{λ}, \tilde{e}, \tilde{ω}) ‖ < t o l$ 且 $i t e r < N$ ，进行

$λ = \tilde{λ}, e = \tilde{e}$ ，求解线性系统(7) (9)得到 $L^{″} (\tilde{λ}, \tilde{e}, \tilde{ω})$ ；

利用(16)更新 $(\tilde{λ}, \tilde{e}, \tilde{ω})$ ；

更新 $i t e r \leftarrow i t e r + 1$ ；

如果 ${‖ \frac{\partial^{(k)} Y (\tilde{λ}, \tilde{e})}{\partial λ^{(k)}} ‖}_{\infty} < δ$ ，则返回步骤2.2；

求解线性系统(6) (8)计算 $L^{'} (\tilde{λ}, \tilde{e}, \tilde{ω})$ 。

步骤2.7 如果 $i t e r = N$ ，返回失败并停止。

步骤3 验证部分。

步骤3.1 初始化 $R = L^{″} {(\tilde{λ}, \tilde{e}, \tilde{ω})}^{- 1}, Z = i n t v a l (L^{″} {(\tilde{λ}, \tilde{e}, \tilde{ω})}^{- 1} L^{'} (\tilde{λ}, \tilde{e}, \tilde{ω})), X = Z$ 及 $i t e r = 0$ 。

步骤3.2 当 $i t e r \leq 10$ ，进行

令 $i t e r \leftarrow i t e r + 1$ ；

令 $Y = h u l l (X i n f s u b (0.9, 1.1) + 10^{- 20} i n f s u p (- 1, 1), 0)$ ；

计算 $L^{″} (\tilde{λ} + Y_{1}, \tilde{e} + Y_{2 : n^{2} + 1}, \tilde{ω} + Y_{n^{2} + 2 : n^{2} + k q^{2} + 1})$ ；

令 $X = Z + (I_{n^{2} + k q^{2} + 1} - R M) Y$ ；

若 $X \subseteq int (Y)$ ，则令

${(\begin{matrix} \hat{Λ} & \hat{E} & \hat{W} \end{matrix})}^{T} = {(\begin{matrix} \tilde{λ} & \tilde{e} & \tilde{ω} \end{matrix})}^{T} + X$ 。

步骤3.3 如果 $i t e r = 10$ 或者 $O \notin \frac{\partial^{(k)} (\hat{Λ}, \hat{E})}{\partial λ^{(k)}}$ ，则输出 $\hat{Λ}, \hat{E}, k$ 和q并停止。

定理3：给定矩阵 $\tilde{A}$ 及其近似特征值 $\bar{λ}$ ，如果算法1输出 $\hat{Λ}, \hat{E}, k$ 和q，则存在 $\hat{λ} \in \hat{Λ}$ ， $\hat{e} \in \hat{E}$ 使得 $(\hat{λ}, \hat{e})$ 是优化问题(10)的局部最优解。进一步， $\hat{λ}$ 是矩阵 $\tilde{A} + \hat{E}$ 几何重数为q的亏损特征值。

证明：由定理2可知，存在 $(\hat{λ}, \hat{e}, \hat{ω}) \in (\hat{Λ}, \hat{E}, \hat{W})$ ，使得 $L^{'} (\hat{λ}, \hat{e}, \hat{ω}) = 0$ 。由引理3和命题1可知，当 $k \geq 2$ ， $\hat{λ}$ 是矩阵 $\tilde{A} + \hat{E}$ 几何重数q的亏损特征值。 □

5. 应用实例

例1给定矩阵

$A = [\begin{matrix} 3.006 & 2 & 1.005 & - 1.001 & - 0.002 & - 0.001 & - 0.001 & - 1 \\ 5 & 2 & 5 & - 1 & - 2 & - 1 & - 1 & 0 \\ - 5.006 & - 3 & - 3.005 & 2.001 & 3.002 & 2.001 & 0.001 & 2 \\ - 6 & - 1 & - 6 & 3 & 5 & 3 & 0 & 1 \\ - 5 & - 1 & - 5 & 1 & 6 & 3 & 0 & 0 \\ 1 & 0 & 1 & 0 & - 1 & 1 & 0 & 0 \\ - 4 & - 2 & - 4 & 1 & 3 & 2 & 2 & 2 \\ 5 & 0 & 5 & - 1 & - 2 & - 1 & - 1 & 2 \end{matrix}] ，$

令 $\tilde{A}$ 为

$\tilde{A} = A + 10^{- n} [\begin{matrix} 0.6294 & 0.9150 & - 0.1565 & 0.3575 & - 0.4462 & - 0.1225 & 0.4187 & 0.9195 \\ 0.8116 & 0.9298 & 0.8315 & 0.5155 & - 0.9077 & - 0.2369 & 0.5094 & - 0.3192 \\ - 0.7460 & - 0.6848 & 0.5844 & 0.4863 & - 0.8057 & 0.5310 & - 0.4479 & 0.1705 \\ 0.8268 & 0.9412 & 0.9190 & - 0.2155 & 0.6469 & 0.5904 & 0.3594 & - 0.5524 \\ 0.2647 & 0.9143 & 0.3115 & 0.3110 & 0.3897 & - 0.6263 & 0.3102 & 0.5025 \\ - 0.8049 & - 0.0292 & - 0.9286 & - 0.6576 & - 0.3658 & - 0.0205 & - 0.6748 & - 0.4898 \\ - 0.4430 & 0.6006 & 0.6983 & 0.4121 & 0.9004 & - 0.1088 & - 0.7620 & 0.0119 \\ 0.0938 & - 0.7162 & 0.8680 & - 0.9363 & - 0.9311 & 0.2926 & - 0.0033 & 0.3982 \end{matrix}] .$

对于不同的n，通过Matlab中的eig代码计算可知 $\tilde{A}$ 为单矩阵。对于不同的n和特征值 $\bar{λ} = 2.0$ 的矩阵 $\tilde{A}$ ，表1给出算法1的结果。

Table 1. The performance of Algorithm 1 for Example 1

表1. 例1中算法1的计算结果

例2设 $n \times n$ 矩阵J有一个 $m_{1} \times m_{1}$ 的约当块和一个 $(m_{2} - m_{1}) \times (m_{2} - m_{1})$ 的约当块，两个约当块都与特征值2相关，令P为随机的非奇异矩阵。令 $A = P J P^{- 1}$ ，令

$\begin{array}{l} \tilde{A} = \\ A + 10^{- 4} [\begin{matrix} 0.3840 & - 0.7455 & - 0.0570 & 0.9810 & - 0.1911 & 0.7924 & 0.2354 & - 0.9345 & 0.7623 & 0.0047 \\ - 0.2393 & 0.0260 & 0.1411 & 0.1012 & - 0.9535 & 0.6953 & - 0.0520 & - 0.3028 & 0.3942 & 0.2712 \\ 0.2910 & - 0.3717 & 0.5989 & - 0.8594 & - 0.1535 & - 0.2398 & 0.8116 & 0.4159 & - 0.9761 & 0.5773 \\ - 0.8693 & - 0.1310 & 0.1309 & - 0.8017 & - 0.6438 & - 0.4670 & 0.3047 & - 0.6064 & 0.1972 & 0.7100 \\ - 0.4320 & - 0.5132 & - 0.8087 & 0.3289 & 0.4160 & - 0.8258 & 0.9311 & - 0.0740 & 0.9080 & 0.9349 \\ 0.2940 & 0.5696 & - 0.0937 & 0.1187 & - 0.4758 & - 0.1019 & 0.7441 & - 0.3800 & - 0.0893 & - 0.9620 \\ - 0.2757 & 0.7320 & - 0.6840 & 0.7244 & 0.0309 & - 0.9836 & - 0.9540 & 0.5586 & 0.7507 & - 0.2743 \\ 0.8089 & - 0.7438 & - 0.3218 & 0.2609 & - 0.6594 & 0.9109 & - 0.3479 & - 0.4232 & - 0.8774 & - 0.5354 \\ 0.9181 & 0.5407 & - 0.9680 & 0.1162 & - 0.0441 & 0.0511 & 0.1022 & 0.0488 & 0.4116 & - 0.0816 \\ 0.1609 & - 0.5070 & 0.5487 & 0.4986 & - 0.1408 & 0.9865 & - 0.8304 & - 0.6444 & 0.7302 & - 0.6024 \end{matrix}] \end{array}$

矩阵A为亏损矩阵，但利用Matlab计算可知矩阵A经过微小摄动后所得的 $\tilde{A}$ 为单矩阵。对于给定的 $\bar{λ} = 2.0$ 和 $\tilde{A}$ ，表2给出算法1的计算结果。

Table 2. The performance of Algorithm 1 for Example 2

表2. 例2中算法1的计算结果

基金项目

吉林省自然科学基金(批准号：20180101345JC)。

NOTES

^*通讯作者。

参考文献

[1]	Kublanovskaya, V.N. (1966) On a Method of Solving the Complete Eigenvalue Problem for a Degenerate Matrix. USSR Computational Mathematics and Mathematical Physics, 6, 1-14. [Google Scholar] [CrossRef]
[2]	Ruhe, A. (1970) An Algorithm for Numerical Determination of the Structure of a General Matrix. BIT Numerical Mathematics, 10, 196-216. [Google Scholar] [CrossRef]
[3]	Sridhar, B. and Jordan, D. (1973) An Algorithm for Calculation of the Jordan Canonical form of a Matrix. Computers & Electrical Engineering, 1, 239-254. [Google Scholar] [CrossRef]
[4]	Kågström, B. and Ruhe, A. (1980) Algorithm 560: JNF an Algorithm for Numerical Computation of the Jordan Normal Form of a Complex Matrix. ACM Transactions on Mathematical Software, 6, 437-443. [Google Scholar] [CrossRef]
[5]	Demmel, J.W. (1986) Computing Stable Eigendecompositions of Matrices. Linear Algebra and Its Applications, 79, 163-193. [Google Scholar] [CrossRef]
[6]	Chatelin, F. (1986) Ill Conditioned Eigenproblems. North-Holland Mathematics Studies, 127, 267-282. [Google Scholar] [CrossRef]
[7]	Wilkinson, J.H. (1965) The Algebraic Eigenvalue Problem. Clarendon Press, Oxford.
[8]	Wilkinson, J.H. (1972) Notes on Matrices with a Very Ill-conditioned Eigenproblem. Numerische Mathematik, 19, 175-178. [Google Scholar] [CrossRef]
[9]	Wilkinson, J.H. (1984) Sensitivity of Eigenvalues. Utilitas Mathematica, 25, 5-76.
[10]	Wilkinson, J.H. (1984) On Neighbouring Matrices with Quadratic Elementary Divisors. Numerische Mathematik, 44, 1-21. [Google Scholar] [CrossRef]
[11]	Wilkinson, J.H. (1986) Sensitivity of Eigenvalues, II. Utilitas Mathematica, 30, 243-286.
[12]	Malyshev, A.N. (1999) A Formula for the 2-Norm Distance from a Matrix to the Set of Matrices with Multiple Eigenvalues. Numerische Mathematik, 83, 443-454. [Google Scholar] [CrossRef]
[13]	Lippert, R. A. and Edelman, A. (1999) The Computation and Sensitivity of Double Eigenvalues. In: Chen, Z., Li, Y., Micchelli, C.A. and Xu, Y., Eds., Advances in Computational Mathematics: Proceedings of the Guangzhou International Symposium, Dekker, New York, 353-393.
[14]	Alam, R. and Bora, S. (2005) On Sensitivity of Eigenvalues and Eigendecompositions of Matrices. Linear Algebra and Its Applications, 396, 273-301. [Google Scholar] [CrossRef]
[15]	Alam, R., Bora, S., Byers, R. and Michael, L.O. (2011) Characterization and Construction of the Nearest Defective Matrix via Coalescence of Pseudospectral Components. Linear Algebra and Its Applications, 435, 494-513. [Google Scholar] [CrossRef]
[16]	Akinola, R.O., Freitag, M.A. and Spence, A. (2014) The Calculation of the Distance to a Nearby Defective Matrix. Numerical Linear Algebra with Applications, 21, 403-414. [Google Scholar] [CrossRef]
[17]	Rump, S.M. (1999) INTLAB—Interval Laboratory. Tibor Csendes. Developments in Reliable Computing. Kluwer Academic Publishers, Dordrecht, 77-104. [Google Scholar] [CrossRef]
[18]	Golub, G.H. and Charles, F. (1996) Matrix Computations. Johns Hopkins University Press, Baltimore.
[19]	Rump, S.M. (2010) Verification Methods: Rigorous Results Using Floating-Point Arithmetic. Acta Numerica, 19, 287-449. [Google Scholar] [CrossRef]

为你推荐

友情链接