基于加权Schatten-1/2范数的低秩矩阵近似算法

doi:10.12677/PM.2021.116114

期刊菜单

基于加权Schatten-1/2范数的低秩矩阵近似算法
Weighted Schatten-1/2 Norm Minimization for Low-Rank Matrix Approximation

DOI: 10.12677/PM.2021.116114, PDF, HTML, XML,
作者: 王素：南京航空航天大学理学院数学系，江苏南京；顾颖菁：南京晓庄学院商学院，江苏南京；袁泉：南京航空航天大学理学院数学系，江苏南京；飞行器数学建模与高性能计算工业和信息化部重点实验室(南京航空航天大学)，江苏南京
关键词: 加权Schatten-1/2拟范数；低秩矩阵近似；不动点迭代算法；约化奇异值分解；非凸正则化；The Weighted Schatten-1/2 Norm； Low-Rank Matrix Approximation； Fixed Point Iterative Algorithm； Reduced Singular Value Decomposition； Non-Convex Regularization

摘要: 本文提出加权的Schatten-1/2拟范数求解低秩矩阵近似问题，该模型以加权的Schatten-1/2拟范数为目标函数，观测矩阵为约束。通过基于阈值的加权不动点迭代算法求解。该方法通过分配不同权值体现奇异值的重要性可更好地近似原来的低秩假设。另一方面，针对奇异值计算量大的问题引入约化奇异值分解。数值实验结果表明，该方法具有较快的收敛速度。

Abstract: In this paper, the low-rank matrix approximation problem is discussed with a weighted Schatten quasi-norm as the objective function, constrained by partial obtained data. The weights are in-troduced to measure the importance of different rank components. A weighted fixed point iterative thresholding algorithm is proposed based on the fixed point representation theory. The con-vergence analysis of the algorithm is provided. Numerical examples illustrate the effciency of our method.

文章引用：王素, 顾颖菁, 袁泉. 基于加权Schatten-1/2范数的低秩矩阵近似算法[J]. 理论数学, 2021, 11(6): 998-1009. https://doi.org/10.12677/PM.2021.116114

1. 引言

低秩矩阵近似的目的是提取关键信息代替或恢复原始数据。随着其在大数据处理中的明显优势以及理论的深入研究，低秩矩阵近似技术已广泛地应用于解决图像恢复 [1]、遥感技术 [2]、推荐系统 [3] 等各类实际问题。例如，在图像恢复中，灰度图像可以用低秩矩阵或近似低秩矩阵表示。但某些特殊情况可能导致图像的一些灰度值丢失，如破损照片中的划痕和污迹，图像中的文字覆盖等。因此有必要对丢失的灰度值进行还原，以恢复原始图像。Candės [4] 将低秩矩阵近似问题描述为以下优化问题

$\begin{array}{l} \min r a n k (X) \\ s . t . X_{i, j} = M_{i, j}, \forall (i, j) \in Ω \end{array}$ (1.1)

$X \in R^{m \times n}$ ， $Ω$ 表示待恢复矩阵M中可观测元素下标的集合。Candės分析了问题(1.1)的计算复杂度并证明其为NP-hard问题。随后，作为rank函数的凸包络，核范数被提出用来逼近问题(1.1)的目标函数

$\begin{array}{l} \min_{X} {‖ X ‖}_{*} \\ s . t . X_{i, j} = M_{i, j}, \forall (i, j) \in Ω \end{array}$ (1.2)

其中 ${‖ X ‖}_{*} = Σ_{k} σ_{k}$ ， $σ_{k}$ 为X的奇异值， $k = 1, \dots, r, r = \min {m, n}$ 。相关理论分析表明 [4]，相比于问题(1.1)，凸优化问题(1.2)更容易解决。

针对问题(1.2)出现了一些突破性的方法和成果 [5] [6] [7] [8]，然而，核范数需要最小化所有奇异值的和，使得近似效果不太理想 [9] [10] [11]。一般来说，较大的奇异值包含了数据矩阵的主要信息。图像灰度矩阵的较大奇异值包含了主要的边缘和纹理信息，因此处理奇异值时应小幅度收缩较大的奇异值，同时尽可能多的收缩较小的奇异值 [12]。为了更合理地度量不同奇异值的重要性，Gu [13] 提出了加权核范数模型解决问题(1.2)。加权核范数定义为 ${‖ X ‖}_{W, *} = | Σ_{k} ω_{k} σ_{k} |$ ，其中 $W = {(ω_{1}, ω_{2}, \dots, ω_{r})}^{T}$ ， $ω_{k} \geq 0$ 为奇异值 $σ_{k}$ 的非负权值， $k = 1, 2, \dots, r$ 。

在实际应用中，测量噪声普遍存在，以上方法的优化性能会下降，甚至会严重偏离初始问题(1.1)。为了更准确地逼近，非凸函数方法如 $S c h a t t e n - p (0 < p < 1)$ ( $S_{p}$ )拟范数被用来近似问题(1.1)中的目标函数

$\begin{array}{l} \min_{X} {‖ X ‖}_{p}^{p} \\ s . t . X_{i, j} = M_{i, j}, \forall (i, j) \in Ω \end{array}$ (1.3)

${‖ X ‖}_{p} = {(\sum_{k} σ_{k}^{p})}^{\frac{1}{p}}$ 。问题(1.3)可由MM (Majorization-Minimization)迭代算法 [14] 计算数值解。然而，由于目标函数非凸、非光滑、非Lipschitz连续的性质，使得解析解难以求解 [13] [15] [16] [17] [18]。另一方面，参数p的变化也会对问题(1.3)产生很大影响。文献 [19] 指出当 $p \in [\frac{1}{2}, 1)$ ，近似结果相对理想，当 $p \in [0, \frac{1}{2})$

时，结果基本不具参考性。Ding [14] 提出了问题(1.3)的一阶必要性条件，并通过解析阈值的不动点算法求解其迭代式。

基于加权核范数模型和 $S_{p}$ 拟范数，本文主要研究低秩矩阵近似模型

$\begin{array}{l} \min {‖ X ‖}_{W, S_{p}}^{p} \\ s . t . X_{i, j} = M_{i, j}, \forall (i, j) \in Ω \end{array}$ (1.4)

其中 ${‖ X ‖}_{W, S_{p}}^{p} = \sum_{k} ω_{k} σ_{k}^{p}$ 。当 $ω_{i} = 1$ 且 $p = 1$ 时，问题(1.4)退化为问题(1.2)。

论文的其他部分安排如下。在第2部分中，根据奇异值的重要性，构造相对应的权值以更好的逼近rank函数。同时指出权值对不动点迭代算法效果的影响，即当权值越小，算法的综合性能越好。第3节使用约化的SVD(singular value decomposition)以减少奇异值计算量大的问题，并给出了基于阈值的不动点迭代算法及其收敛性。第4节，对比实验验证了算法的有效性。

下面给出本文的符号说明。不失一般性，假设 $m \geq n$ 。对于给定的矩阵 $X, Y \in R^{m \times n}$ ，

$〈 X, Y 〉 = t r a c e (Y^{T} X)$ ， $t r a c e (X) = \sum_{i} X_{i, i}$ ， ${‖ X ‖}_{F} = {(\sum_{i, j} X_{i, j}^{2})}^{\frac{1}{2}} = {(\sum_{i = 1}^{n} σ_{i}^{2})}^{\frac{1}{2}}$ 。向量 $x, y \in R^{n}$ ， ${‖ x ‖}_{2} = {(\sum_{i = 1}^{n} x_{i}^{2})}^{\frac{1}{2}}$ ，

$〈 x, y 〉 = x^{T} y$ 。

2. 全局必要最优条件

为更好地刻画矩阵的低秩结构，文献 [19] 指出 $S_{\frac{1}{2}}$ 拟范数正则化具有低秩无偏理论的特点。在本节中，

取 $p = \frac{1}{2}$ ，给出加权 $S_{\frac{1}{2}}$ 拟范数正则化模型和相应的不动点迭代算法。

阈值和加权处理

假设 $M \in R^{m \times n}$ 是一个秩为r的实数矩阵， $Y \in R^{m \times n}$ 是由M的可观测元素构成的矩阵，问题(1.4)的目的是找到最小秩矩阵 $X \in R^{m \times n}$ 近似M。Ding [19] 通过引入Tikhonov正则项，将问题(1.4)描述为以下形式

$\min_{X} \frac{1}{2} {‖ P_{Ω} (X) - P_{Ω} (Y) ‖}_{F}^{2} + {‖ X ‖}_{W, S_{\frac{1}{2}}}^{\frac{1}{2}}$ (2.1)

其中 ${‖ X ‖}_{W, S_{\frac{1}{2}}}^{2} = \sum_{i = 1}^{\min {m, n}} ω_{i} δ_{i}$ ， $ω_{i}$ 为权值， $δ_{i}$ 为奇异值， $P_{Ω} (\cdot)$ 为集合 $Ω$ 的投影。

问题(2.1)的非凸和非光滑性使得问题不易求解。利用以下结论可以将问题(2.1)转化为可分离的问题进行求解。

引理1 [20] 假设 $A, B \in R^{m \times n}$ ， $σ (A) = {[σ_{1} (A), \dots, σ_{r} (A)]}^{T}, σ (B) = {[σ_{1} (B), \dots, σ_{r} (B)]}^{T}$ 分别为矩阵 $A, B$ 的奇异值，并且 $σ_{1} (A) \geq \dots \geq σ_{r} (A), σ_{1} (B) \geq \dots \geq σ_{r} (B), r = \min {m, n}$ 。

则不等式 $t r (A^{T} B) \leq t r (σ {(A)}^{T} σ (B))$ 成立当且仅当存在正交矩阵 $U \in R^{m \times r}, V \in R^{n \times r}$ ，使得

$A = U \sum_{A} V, B = U \sum_{B} V$ (2.2)

$Σ_{A}, Σ_{B}$ 分别为矩阵 $A, B$ 的奇异值矩阵。

引理2 [21] 假设 $Y \in R^{m \times n}$ ，且有 $Y = U \sum V^{T}$ ， $Σ = d i a g (σ_{1}, \dots, σ_{r}), σ_{1} \geq σ_{2} \geq \dots \geq σ_{r},$ $r = \min {m, n}$ 。问题(2.1)最优解的SVD为 $X = U Δ V^{T}$ ，其中 $Δ = d i a g (δ_{1}, \dots, δ_{r})$ ， $δ_{i} \geq δ_{j}$ ， $i \geq j$ 。 $δ_{i}$ 是如下优化问题的解

$\begin{array}{l} \min_{δ_{1}, \dots, δ_{r}} \sum_{i}^{r} [{(δ_{i} - σ_{i})}^{2} + ω_{i} δ_{i}^{\frac{1}{2}}] \\ s . t . δ_{i} \geq 0, δ_{i} \geq δ_{j}, i \leq j, i = 1, \dots, r \end{array}$ (2.3)

引理1和引理2表明问题(2.1)可以转化为可分离问题(2.3)求解。对于问题(2.3)，讨论其一般项的求解。为文章的完整性起见，将文献 [19] 的证明整理如下。

引理3假设 $y \in R^{n}, λ > 0,$ 令 $f_{λ} (x) : = {(x - y)}^{2} + λ x^{\frac{1}{2}}$ 。问题

$h_{λ} (y) = \underset{x \geq 0}{\arg \min} {f_{λ} (x)}$ (2.4)

的解可以表示为

$h_{λ} (y) = {\begin{matrix} h_{λ} (y), y > \frac{3}{4} λ^{\frac{2}{3}} \\ 0, y > \frac{3}{4} λ^{\frac{2}{3}} \end{matrix}$ (2.5)

其中

$h_{λ} (y) = \frac{2}{3} y (1 + \cos (\frac{2 π}{3} - \frac{2}{3} Φ_{λ} (y)))$ (2.6)

$Φ_{λ} (y) = \arccos (\frac{λ}{8} {(\frac{y}{3})}^{- \frac{3}{2}})$ (2.7)

证明： $\forall y \in R^{n}$ ， ${‖ y ‖}_{\frac{1}{2}}^{\frac{1}{2}}$ 是连续可微的。令 $f_{λ} (x)$ 的一阶导数为零

$y_{i} - x_{i} + λ \frac{s i g n (y_{i})}{4 \sqrt{| y_{i} |}} = 0$ (2.8)

当且仅当 $x > 0$ 时，(2.8)有非负解， $x \leq 0$ 时， $f_{λ} (x)$ 有唯一解 $x = 0$ 。因此，仅考虑 $x > 0$ 的情况。

令 $\sqrt{| y_{i} |} = η, y_{i} = η^{2}$ 。当 $x_{i} > \frac{3}{4} λ^{\frac{2}{3}}$ 时，有

$η^{3} - x_{i} η + \frac{λ}{4} = 0$ (2.9)

假设 $r = \sqrt{\frac{| x_{i} |}{3}}, q = \frac{λ}{8}, Φ = \arccos (\frac{q}{3}),$ (2.9)的三个解可以表示为： $η_{1} = - 2 r \cos (\frac{Φ}{3}),$

$η_{2} = 2 r \cos (\frac{π}{3} + \frac{Φ}{3}),$ $η_{3} = 2 r \cos (\frac{π}{3} - \frac{Φ}{3})$ [11]。经验证， $η_{3} = 2 r \cos (\frac{π}{3} - \frac{Φ}{3})$ 是问题(2.4)的最优解，且解

的形式为

$y_{i} = \frac{2}{3} x_{i} (1 + \cos (\frac{2 π}{3} - \frac{2}{3} λ Φ_{λ} (x_{i})))$ (2.10)

当 $x_{i} > \frac{3}{4} λ^{\frac{2}{3}}$ 时，证明与上述类似。

定义1 $\forall λ > 0$ , 向量阈值函数定义为

$H_{λ} (x) : = (h_{λ} (x_{1}), h_{λ} (x_{2}), \dots, h_{λ} (x_{n})), \forall x = (x_{1}, x_{2}, \dots, x_{n}) \in R^{n}$ (2.11)

$h_{λ} (x)$ 的形式如(2.5)所示。

假设秩为 $r$ 的矩阵 $Y \in R^{m \times n}$ 的SVD为 $Y = U \sum V^{T}$ ， $U \in R^{m \times r} 、 V \in R^{n \times r}$ 均为列正交矩阵， $Σ \in R^{r \times r}$ 为奇异值非增的对角矩阵。

对 $\forall λ > 0$ ，由向量阈值函数可以定义矩阵阈值函数

$Η_{λ} (Y) : = U \sum_{H_{λ}} V^{T}$ (2.12)

$Σ_{H_{λ}} = d i a g (H_{λ} (σ_{1}), \dots, H_{λ} (σ_{r}))$ 。因此，问题(2.1)可以由矩阵阈值函数求解。本节的后续内容将会介绍由(2.12)表示的问题(2.1)解的形式以及权重对奇异值的影响。

引理3给出了当矩阵维数为1时的解的情况，现在考虑矩阵 $Y \in R^{m \times n}$ 。

定理1当且仅当权重满足 $0 \leq ω_{1} \leq \dots \leq ω_{r}$ 时，问题(2.1)最优解的奇异值满足 $δ_{1} \geq \dots \geq δ_{r}$ 。

证明：由引理2和引理3，问题(2.1)可分离出子问题

$f_{δ} (x) : = {(σ - δ)}^{2} + ω δ^{\frac{1}{2}}$ (2.13)

文献 [19] 指出， $f_{δ} (x)$ 有唯一解 $h_{ω} (δ)$ 。

首先，证明当 $ω_{i} < ω_{j}$ 时，有 $h_{ω_{i}} \geq h_{ω_{j}}$ 。

当 $y < \frac{3}{4} ω_{i}^{\frac{2}{3}}$ 且 $y < \frac{3}{4} ω_{j}^{\frac{2}{3}}$ 时，由(2.5)，有 $h_{ω_{i}} = h_{ω_{j}} = 0$ 。结论 $h_{ω_{i}} \geq h_{ω_{j}}$ 成立。

当 $y > \frac{3}{4} ω_{i}^{\frac{2}{3}}$ 且 $y < \frac{3}{4} ω_{j}^{\frac{2}{3}}$ 时，显然有 $h_{ω_{j}} = 0$ 。另一方面，由引理3的证明，当 $y > 0$ 时有 $h_{ω_{i}} > 0$ 。因此，结论 $h_{ω_{i}} \geq h_{ω_{j}}$ 成立。

当 $y > \frac{3}{4} ω_{i}^{\frac{2}{3}}$ 且 $y > \frac{3}{4} ω_{j}^{\frac{2}{3}}$ 时，通过函数 $h_{ω} (δ)$ 的单调性证明结论。因为 $y > \frac{3}{4} ω^{\frac{2}{3}}$ ，且 $\frac{ω}{8} {(\frac{x}{3})}^{- \frac{2}{3}} \in (0, 1)$ ，则由(2.7)可得 $Φ_{ω} (y) \in (0, \frac{π}{2})$ ，由此可得函数 $\cos (\frac{2}{3} - \frac{2}{3} Φ_{ω} (y))$ 单调递减。因此， $h_{ω_{i}} \geq h_{ω_{j}}$ 成立。

然后，对给定 $ω > 0$ ，以下不等式显然成立

$\frac{2}{3} y_{i} (1 + \cos (\frac{2 π}{3} - \frac{2}{3} Φ)) > \frac{2}{3} y_{j} (1 + \cos (\frac{2 π}{3} - \frac{2}{3} Φ)), \forall y_{i} > y_{j}$ .

综合两方面的证明，可以得到结论

$h_{ω_{i}} (y_{i}) \geq h_{ω_{j}} (y_{j}), \forall ω_{i} < ω_{j}, y_{i} > y_{j}$ .

证毕。

文献 [14] [22] 将矩阵问题转化为易于求解的向量问题，同时表明非凸问题可以用阈值法解决。

引理4 [14] 令 $λ > 0$ ，假设秩为 $r$ 的矩阵 $Y \in R^{m \times n}$ 的SVD为 $Y = U \sum_{Y} V^{T}$ ，对应的矩阵阈值函数为

$Η_{λ} (Y) : = U \sum_{H_{λ} (σ)} V^{T}$ (2.14)

则

$Η_{λ} (Y) : = \underset{X \in R^{m \times n}}{\arg \min} {{‖ X - Y ‖}_{F}^{2} + λ {‖ X ‖}_{\frac{1}{2}}^{\frac{1}{2}}}$ (2.15)

3. 最优算法及其收敛性分析

本节将给出非凸、非光滑和非Lipschitz连续的 $S_{\frac{1}{2}}$ 拟范数正则化问题全局最优解的不动点表示理论。 $\forall μ > 0, Z \in R^{m \times n}$ ，定义

$\begin{array}{l} C_{W} (X) : = {‖ P_{Ω} (X) - P_{Ω} (Y) ‖}_{F}^{2} + {‖ X ‖}_{W, \frac{1}{2}}^{\frac{1}{2}} \\ C_{W, μ} : = μ (C_{W} (X) - {‖ P_{Ω} (X) - P_{Ω} (Z) ‖}_{F}^{2}) + {‖ X - Z ‖}_{F}^{2} . \\ B_{μ} (Z) : = Z + μ (P_{Ω} (Y) - P_{Ω} (X^{*})) \end{array}$ (3.1)

定理2对 $\forall ω_{i}, μ > 0$ ，假设正则化模型(2.1)的最优解为 $X^{*}$ 。令

$B_{μ} (X^{*}) : = X^{*} + μ (P_{Ω} (Y) - P_{Ω} (X^{*}))$

且 $B_{μ} (X^{*})$ 的SVD为

$U^{*} \sum_{B_{μ} (X^{*})} {(V^{*})}^{T}$

则

$X^{*} \in Η_{W} (B_{μ} (X^{*}))$ (3.2)

因此，最优解的第i个奇异值为

$σ_{i} (X^{*}) = {\begin{matrix} h_{ω_{i} μ, \frac{1}{2}} (σ_{i} (B_{μ} (X^{*}))), σ_{i} (B_{μ} (X^{*})) > \frac{\sqrt[3]{54}}{4} {(ω_{i} μ)}^{\frac{2}{3}} \\ 0, σ_{i} (B_{μ} (X^{*})) \leq \frac{\sqrt[3]{54}}{4} {(ω_{i} μ)}^{\frac{2}{3}} \end{matrix}$ (3.3)

其中

$h_{ω_{i}} (y) = {\begin{matrix} h_{ω_{i} μ, \frac{1}{2}} (σ_{i}) ， σ_{i} > \frac{\sqrt[3]{54}}{4} {(ω_{i} μ)}^{\frac{2}{3}} \\ 0 ， σ_{i} \leq \frac{\sqrt[3]{54}}{4} {(ω_{i} μ)}^{\frac{2}{3}} \end{matrix}$ (3.4)

$h_{ω_{i} ， \frac{1}{2}} (σ_{i}) = \frac{2}{3} y (1 + \cos (\frac{2 π}{3} - \frac{2}{3} Φ_{ω_{i}}))$ (3.5)

$Φ_{ω_{i}} (y) = \arccos (\frac{ω_{i} μ}{8} {(\frac{y}{\sqrt[3]{54}})}^{- \frac{2}{3}})$ (3.6)

证明：

$\begin{matrix} C_{W, μ} (X, Z) : = μ (C_{W} (X) - {‖ P_{Ω} (X) - P_{Ω} (Z) ‖}_{F}^{2}) + {‖ X - Z ‖}_{F}^{2} \\ = ‖ X ‖ - 2 〈 X, Z + μ (P_{Ω} (Y) - P_{Ω} (Z)) 〉 + μ {‖ X ‖}_{W, S_{\frac{1}{2}}}^{\frac{1}{2}} \\ + ‖ Z ‖ + μ {‖ P_{Ω} (Y) ‖}_{F}^{2} - μ {‖ P_{Ω} (Z) ‖}_{F}^{2} \end{matrix}$

$\begin{matrix} = ‖ X ‖ - 2 〈 X, B_{μ} (Z) 〉 + μ {‖ X ‖}_{W, S_{\frac{1}{2}}}^{\frac{1}{2}} \\ + ‖ Z ‖ + μ {‖ P_{Ω} (Y) ‖}_{F}^{2} - μ {‖ P_{Ω} (Z) ‖}_{F}^{2} \\ = {‖ X - B_{μ} (Z) ‖}_{F}^{2} + μ {‖ X ‖}_{W, S_{\frac{1}{2}}}^{\frac{1}{2}} + ‖ Z ‖ \\ + μ {‖ P_{Ω} (Y) ‖}_{F}^{2} - μ {‖ P_{Ω} (Z) ‖}_{F}^{2} - {‖ B_{μ} (Z) ‖}_{F}^{2} \end{matrix}$ (3.7)

(3.7)的最后一个等式表明，最小化 $C_{W, μ} (X, Z)$ 相当于求解问题

$\min_{X \in R^{m \times n}} {{‖ X - B_{μ} (Z) ‖}_{F}^{2} + μ {‖ X ‖}_{W, S_{\frac{1}{2}}}^{\frac{1}{2}}} .$ (3.8)

假设 $X^{*}$ 是 $C_{W} (X)$ 的全局最优解，由文献 [11] 可知， $X^{*}$ 也是 $C_{W, μ} (X, X^{*})$ 的全局最优解。显然(3.2)成立。

类似于问题(2.3)的求解方法，问题(3.8)可分离的求解

$\min {x_{i}^{2} - 2 x_{i} {[B_{μ} (Z)]}_{i} + μ ω_{i} {| x_{i} |}^{2}}$ (3.9)

令(3.9)函数的一阶导数为0

$x_{i}^{2} - {[B_{μ} (Z)]}_{i} + μ ω_{i} \frac{sign (x_{i})}{4 \sqrt{| x_{i} |}} = 0$ (3.10)

由引理3的证明， ${[B_{μ} (Z)]}_{i}$ 满足不等式 ${[B_{μ} (Z)]}_{i} > \frac{3}{4} {(ω_{i} μ)}^{\frac{2}{3}}$ 。文献 [11] 表明只需比较 $f_{ω_{i}} (h_{ω_{i}, \frac{1}{2}})$ 和 $f_{ω_{i}} (0)$ 即可得到原问题的最优解。经验证，当且仅当 $| {[B_{μ} (Z)]}_{i} | \leq \frac{\sqrt[3]{54}}{4} {(ω_{i} μ)}^{\frac{2}{3}}$ 时有 $f_{ω_{i}} (h_{ω_{i}, \frac{1}{2}}) \leq f_{ω_{i}} (0)$ 。后

续证明与引理3类似。

证毕。

定理2给出了问题(1.4)最优解的形式。以上证明表示可以用阈值不动点迭代算法求解非凸、非光滑、非Lipschitz问题(1.4)。不动点算法的基本框架描述如下。

优化问题的结果取决于正则化参数的选择，即权重向量。将第k次迭代的 $ω_{i}$ 取为

$ω_{i} = \frac{\sqrt{96}}{9 μ_{0}} {({[σ (X_{k})]}_{r_{k}})}^{\frac{3}{2}}$ (3.11)

$r_{k}$ 表示矩阵 $X_{k}$ 的秩。为延续 $ω_{k}$ 的取值，将向量 $ω_{k}$ 更新为

$ω_{k + 1} = \max {\bar{λ}, \min {η ω_{k,} \frac{\sqrt{96}}{9 μ_{0}} {({[σ (X_{k})]}_{r_{k}})}^{\frac{3}{2}}}}$ (3.12)

其中 $η \in (0, 1)$ 为常数， $\bar{λ}$ 为足够小的正实数。显然序列 ${ω_{k}}$ 单调减小且收敛。采用延续技术改进的不动点算法如算法2所示。

在算法2中，主要的计算量来自奇异值分解。Drineas [23] 提出了一种近似的SVD算法代替传统的SVD以减少计算成本，完整的阈值不动点迭代算法如算法3所示。

下面给出算法3的收敛性分析。

引理5 [19] 给定 $λ > 0, μ \in (0, 1]$ ， ${X_{k}}$ 为(3.2)生成的序列，则

(1) 假设 $X^{*}$ 为 ${X_{k}}$ 的任一聚点，则 $C_{λ} (X_{k})$ 单调递减收敛于 $C_{λ} (X^{*})$ ，

(2) $X_{k}$ 是渐进正则的，即 $\lim_{k \to \infty} ‖ X_{k + 1} - X_{k} ‖ = 0$ ，

(3) ${X_{k}}$ 的任一聚点均为问题(1.4)的全局最优解。

4. 实验结果与分析

在本节中，WHFPA的有效性将通过一些实验来说明。

在WHFPA和HFPA (基于阈值的不动点迭代算法)中，终止准则取为

$\frac{{‖ X_{k + 1} - X_{k} ‖}_{F}}{\max {1, {‖ X_{k} ‖}_{F}}} < x t o l,$

评估WHPFA和HFPA结果X与原始矩阵M之间的接近度

$r e l : = \frac{{‖ M - \bar{X} ‖}_{F}}{{‖ M ‖}_{F}} .$

在约化SVD算法中，设置样本cs的个数随矩阵的秩而变化。另外，初始矩阵 $X_{0}$ 由矩阵可观测元素组成，初始权值 $W_{0}$ 设为初始矩阵 $X_{0}$ 的奇异值。生成随机矩阵的方法如下。随机生成秩为r的矩阵

$M_{L} \in R^{m \times r}$ ， $M_{R} \in R^{n \times r}$ ，则 $M = M_{L} M_{R}^{T}$ 。 $S R = \frac{p}{m n}$ 为采样比，p是采样数。此外，对于矩阵类型的定义 [19] 如下。一个矩阵称为“简单”的满足： $\frac{p}{r (m + n - r)} \times S R > 0.5$ ， $\frac{p}{r (m + n - r)} > 2.6$ ，“复杂”矩阵定义为 $\frac{p}{r (m + n - r)} \times S R \leq 0.5$ ， $\frac{p}{r (m + n - r)} \leq 2.6$ 。

由于 $S_{\frac{1}{2}}$ 阈值不动点迭代算法比SVP (Singular Value Projection) [24]，MSS (Muti-Schatten p norm Surrogate) [25]，SVT [26] (Singular Vaule Thresholding)等方法更有效 [19]，其中SVT解决的是秩最小化问题，SVP用于Tikhonov正则化问题，MSS用于解决Schatten-p正则化问题。本文只比较HFPA和WHFPA两种方法，与其他方方法的比较不再赘述。在相同的测试环境下，算法时间越短，准确率越高，效果越好。给出了各矩阵在维数、秩和抽样比上结果的差异。

4.1. 相同的尺寸，不同的抽样比和等级

取m = n = 100，设xtol = 10⁻⁶，矩阵M的秩r从8增加到20，采样比SR分别为0.307、0.451、0.589、0.720。

对于每个子问题，随机生成100个矩阵进行测试，结果如表1所示。在约化SVD算法中设置cs = 35，μ = 0.9。实验结果表明，HFPA和WHFPA的精度相似，在10⁻⁶左右。在时间上，WHFPA将会比HFPA整体短一些。一般来说，两种方法相比，在维数小且矩阵为“困难”的情况下，WHFPA比HFPA更有效。

Table 1. Comparison of HFPA and WHFPA for randomly created small but hard matrices (m = n = 100, r = 8:4:20, xtol = 10−6)

表1. HFPA和WHFPA关于随机矩阵的比较m = n = 100, r = 8:4:20, xtol = 10⁻⁶)

4.2. 相同的采样比，不同的维度和等级

我们将维数从500增加到2000，采样比为0.570，取xtol = 10⁻⁴。

随机生成100个矩阵进行测试，最终得到如下结果，详见表2。在表2中，设置μ = 0.24，在约化SVD中设置可变参数cs。HFPA和WHFPA的精度相似，在10⁻⁴左右。在时间上，维数越大，WHFPA与HFPA差距越明显。两种方法相比，在维数大且矩阵为“困难”的情况下，WHFPA比HFPA更有效。

Table 2. Comparison of HFPA and WHFPA for randomly created large but hard matrices (SR = 0.570, xtol = 10−4)

表2. HFPA和WHFPA关于随机矩阵的比较(SR = 0.570, xtol = 10⁻⁴)

4.3. 有噪声的随机矩阵

假设带噪声的矩阵定义为

$B_{i j} = M_{i j} + Z_{i j}$

其中，矩阵 $Z \in R^{m \times n}$ 是方差为 $σ$ ，零均值的高斯矩阵。设置μ = 0.9，分别在方差10⁻²和10⁻¹的噪声矩阵下进行试验，矩阵维数设置为m = n = 1000，取xtol = 10⁻⁴。实验数据详见表3。WHFPA比HFPA的精度好，在10⁻⁴左右。在时间上，HFPA是WHFPA的2倍。两种方法相比，在有噪声的情况下，WHFPA比HFPA更有效。

Table 3. Comparison of HFPA and WHFPA for randomly created noise disturbance matrices (m = n = 1000, xtol = 10−4)

表3. HFPA和WHFPA关于有噪声随机矩阵的比较(m = n = 1000, xtol = 10⁻⁴)

5. 结论

本文利用 $S_{\frac{1}{2}}$ 拟范数正则化方法，提出了一种基于奇异值贡献度的权重处理方法。针对非凸、非光滑、非Lipschitz优化问题，首先给出了阈值不动点迭代算法中权值对奇异值的影响，然后给出了经过延续处理以及约化奇异值分解的改进算法。实验结果表明，WHFPA性能优于HFPA，说明了算法的有效性。

参考文献

[1]	Li, W., Zhao, L. and Lin, Z. (2015) Non-Local Image Inpainting Using Low-Rank Matrix Completion. Computer Graphics Forum, 34, 111-122. [Google Scholar] [CrossRef]
[2]	Candes, E.J. and Recht, B. (2009) Exact Matrix Completion via Convex Optimization. Foundations of Computational Mathematics, 9, 717-772. [Google Scholar] [CrossRef]
[3]	Gogna, A. and Majumdar, A. (2015) Matrix Completion Incor-porating Auxiliary Information for Recommender System Design. Expert Systems with Applications, 42, 5789-5799. [Google Scholar] [CrossRef]
[4]	Candes, E.J. and Emmanuel, J. (2010) The Power of Convex Relaxation: Near-Optimal Matrix Completion. IEEE Transactions on Information Theory, 56, 2053-2080. [Google Scholar] [CrossRef]
[5]	Candes, E.J. and Recht, B. (2009) Exact Matrix Completion via Convex Optimization. Foundations of Computational Mathematics, 9, 717-772. [Google Scholar] [CrossRef]
[6]	Recht, B., Fazel, M. and Parrilo, P.A. (2010) Guaranteed Mini-mum-Rank Solutions of Linear Matrix Equations via Nuclear Norm Minimization. SIAM Review, 52, 471-501. [Google Scholar] [CrossRef]
[7]	Hu, Y., Zhang, D. and Ye, J. (2013) Fast and Accurate Matrix Completion via Truncated Nuclear Norm Regularization. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35, 2117-2130. [Google Scholar] [CrossRef]
[8]	Zhang, D., Hu, Y. and Ye, J. (2013) Matrix Completion by Trun-cated Nuclear Norm Regularization. IEEE Conference on Computer Vision and Pattern Recognition, Vol. 35, 2192-2199.
[9]	Candes, E.J. and Plan, Y. (2010) Matrix Completion with Noise. Proceedings of the IEEE, 98, 925-936. [Google Scholar] [CrossRef]
[10]	Koltchinskii, V., Lounici, K. and Tsybakov, A.B. (2011) Nu-clear-Norm Penalization and Optimal Rates for Noisy Low-Rank Matrix Completion. The Annals of Statistics, 39, 2302-2329. [Google Scholar] [CrossRef]
[11]	Xu, Z., Chang, X., Xu, F. and Zhang, H. (2012) Regu-larization: A Thresholding Representation Theory and a Fast Solver. IEEE Transactions on Neural Networks and Learning Systems, 23, 1013-1027. [Google Scholar] [CrossRef]
[12]	Gu, S., Zhang, L. and Zuo, W. (2014) Weighted Nuclear Norm Minimization with Application to Image Denoising. 2014 IEEE Conference on Computer Vision and Pattern Recognition, Vol. 1, 2862-2869. [Google Scholar] [CrossRef]
[13]	Oliveira, J.P., Bioucas-Dias, J.M. and Figueiredo, M.A.T. (2009) Adaptive Total Variation Image Deblurring: A Majorization Minimization Approach. Signal Processing, 89, 1683-1693. [Google Scholar] [CrossRef]
[14]	Lu, Z., Zhang, Y. and Liu, X. (2015) Penalty Decomposition Methods for Rank Minimization. Optimization Methods and Software, 30, 531-558. [Google Scholar] [CrossRef]
[15]	Lai, M., Xu, Y. and Yin, W. (2013) Improved Iteratively Reweighted Least Squares for Unconstrained Smoothed Minimization. SIAM Journal on Numerical Analysis, 51, 927-957. [Google Scholar] [CrossRef]
[16]	Mohan, K. and Fazel, M. (2012) Iterative Reweighted Algo-rithms for Matrix Rank Minimization. Journal of Machine Learning Research, 13, 3441-3473.
[17]	Rao, G., Peng, Y. and Xu, Z. (2013) Robust Sparse and Low-Rank Matrix Decomposition Based on the Modeling. Science Chi-na-Information Sciences, 43, 733-748.
[18]	Xu, Z.B., Guo, H., Wang, Y. and Zhang, H. (2012) The Representation of Regularizer among Regularizer: An Experimental Study Based on Phase Diagram. Acta Automatica Sinica, 38, 1225-1228. [Google Scholar] [CrossRef]
[19]	Peng, D., Xiu, N. and Yu, J. (2017) Regularization Methods and Fixed Point Algorithms for Affine Rank Minimization Problems. Computational Optimization and Ap-plications, 67, 543-569. [Google Scholar] [CrossRef]
[20]	Mirsky, L. (1975) A Trace Inequality of John von Neumann. Monatshefte für Mathematik, 79, 303-306. [Google Scholar] [CrossRef]
[21]	Xie, Y., Gu, S. and Liu, Y. (2016) Weighted Schatten p-Norm Mini-mization for Image Denoising and Background Subtraction. IEEE Transactions on Image Processing, 25, 4842-4857. [Google Scholar] [CrossRef]
[22]	Ma, S., Goldfarb, D. and Chen, L. (2011) Fixed Point and Bregman Iterative Methods for Matrix Rank Minimization. Mathematical Programming, 128, 321-353. [Google Scholar] [CrossRef]
[23]	Drineas, P., Kannan, R. and Mahoney, M.W. (2006) Fast Monte Carlo Algorithms for Matrices q: Computing Low-Rank Approximations to a Matrix. SIAM Journal on Computing, 36, 158-183. [Google Scholar] [CrossRef]
[24]	Jain, P., Meka, R. and Dhillon, I. (2010) Guaranteed Rank Minimization via Singular Value Projection. Proceedings of the Advances in Neural Information Processing Systems, Vol. 1, 937-945.
[25]	Cai, J.F., Candes, E.J. and Shen, Z.W. (2010) A Singular Value Thresholding Algo-rithm for Matrix Completion. SIAM Journal on Optimization, 20, 1956-1982. [Google Scholar] [CrossRef]
[26]	Xu, C., Lin, Z.C. and Zha, H.B. (2017) A Unified Convex Surrogate for the Schatten-p Norm. Proceedings of the Thirty- First AAAI Conference on Artificial Intelligence, Vol. 25, 926-932.

为你推荐

友情链接