1. 引言
低秩矩阵近似的目的是提取关键信息代替或恢复原始数据。随着其在大数据处理中的明显优势以及理论的深入研究,低秩矩阵近似技术已广泛地应用于解决图像恢复 [1]、遥感技术 [2]、推荐系统 [3] 等各类实际问题。例如,在图像恢复中,灰度图像可以用低秩矩阵或近似低秩矩阵表示。但某些特殊情况可能导致图像的一些灰度值丢失,如破损照片中的划痕和污迹,图像中的文字覆盖等。因此有必要对丢失的灰度值进行还原,以恢复原始图像。Candės [4] 将低秩矩阵近似问题描述为以下优化问题
(1.1)
,
表示待恢复矩阵M中可观测元素下标的集合。Candės分析了问题(1.1)的计算复杂度并证明其为NP-hard问题。随后,作为rank函数的凸包络,核范数被提出用来逼近问题(1.1)的目标函数
(1.2)
其中
,
为X的奇异值,
。相关理论分析表明 [4],相比于问题(1.1),凸优化问题(1.2)更容易解决。
针对问题(1.2)出现了一些突破性的方法和成果 [5] [6] [7] [8],然而,核范数需要最小化所有奇异值的和,使得近似效果不太理想 [9] [10] [11]。一般来说,较大的奇异值包含了数据矩阵的主要信息。图像灰度矩阵的较大奇异值包含了主要的边缘和纹理信息,因此处理奇异值时应小幅度收缩较大的奇异值,同时尽可能多的收缩较小的奇异值 [12]。为了更合理地度量不同奇异值的重要性,Gu [13] 提出了加权核范数模型解决问题(1.2)。加权核范数定义为
,其中
,
为奇异值
的非负权值,
。
在实际应用中,测量噪声普遍存在,以上方法的优化性能会下降,甚至会严重偏离初始问题(1.1)。为了更准确地逼近,非凸函数方法如
(
)拟范数被用来近似问题(1.1)中的目标函数
(1.3)
。问题(1.3)可由MM (Majorization-Minimization)迭代算法 [14] 计算数值解。然而,由于目标函数非凸、非光滑、非Lipschitz连续的性质,使得解析解难以求解 [13] [15] [16] [17] [18]。另一方面,参数p的变化也会对问题(1.3)产生很大影响。文献 [19] 指出当
,近似结果相对理想,当
时,结果基本不具参考性。Ding [14] 提出了问题(1.3)的一阶必要性条件,并通过解析阈值的不动点算法求解其迭代式。
基于加权核范数模型和
拟范数,本文主要研究低秩矩阵近似模型
(1.4)
其中
。当
且
时,问题(1.4)退化为问题(1.2)。
论文的其他部分安排如下。在第2部分中,根据奇异值的重要性,构造相对应的权值以更好的逼近rank函数。同时指出权值对不动点迭代算法效果的影响,即当权值越小,算法的综合性能越好。第3节使用约化的SVD(singular value decomposition)以减少奇异值计算量大的问题,并给出了基于阈值的不动点迭代算法及其收敛性。第4节,对比实验验证了算法的有效性。
下面给出本文的符号说明。不失一般性,假设
。对于给定的矩阵
,
,
,
。向量
,
,
。
2. 全局必要最优条件
为更好地刻画矩阵的低秩结构,文献 [19] 指出
拟范数正则化具有低秩无偏理论的特点。在本节中,
取
,给出加权
拟范数正则化模型和相应的不动点迭代算法。
阈值和加权处理
假设
是一个秩为r的实数矩阵,
是由M的可观测元素构成的矩阵,问题(1.4)的目的是找到最小秩矩阵
近似M。Ding [19] 通过引入Tikhonov正则项,将问题(1.4)描述为以下形式
(2.1)
其中
,
为权值,
为奇异值,
为集合
的投影。
问题(2.1)的非凸和非光滑性使得问题不易求解。利用以下结论可以将问题(2.1)转化为可分离的问题进行求解。
引理1 [20] 假设
,
分别为矩阵
的奇异值,并且
。
则不等式
成立当且仅当存在正交矩阵
,使得
(2.2)
分别为矩阵
的奇异值矩阵。
引理2 [21] 假设
,且有
,
。问题(2.1)最优解的SVD为
,其中
,
,
。
是如下优化问题的解
(2.3)
引理1和引理2表明问题(2.1)可以转化为可分离问题(2.3)求解。对于问题(2.3),讨论其一般项的求解。为文章的完整性起见,将文献 [19] 的证明整理如下。
引理3假设
令
。问题
(2.4)
的解可以表示为
(2.5)
其中
(2.6)
(2.7)
证明:
,
是连续可微的。令
的一阶导数为零
(2.8)
当且仅当
时,(2.8)有非负解,
时,
有唯一解
。因此,仅考虑
的情况。
令
。当
时,有
(2.9)
假设
(2.9)的三个解可以表示为:
[11]。经验证,
是问题(2.4)的最优解,且解
的形式为
(2.10)
当
时,证明与上述类似。
定义1
, 向量阈值函数定义为
(2.11)
的形式如(2.5)所示。
假设秩为
的矩阵
的SVD为
,
均为列正交矩阵,
为奇异值非增的对角矩阵。
对
,由向量阈值函数可以定义矩阵阈值函数
(2.12)
。因此,问题(2.1)可以由矩阵阈值函数求解。本节的后续内容将会介绍由(2.12)表示的问题(2.1)解的形式以及权重对奇异值的影响。
引理3给出了当矩阵维数为1时的解的情况,现在考虑矩阵
。
定理1当且仅当权重满足
时,问题(2.1)最优解的奇异值满足
。
证明:由引理2和引理3,问题(2.1)可分离出子问题
(2.13)
文献 [19] 指出,
有唯一解
。
首先,证明当
时,有
。
当
且
时,由(2.5),有
。结论
成立。
当
且
时,显然有
。另一方面,由引理3的证明,当
时有
。因此,结论
成立。
当
且
时,通过函数
的单调性证明结论。因为
,且
,则由(2.7)可得
,由此可得函数
单调递减。因此,
成立。
然后,对给定
,以下不等式显然成立
.
综合两方面的证明,可以得到结论
.
证毕。
文献 [14] [22] 将矩阵问题转化为易于求解的向量问题,同时表明非凸问题可以用阈值法解决。
引理4 [14] 令
,假设秩为
的矩阵
的SVD为
,对应的矩阵阈值函数为
(2.14)
则
(2.15)
3. 最优算法及其收敛性分析
本节将给出非凸、非光滑和非Lipschitz连续的
拟范数正则化问题全局最优解的不动点表示理论。
,定义
(3.1)
定理2对
,假设正则化模型(2.1)的最优解为
。令
且
的SVD为
则
(3.2)
因此,最优解的第i个奇异值为
(3.3)
其中
(3.4)
(3.5)
(3.6)
证明:
(3.7)
(3.7)的最后一个等式表明,最小化
相当于求解问题
(3.8)
假设
是
的全局最优解,由文献 [11] 可知,
也是
的全局最优解。显然(3.2)成立。
类似于问题(2.3)的求解方法,问题(3.8)可分离的求解
(3.9)
令(3.9)函数的一阶导数为0
(3.10)
由引理3的证明,
满足不等式
。文献 [11] 表明只需比较
和
即可得到原问题的最优解。经验证,当且仅当
时有
。后
续证明与引理3类似。
证毕。
定理2给出了问题(1.4)最优解的形式。以上证明表示可以用阈值不动点迭代算法求解非凸、非光滑、非Lipschitz问题(1.4)。不动点算法的基本框架描述如下。
优化问题的结果取决于正则化参数的选择,即权重向量。将第k次迭代的
取为
(3.11)
表示矩阵
的秩。为延续
的取值,将向量
更新为
(3.12)
其中
为常数,
为足够小的正实数。显然序列
单调减小且收敛。采用延续技术改进的不动点算法如算法2所示。
在算法2中,主要的计算量来自奇异值分解。Drineas [23] 提出了一种近似的SVD算法代替传统的SVD以减少计算成本,完整的阈值不动点迭代算法如算法3所示。
下面给出算法3的收敛性分析。
引理5 [19] 给定
,
为(3.2)生成的序列,则
(1) 假设
为
的任一聚点,则
单调递减收敛于
,
(2)
是渐进正则的,即
,
(3)
的任一聚点均为问题(1.4)的全局最优解。
4. 实验结果与分析
在本节中,WHFPA的有效性将通过一些实验来说明。
在WHFPA和HFPA (基于阈值的不动点迭代算法)中,终止准则取为
评估WHPFA和HFPA结果X与原始矩阵M之间的接近度
在约化SVD算法中,设置样本cs的个数随矩阵的秩而变化。另外,初始矩阵
由矩阵可观测元素组成,初始权值
设为初始矩阵
的奇异值。生成随机矩阵的方法如下。随机生成秩为r的矩阵
,
,则
。
为采样比,p是采样数。此外,对于矩阵类型的定义 [19] 如下。一个矩阵称为“简单”的满足:
,
,“复杂”矩阵定义为
,
。
由于
阈值不动点迭代算法比SVP (Singular Value Projection) [24],MSS (Muti-Schatten p norm Surrogate) [25],SVT [26] (Singular Vaule Thresholding)等方法更有效 [19],其中SVT解决的是秩最小化问题,SVP用于Tikhonov正则化问题,MSS用于解决Schatten-p正则化问题。本文只比较HFPA和WHFPA两种方法,与其他方方法的比较不再赘述。在相同的测试环境下,算法时间越短,准确率越高,效果越好。给出了各矩阵在维数、秩和抽样比上结果的差异。
4.1. 相同的尺寸,不同的抽样比和等级
取m = n = 100,设xtol = 10−6,矩阵M的秩r从8增加到20,采样比SR分别为0.307、0.451、0.589、0.720。
对于每个子问题,随机生成100个矩阵进行测试,结果如表1所示。在约化SVD算法中设置cs = 35,μ = 0.9。实验结果表明,HFPA和WHFPA的精度相似,在10−6左右。在时间上,WHFPA将会比HFPA整体短一些。一般来说,两种方法相比,在维数小且矩阵为“困难”的情况下,WHFPA比HFPA更有效。
Table 1. Comparison of HFPA and WHFPA for randomly created small but hard matrices (m = n = 100, r = 8:4:20, xtol = 10−6)
表1. HFPA和WHFPA关于随机矩阵的比较m = n = 100, r = 8:4:20, xtol = 10−6)
4.2. 相同的采样比,不同的维度和等级
我们将维数从500增加到2000,采样比为0.570,取xtol = 10−4。
随机生成100个矩阵进行测试,最终得到如下结果,详见表2。在表2中,设置μ = 0.24,在约化SVD中设置可变参数cs。HFPA和WHFPA的精度相似,在10−4左右。在时间上,维数越大,WHFPA与HFPA差距越明显。两种方法相比,在维数大且矩阵为“困难”的情况下,WHFPA比HFPA更有效。
Table 2. Comparison of HFPA and WHFPA for randomly created large but hard matrices (SR = 0.570, xtol = 10−4)
表2. HFPA和WHFPA关于随机矩阵的比较(SR = 0.570, xtol = 10−4)
4.3. 有噪声的随机矩阵
假设带噪声的矩阵定义为
其中,矩阵
是方差为
,零均值的高斯矩阵。设置μ = 0.9,分别在方差10−2和10−1的噪声矩阵下进行试验,矩阵维数设置为m = n = 1000,取xtol = 10−4。实验数据详见表3。WHFPA比HFPA的精度好,在10−4左右。在时间上,HFPA是WHFPA的2倍。两种方法相比,在有噪声的情况下,WHFPA比HFPA更有效。
Table 3. Comparison of HFPA and WHFPA for randomly created noise disturbance matrices (m = n = 1000, xtol = 10−4)
表3. HFPA和WHFPA关于有噪声随机矩阵的比较(m = n = 1000, xtol = 10−4)
5. 结论
本文利用
拟范数正则化方法,提出了一种基于奇异值贡献度的权重处理方法。针对非凸、非光滑、非Lipschitz优化问题,首先给出了阈值不动点迭代算法中权值对奇异值的影响,然后给出了经过延续处理以及约化奇异值分解的改进算法。实验结果表明,WHFPA性能优于HFPA,说明了算法的有效性。