1. 引言
张量 [1] 作为向量和矩阵的高阶推广,是多维数据应用的表达方式。例如,彩色图像可以被视为具有行、列和色彩通道的三阶张量,而灰度视频是具有两个空间模式和一个时间模式的三阶张量。分析高阶张量数据直观方法是将其转换为矩阵,利用矩阵的性质对数据进行分析,但这种转换通常会导致信息丢失和性能下降。高维数据分析技术充分利用了张量的多线性结构,为张量数据提供了统一的理论框架,可以实现高效的分析效果。实际上,张量数据可能会部分丢失或被严重损坏,需要构造有效模型恢复部分丢失与损坏的数据,由此引入张量填充问题 [2]。
是三维观测张量,
是恢复的低秩张量,张量填充的模型为:
(1)
其中,
为
的秩函数,
是
的已知元素相对应的索引集,
为采样算子,定义为
(2)
基于不同的张量分解,定义不同张量秩,比如基于CANDECOMP/PARAFAC分解的CP秩 [3],基于Tucker分解 [4] 的Tucker秩,基于Tensor-Train分解 [5] 的TT秩,和基于张量奇异值分解的tubal秩 [6]。
CP秩定义为秩1张量分解的最小数量,其计算通常为NP-hard问题 [7]。张量Tucker秩是一个向量,其元素分别是沿着每种模展开矩阵的秩 [2]。TT秩是由均衡矩阵形成的矩阵的秩组成,即沿着模排列对张量进行矩阵化 [8]。近年来,通过对三阶张量进行傅里叶变换产生的张量积 [9],基于张量奇异值分解 [6],诱导出张量tubal秩 [10] [11]。张量tubal秩是张量中非零对角管(tubes)的个数。
直接最小化秩函数通常是NP-hard问题,基于张量秩的不同定义,提出了各种张量核范数作为张量秩替代。Friedland等 [10] 将张量核范数定义为CP秩的凸包络,但很难测量相对于CP秩的紧度。为了解决这个问题,刘等 [2] 给出了一种张量核范数定义为模展开矩阵核范数的和(Sum of Nuclear Norms, SNN)作为Tucker秩的凸包络。但是,SNN将高阶张量展开为矩阵,从而破坏了张量数据的内部结构。为了保持张量的结构,Semerci等人 [12],在傅立叶域中基于张量tubal秩,提出了一种新的张量核范数(Tensor Nuclear Norm, TNN)。随后,张等 [12] 人将TNN应用于张量填充,并获得了较好的图像与视频恢复效果。
尽管TNN具有完美的数学理论支撑,但是存在两个问题。首先,作为张量tubal秩的凸松弛,在优化TNN的过程中,对不同的奇异值减去相同域值,从而导致了等距收缩问题。其次,对高维张量数据进行奇异值分解,计算代价太高。使用非凸函数代替核范数作为秩函数的松弛,可以避免等距收缩问题。张量分解的方法,可以有效地降低计算复杂度。基于这两种思想,我们提出了基于双核范数最小化的低秩张量填充。首先给出张量双核范数的定义,然后证明张量双核范数等价于具体的张量Schatten-p (p = 1/2)范数 [13]。采用两个小的张量张量积表示原张量,从而避免解大张量奇异值问题。基于张量分解的思想,给出了相应的凸替换,将非凸问题转换为凸问题。由于对小张量进行奇异值分解,模型的计算复杂度会大大减少,并且每个子问题都有一个闭式解。
2. 张量基础
为了方便起见,用粗体小写字母粗体
,粗体大写字母
与粗体手写体字母
表示标量,矩阵和张量。对于
,第
个位置上的元素表示为
或
,第i个水平切片、侧面切片与正面切片分别表示为
,
和
,特别地,用
表示第i个正面切片。第
个管可以用
表示,它实际上是一个长度为
的向量。张量Frobenius范数定义为
。令
是张量空间上的任意可逆线性变换,对
的每一个管纤维进行变换,可以得到
,基于可逆线性变换,给出块对角矩阵和块循环矩阵的定义:
,
(3)
此外,张量的展开、折叠算子定义如下:
,
(4)
根据以上定义,给出张量核范数与张量tubal秩的定义。
定义1.1. (张量积) [10]:假设L是任意可逆线性变换,
,
,则基于L的张量积定义为
。
定义1.2. (张量转置) [10]:假设L是任意可逆线性变换,
,则
的转置
定义为
。
定义1.3. (单位张量) [10]:假设L是任意可逆线性变换,
,若
的每一个正面切片都是
的单位矩阵,则
为单位张量。
定义1.4. (正交张量) [10]:假设L是任意可逆线性变换,
,如果满足
,则
为正交张量。
定义1.5. (F-对角张量) [10]:假设L是任意可逆线性变换,
,若
的每一个正面切片都是对角矩阵,则
为F-对角张量。
定理1.1. (张量奇异值分解) [10]:假设L是任意可逆线性变换,
,则
可以分解成
,其中
,
且
是F-对角张量。
定义1.6. (张量multi秩、tubal秩) [10]:假设L是任意可逆线性变换,满足
且
,给定
,将其奇异值分解
,则张量multi秩定义为
(5)
张量tubal秩定义为
的非零奇异管的数量,即
(6)
定义1.7. (张量核范数) [10]:假设L是任意可逆线性变换,
,将其进奇异值分解
,则张量核范数定义为
,其中r为
的tubal秩。
定理1.2. (张量奇异值阈值算子) [11]:对于任意
,给定
,则
(7)
的解为
,其中
且
。
3. 基于张量双核范数最小化的低秩张量填充
3.1. 双核范数
定义2.1:对于任意的张量
,其tubal秩
。
可以被分解为两个张量的乘积,即
,其中
,
且
。则张量双核范数定义为
(8)
定理2.1:给定
,
,
,满足
且
,则有
(9)
其中,
表示张量双核范数,
表示张量Schatten-p范数。
3.2. 模型建立与求解
基于Schatten-p范数最小化的框架,张量双核范数正则化张量填充模型表示如下:
(10)
为了求解优化(13),使用交替方向乘子法,引入辅助变量
与
,优化以下式子:
(11)
增广拉格朗日函数为:
(12)
其中,
,
与
是拉格朗日乘子张量,
是惩罚参数。使用交替方向乘子法更新。
1) 固定
、
、
、
、
、
、
,更新
:
(13)
令(16)对
求偏导并将等于0,则有
(14)
其中,
。
2) 固定
、
、
、
、
、
、
,更新
,同理,有
(15)
对
进行求偏导且为0,可得,
(16)
其中,
.
3) 固定
、
、
、
、
、
、
,更新
,有
(17)
4) 固定
、
、
、
、
、
、
,更新
,有
(18)
5) 固定
、
、
、
、
、
、
,更新
,有
(19)
6) 固定
、
、
、
、
、
、
,更新
,有
(20)
7) 固定
、
、
、
、
、
、
,更新
,有
(21)
8) 固定
、
、
、
、
、
、
,更新
,即
(22)
9) 更新参数
(23)
4. 实验
4.1. 合成数据
随机生成张量
与
,其中
与
的元素是从标准高斯分布中独立采样的。通过张量积
,构建出tubal秩为r的张量
。随机选取
的
个位置构建相对应的索引集
,其中p为观测率。因此,合成数据构建方式如下,
(24)
其中,
为均值为0,方差为1的高斯白噪声。
考虑三种可逆线性变换:1) 离散傅里叶变换(Discrete Fourier Transform, DFT);2) 离散余弦变换(Discrete Cosine Transform, DCT);3) 正交变换(Random Orthogonal Transform, ROM)。假设
,正则化参数设为
。采用相对均方误差测量结果,即
(25)
若
,则可认为精确恢复。从表1的实验结果可以看出,在三种可逆线性变换的条件下,RSE远远小于10−3。因此,在不同的采样率与可逆线性变换下,部分观测张量可以精确恢复出来。这表明了基于任何可逆线性变换的DNTC是可行的、鲁棒的。

Table 1. The RSE result of correct recovery on random data under different linear transforms
表1. 在不同线性变换下的随机数据填充的RSE结果
4.2. 图像修复
在图像修复任务中,选取ZJU数据集中4张图像,用TNN [11]、TCTF [14] 与DNTC三种方法进行对比,将峰值信噪比(Peak Signal to Noise Ratio, PSNR)、结构相似性(Structured Similarity Index, SSIM)与时间作为评价指标。实验中,观测率设置为0.4。图1为观测率0.4下的图像修复结果对比,表2给出了PSNR、SSIM与时间指标的直观对比结果。

Table 2. Performance comparison in PSNR, SSIM and TIME on the natural images
表2. 自然图像上PSNR、SSIM与时间的性能对比
(a) 原始图片 (b) 观测图片 (c) TNN(d) TCTF (e) DNTC-DFT (f) DNTC-DCT (g) DNTC-ROM
Figure 1. Image in painting results of the 4 images by different methods
图1. 不同方法在4个图像上修复结果
从图1结果可以看出,在观测率为0.4的情况下,DNTC在3种可逆变换下的视觉效果差别不太明显,均比TNN与TCTF更好得刻画出细节部分。从表2可以看出,在峰值信噪比,基于任意线性变换的DNTC平均比TNN结果提升2 dB以上、比TCTF平均提升5 dB;在结构相似比方面,DNTC均高于TNN与TCTF,且最低提升0.02,原因是本文提出的双核范数比核范数更逼近张量的tubal秩,避免了等距收缩问题。
除此之外,DNTC的运行时间明显低于TNN的时间,主要原因是DNTC采取了张量分解的方法,对两个小的张量进行优化,从而降低了计算复杂度。与另一个张量分解方法TCTF相比,DNTC在DFT与DCT下与TCTF的时间结果较为相似,甚至更快。在ROM下少慢于TCTF。主要是由于TCTF只是用Frobenius范数作为正则化项,不需要张量奇异值分解,计算复杂度较低,但该方法不能很好的刻画张量的线性结构,因此PSNR数值最低。而在ROM下,DNTC没有快速算法,导致了计算复杂度高于TCTF。
5. 结束语
针对张量填充问题,结合了Schatten-p范数与张量分解的思想,提出了基于双核范数最小化方法,保证了张量填充的效果优越性,并提高了优化速度。在后续工作中,将双核范数扩展到张量低秩表示模型中,以利于子空间聚类。