张量回归模型及其应用研究综述
A Brief Survey on Tensor Regression Model and Its Application
DOI: 10.12677/SA.2020.95089, PDF, HTML, XML,  被引量 下载: 686  浏览: 3,577 
作者: 罗来辉:上海对外经贸大学,统计与信息学院,上海
关键词: 张量回归模型CP分解Tucker分解神经图像分析机器学习Tensor Regression Model CP Decomposition Tucker Decomposition Neuroimaging Analysis Machine Learning
摘要: 21世纪以来,张量引起了数据科学和统计学领域的极大兴趣,张量技术被广泛应用于数据挖掘、机器学习和统计学等领域,其中,张量回归模型是一类很重要的工具。本文研究了近十年张量回归模型理论及应用的发展和现状,对张量回归模型进行了简单梳理,主要介绍了张量线性回归模型的理论和应用。为了方便读者理解,本文还介绍了张量、张量分解等基本概念。
Abstract: Since the 21st century, tensor has aroused great interest in the field of data science and statistics. Tensor technology has been widely used in data mining, machine learning and statistics, among which tensor regression model is a very important tool. This paper studies the development and current situation of the theory and application of tensor regression model in the past ten years. It simply sorts out the tensor regression model, and mainly introduces the theory and application of tensor linear regression model. In order to facilitate readers to understand, this paper also introduces the basic concepts of tensor and tensor decomposition.
文章引用:罗来辉. 张量回归模型及其应用研究综述[J]. 统计学与应用, 2020, 9(5): 855-861. https://doi.org/10.12677/SA.2020.95089

1. 引言

近十年来,张量回归模型(Tensor Regression Model, TRM)的理论及应用研究获得很大的进展,已成为张量数据分析的重要工具,在神经图像分析、信号处理、时空数据分析、机器学习等领域得到广泛应用。张量,又称为多维数组,是向量和矩阵在高维空间中的自然推广。标量可以看作零阶张量,向量是一阶张量,矩阵是二阶张量,三阶及三阶以上张量统称为高阶张量。在实际应用中,很多数据都是张量结构。例如,灰度图像是矩阵数据(二阶张量),彩色图像是三阶张量,面板数据也可以看作三阶张量(个体,特征,时间)。

张量的概念最早由Hitchcock于1927年提出 [1],随后被应用于微分几何、物理、化学计量、信号处理、数据科学等领域。进入二十一世纪后,张量数据的处理和分析引起数据科学家和统计学家们的极大兴趣,发展出了一系列的张量数据分析方法,并应用于实际问题的分析处理。其中,关于张量在机器学习和统计学中的发展与应用可以参考Ji等 [2] 及Bi等 [3]。

回归分析是统计学中一类非常重要且实用的分析方法,一直被应用统计、经济金融、生物医药、数据科学等领域广泛使用。将张量数据纳入回归分析的框架,既扩展了张量数据分析的方法和手段,也进一步丰富了回归分析的理论成果。近年来,学者们先后提出了各种张量回归模型,既有线性回归模型,也有非线性回归模型;既有因变量为标量的张量回归模型,也有因变量为张量的多重张量回归模型;既有基于似然估计的回归方法,也有基于贝叶斯估计的回归方法。尽管张量回归模型的理论和应用得到极大丰富与发展,但仍存在一些难题需要去解决,去满足更多的应用场景。

2. 张量和张量分解

为了方便读者理解,在本节中,我们介绍一些矩阵和张量的基本运算及相关记号。

设矩阵 X = [ x 1 , x 2 , , x n ] R m × n , Y = [ y 1 , y 2 , , y q ] R p × q ,则 X Y = ( x 11 Y x 12 Y x 1 n Y x 21 Y x 22 Y x 2 n Y x m 1 Y x m 2 Y x m n Y ) R m p × n q 称为X和Y的Kronecker积;若X和Y的列数相同,即 n = q ,称 X Y = [ x 1 y 1 , x 2 y 2 , , x n y n ] 是X和Y的Khatri-Rao积。设D阶张量 X R I 1 × I 2 × × I D ,由元素 x i 1 i 2 i d ( i 1 = 1 , , I 1 ; i 2 = 1 , , I 2 ; ; i d = 1 , , I D ) 组成,则 v e c ( X ) 表示将X向量化,即将 x i 1 i 2 i d 转换为 v e c ( X ) 的第j个元素,其中 j = 1 + d = 1 D ( i d 1 ) d = 1 d 1 I d X ( d ) 表示将X沿模-d矩阵化,即将 x i 1 i 2 i d 转换为 X ( d ) 的第j个元素,其中 j = 1 + d d ( i d 1 ) d < d , d d I d

秩1张量是很重要的一类张量。若一个D阶张量 X 可以表示成D个向量的外积的形式,即 X = a 1 a 2 a D ,则称 X 是秩1张量。

张量的乘法运算较为复杂,设张量 X R I 1 × I 2 × × I D ,矩阵 U R J × I d ,则张量 X 沿模-d与U的乘积用 X × d U 表示,它是一个 I 1 × I 2 × × I d 1 × J × I d + 1 × × I D 的张量,其元素为

( X × d U ) i 1 i 2 i d 1 j i d + 1 i D = i d = 1 I d x i 1 i 2 i D u j i d .

对于张量 A R I 1 × × I K × P 1 × × P L B R P 1 × × P L × Q 1 × × Q M ,定义 A , B L R I 1 × × I K × Q 1 × × Q M 为A和B的压缩张量积,其元素为

( A , B L ) i 1 i K q 1 q M = p 1 = 1 P 1 p L = 1 P L ( A ) i 1 i K p 1 p L ( B ) p 1 p L q 1 q M .

张量分解是处理高阶张量的重要工具,其核心思想是将高阶张量分解为比较容易处理的低阶张量。CP分解和Tucker分解是最常用的两种张量分解方法。CP分解(CANDECOMP/PARAFAC分解)是将张量分解成有限个秩1张量的线性组合的形式,即

X = r = 1 R a 1 r a 2 r a D r = A 1 , A 2 , , A D ,

其中 A d = [ a d 1 , , a d R ] R I d × R , d = 1 , , D ;R是CP分解的秩。CP分解本质上是矩阵的奇异值分解在高维空间中的扩展,而Tucker分解某种意义上来说也是矩阵奇异值分解的扩展,Tucker分解由称为高阶奇异值分解。相较于CP分解,由于核张量的存在,Tucker分解更为灵活。若D阶张量X可以表示为

X = r 1 = 1 R 1 r 2 = 1 R 2 r D = 1 R D g r 1 r 2 r D a 1 r 1 a 2 r 2 a D r D ,

则称X满足Tucker分解,记为 X = G , A 1 , A 2 , , A D ,其中 G R R 1 × R 2 × × R D 是一个D阶核张量,其元素为 ( G ) r 1 r 2 r D = g r 1 r 2 r D

事实上,CP分解是Tucker分解的一种特殊情况。

R 1 = R 2 = = R D = R g r 1 r 2 r d = 1 ( r 1 = r 2 = = r D ) 时,Tucker分解就是CP分解。无论是CP分解还是Tucker分解,其计算方法都已相对成熟,最经典的是使用交替最小二乘算法。一些常用的计算软件或统计软件,如MATLAB、Python和R,都有相关的包可供调用,非常方便。张量分解一直都是处理张量数据的有力工具,张量分解技术也被各领域广泛应用,包括机器学习、数据挖掘、信号处理、数据科学等。更多关于张量运算以及张量分解及其应用的信息,推荐读者参考Kolda和Bader的综述文章 [4]。

3. 张量回归模型理论研究现状

张量回归模型可分为两大类:线性回归模型和非线性回归模型。对于张量数据,传统的处理方法是将其向量化后应用多元线性回归模型进行分析。这种做法至少会导致两个问题:一是“维数的灾难”,即高维甚至是超高维问题;二是数据结构信息的损失。然而,通过张量分解,既能保持数据的张量结构,又能实现的有效的降维。

3.1. CP张量回归模型

Guo等 [5] 和Zhou等 [6] 分别将张量的CP分解与线性模型和广义线性模型相结合,构建了CP张量回归模型研究神经图像及其临床结果之间的关系。设响应变量 y R 服从指数分布族,其概率密度为

p ( y ; θ , ϕ ) = exp { y θ b ( θ ) a ( ϕ ) + c ( y , ϕ ) } ,

其中 θ ϕ 分别表示自然参数和散度参数。模型的系统部分为

g ( μ ) = η = B , X = r = 1 R b 1 r b 2 r b D r , X = ( B _ D B _ 1 ) 1 _ R , v e c X ,

其中 B d = [ b d ( 1 ) , , b d ( R ) ] R I d × R 。模型假设回归系数B是低秩张量,满足秩为R的CP分解 B = B 1 , B 2 , , B D 。模型的未知参数为 θ = ( ( v e c B 1 ) T , ( v e c B 2 ) T , , ( v e c B D ) T ) T ,而且模型将待估参数的个数由 d I d 减少到 R d I d ,维度很大程度地降低了。

尽管 g ( μ ) 不是联合线性于 ( B 1 , , B D ) 整体,但是 g ( μ ) 和单个 B d 是线性相关的。因此,通过分块松弛算法,交替更新 B d , d = 1 , , D 可以得到 θ 的极大似然估计。此外,为了消除CP分解中尺度变换和排列变换的不确定性,以及考虑到CP分解的唯一性,需要对参数空间作如下限制:

B = { ( B 1 , , B D ) : b d 1 ( r ) = 1 , d = 1 , , D 1 ; r = 1 , , R ; b D 1 ( 1 ) > > b D 1 ( R ) }

以及 d = 1 D k B d 2 R + ( D 1 ) ,其中 k D d 表示矩阵 B d 的秩。

对于Gauss模型,分块松弛算法可以简化为交替最小二乘算法,石美丽和夏志明研究了基于CP分解的张量线性回归模型中的参数估计和假设检验问题 [7]。他们先基于最小二乘法得到参数的点估计量,证明其相合性;其次建立了参数线性假设检验的拟似然比检验统计量,并证明其大样本性质。

3.2. Tucker张量回归模型

Li等在CP张量回归模型的基础上,使用更为灵活的Tucker分解代替CP分解,发展了广义线性模型框架下的Tucker张量回归模型 [8]。在Tucker张量回归模型中,假设系数张量B满足Tucker分解,即 B = G , B 1 , B 2 , , B D ,则模型的系统部分为

g ( μ ) = η = B , X = r 1 = 1 R 1 r 2 = 1 R 2 r D = 1 R D g r 1 r 2 r D b 1 r 1 b 2 r 2 b D r D , X .

模型允许系数张量B在不同的模上有不同数量的基向量,拥有更高的灵活性。此外,待估参数的个数由 d R d 减少到 d I d R d + d R d ,同样有效降低了参数的维度。

类似于CP张量回归,在Tucker张量回归模型中,亦可以使用分块松弛算法获得未知参数的极大似然估计。然而,Tucker张量回归和CP张量回归一样,模型的阶数选择都要依赖AIC、BIC等准则,不能实现自选择。鉴于此,Guhaniyogi等应用贝叶斯方法研究了Gauss模型下的Tucker张量回归 [9]。他们提出了一类新的关于张量系数的多边压缩先验分布,发展了贝叶斯张量回归理论,克服了Li等模型中的阶数不能自选择的困难。Billio等进一步发展了贝叶斯动态张量回归模型,他们基于CP分解开发了一种新的参数化方法,既能实现参数的简约化,又能考虑稀疏性 [10]。

3.3. 多重张量回归模型

在CP张量回归模型和Tucker张量回归模型中,都只考虑了自变量是张量而因变量是标量的情况,在此基础上,学者们发展了因变量是矩阵(张量)的回归模型,统称为多重张量回归模型。Zhao等发展了高阶偏最小二乘回归,可以视为广义多线性张量回归模型,它通过Tucker分解提取输入与输出的共同潜变量后进行回归,从而对输出进行预测 [11]。Miranda等基于贝叶斯方法应用多重张量回归模型进行神经图像分析 [12]。此外基于CP分解 [13] 和基于Tucker分解 [14] 的多重张量回归模型也被陆续提出。Hoff发展了一类特殊的双线性张量回归模型,用来处理自变量和因变量具有相同结构的预测问题,并使用Gibbs抽样方法来进行推断 [15]。Lock发展了更为一般的多重张量回归模型,利用收缩张量积实现了自变量和因变量均为任意阶张量的回归,上述张量回归模型都可以纳入此分析框架中来 [16]。

设自变量 X R N × P 1 × × P L ,因变量 Y R ^ ( N × Q 1 × × Q M ) ,建立多重张量回归模型

Y = B , X L + E

其中 B R P 1 × × P L × Q 1 × × Q M 为系数张量, E R ^ ( N × Q 1 × × Q M ) 为误差张量, B , X L 表示张量B和X的压缩张量积。参数B的前L个模用来压缩X的维度,而后M个模用来压缩Y的维度。设 P = l P l 表示自变量X的总维数, Q = m Q m 表示因变量Y的总维数,则当 Q = 0 , P 2 时,即为自变量为张量,因变量为标量的张量回归模型;当 Q = P = 1 时,即为自变量和因变量均为矩阵的双线性回归模型。

上述模型均是依赖于线性或多线性回归的参数张量模型,当然,学者们也研究了一些非线性的张量回归模型。一般情况下,可以采用两种建模策略来输入和输出之间的非线性依赖关系:基于核的方法和基于神经网络的方法。Zhao等将张量数据于Gauss过程相结合,发展了张量Gauss过程 [17]。Kossaifi等结合深度卷积神经网络发展了张量回归网络模型,受益于深层结构,该模型可以表示张量回归系数,从而具有更好的数据特征或潜在分量表示,有望进一步增强可预测性 [18]。

4. 张量回归模型应用研究现状

张量回归模型的提出应归功于现实应用的需要,正是由于大量张量数据的分析需求,促使了张量回归相关理论的快速发展。张量回归模型被广泛应用于神经图像分析、自然信号处理、时空数据分析和机器学习等领域。

神经图像分析是神经科学的一项重要工作,而神经图像都可以看成张量数据。例如,脑电图(EEG)是2阶张量;核磁共振图像(MRI)是3阶张量;功能性核磁共振图像(fMRI)是4阶张量。为了研究神经图像与临床结果之间的关系,理解人类大脑的内在工作机制,Hung和Wang首先应用矩阵Logistic模型进行了脑电图(EEG)的分类 [19],其后Zhou等和Li等分别利用CP张量回归模型和Tucker张量回归模型针对小儿多动症(ADHD)探索了核磁共振图像和功能性核磁共振图像与临床结果之间的关系 [6] [8]。在此基础上,Hou发展了分层Tucker张量回归模型,在神经图像分析上也有不错的表现 [20] [21]。

张量回归模型在机器学习领域的应用主要包括模式识别和多任务学习。Guo等基于张量的CP分解技术采用不同的损失函数提出了高秩张量岭回归模型和高秩支持张量回归模型 [5]。利用公开数据库的真实数据,对头部姿态、人体年龄和三维身体姿态估计问题进行了实验,不仅验证了张量分解相对于向量化的优越性,而且验证了所提出的算法的有效性。Gao等研究了张量线性回归问题,并提出了一种新的张量低秩方法 [22],该方法利用基于张量-奇异值分解(t-SVD)的张量核范数来强调嵌入在彩色图像中的空间结构并将其应用于彩色人脸分类。近年来,张量回归方法也被应用在多线性多任务学习问题(MLMTL)的问题 [23]。在多线性多任务学习问题中,任务由多个索引引用,指示所有任务之间的复杂相关性。然而,现有的基于凸松弛技术的多线性多任务方法在计算上是非常昂贵的,因为在交替方向方法中需要大矩阵的全奇异值分解操作,使得它在大规模应用中是不可行的。

张量回归模型以及其他基于张量技术的分析方法,正逐渐引起学者们的关注,也将被更多的领域所发展和应用,不仅仅是在自然科学领域,在社会科学领域也将会被重视起来。

5. 结论

本文研究了张量回归模型相关理论及其应用在近十年的发展与现状。其中,张量线性回归模型得到良好的发展及应用,但仍缺乏一个类似于经典线性模型的统一的分析框架。此外,实际应用中需要更为快速和便宜的估计方法和算法,以及更为灵活的应用场景。当然,张量回归模型的理论也需要进一步丰富和发展。将张量数据和张量技术与深度学习框架相结合,是目前研究的一个热点,也将在应用领域有所发展,但这也呼唤着其背后统计理论的进一步完善。

参考文献

[1] Hitchcock, F.L. (1927) The Expression of a Tensor or a Polyadic as a Sum of Products. Journal of Mathematical Physics, 6, 164-189.
https://doi.org/10.1002/sapm192761164
[2] Ji, Y., Wang, Q., Li, X. and Liu, J. (2019) A Survey on Tensor Techniques and Applications in Machine Learning. IEEE Access, 7, 162950-162990.
https://doi.org/10.1109/ACCESS.2019.2949814
[3] Bi, X., Tang, X., Yuan, Y., Zhang, Y. and Qu, A. (2020) Tensors in Statistics. Annual Review of Statistics and Its Application, 8.
https://doi.org/10.1146/annurev-statistics-042720-020816
[4] Kolda, T.G. and Bader, B.W. (2009) Tensor Decompositions and Applications. SIAM Review, 51, 455-500.
https://doi.org/10.1137/07070111X
[5] Guo, W., Kotsia, I. and Patras, I. (2012) Tensor Learning for Regression. IEEE Transactions on Image Processing, 21, 816-827.
https://doi.org/10.1109/TIP.2011.2165291
[6] Zhou, H., Li, L. and Zhu, H. (2013) Tensor Regression with Applications in Neuroimaging Data Analysis. Journal of the American Statistical Association, 108, 229-239.
https://doi.org/10.1080/01621459.2013.776499
[7] 石美丽, 夏志明. 张量线性回归模型中的参数估计与假设检验问题[J]. 陕西师范大学学报(自然科学版), 2020, 48(2): 110-116.
[8] Li, X., Xu, D., Zhou, H. and Li, L. (2018) Tucker Tensor Regression and Neuroimaging Analysis. Statistics in Biosciences, 10, 520-545.
https://doi.org/10.1007/s12561-018-9215-6
[9] Guhaniyogi, R., Qamar, S. and Dunson, D.B. (2017) Bayesian Tensor Regression. Journal of Machine Learning Research, 18, 1-31.
[10] Billio, M., Casarin, R., Kaufmann, S. and Iacopini, M. (2018) Bayesian Dynamic Tensor Regression. University Ca’ Foscari of Venice, Dept. of Economics Research Paper Series No. 13/WP/2018.
https://ssrn.com/abstract=3192340
https://doi.org/10.2139/ssrn.3192340
[11] Zhao, Q., Caiafa, C.F., Mandic, D.P., Chao, Z.C., Nagasaka, Y., Fujii, N., Zhang, L. and Cichocki, A. (2013) Higher Order Partial Least Squares (HOPLS): A Generalized Multilinear Regression Method. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35, 1660-1673.
https://doi.org/10.1109/TPAMI.2012.254
[12] Miranda, M.F., Zhu, H. and Ibrahim, J.G. (2018) Tprm: Tensor Partition Regression Models with Applications in Imaging Biomarker Detection. Annals of Applied Statistics, 12, 1422-1450.
https://doi.org/10.1214/17-AOAS1116
[13] Sun, W.W. and Li, L. (2017) STORE: Sparse Tensor Response Regression and Neuroimaging Analysis. Journal of Machine Learning Research, 18, 4908-4944.
[14] Li, L. and Zhang, X. (2017) Parsimonious Tensor Response Regression. Journal of the American Statistical Association, 112, 1131-1146.
https://doi.org/10.1080/01621459.2016.1193022
[15] Hoff, P.D. (2015) Multilinear Tensor Regression for Longitudinal Relational Data. The Annals of Applied Statistics, 9, 1169-1193.
https://doi.org/10.1214/15-AOAS839
[16] Lock, E.F. (2018) Tensor-on-Tensor Regression. Journal of Computational and Graphical Statistics, 27, 638-647.
https://doi.org/10.1080/10618600.2017.1401544
[17] Zhao, Q., Zhou, G., Zhang, L. and Cichocki, A. (2014) Tensor-Variate Gaussian Processes Regression and Its Application to Video Surveillance. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP’14), Florence, 4-9 May 2014, 1265-1269.
https://doi.org/10.1109/ICASSP.2014.6853800
[18] Kossaifi, J., et al. (2020) Tensor Regression Networks. Journal of Machine Learning Research, 21, 1-21.
[19] Hung, H. and Wang, C.-C. (2013) Matrix Variate Logistic Regression Model with Application to EEG Data. Biostatistics, 14, 189-202.
https://doi.org/10.1093/biostatistics/kxs023
[20] Hou, M. and Chaib-draa, B. (2015) Hierarchical Tucker Tensor Regression: Application to Brain Imaging Data Analysis. IEEE International Conference on Image Processing (ICIP’15), Quebec City, 27-30 September 2015, 1344-1348.
https://doi.org/10.1109/ICIP.2015.7351019
[21] Hou, M. (2017) Tensor-Based Regression Models and Applications. PhD Dissertation, Laval Univ., Quebec City.
[22] Gao, Q., Cheng, J., Xie, D., Zhang, P., Xia, W. and Wang, Q. (2019) Tensor Linear Regression and Its Application to Color Face Recognition. 2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW), Seoul, 523-531.
https://doi.org/10.1109/ICCVW.2019.00065
[23] Romera-Paredes, B., Aung, H., Bianchi-Berthouze, N. and Pontil, M. (2013) Multilinear Multitask Learning. International Conference on Machine Learning (ICML’13), Atlanta, 16-21 June 2013, 1444-1452.