L(r,c)非负矩阵分解用于图像聚类
L(r,c) Nonnegative Matrix Factorization for Image Clustering
DOI: 10.12677/AAM.2023.123133, PDF, HTML, XML, 下载: 208  浏览: 322 
作者: 陈运川:贵州师范大学,数学科学学院,贵州 贵阳
关键词: 非负矩阵分解聚类L(rc)函数鲁棒性Non-Negative Matrix Factorization Clustering L(rc) Function Robustness
摘要: 在非负矩阵分解用于聚类的过程中,将每一张大小为r × c灰度图像按列重排成一个样本向量会改变图像数据原有的空间结构,而目标函数直接度量样本向量与重构向量之间的误差会进一步忽略原始图像与重构后图像列之间的相似度。因此,为降低图像数据空间结构的改变对聚类效果的不利影响,本文提出了一种新的损失函数来逐列度量原始图像数据与重构后的图像数据间的误差,并推导了相应的数值算法。数值实验结果表明本文提出的算法有更好的聚类表现,图像表示能力更强。
Abstract: In the process of non-negative matrix factorization for clustering, rearranging each grayscale image with size r × c into a sample vector will change the original spatial structure of the image data, and the objective function directly measures the error between the sample vector and the reconstruc-tion vector to further ignore the similarity between the original image and the reconstructed image column. Therefore, in order to reduce the adverse effect of the change of spatial structure of image data on the clustering effect, a new loss function is proposed to measure the error between the original image data and the reconstructed image data column-by-column, and the corresponding numerical algorithm is derived. Numerical experimental results show that the proposed algorithm has better clustering performance and stronger image representation ability.
文章引用:陈运川. L(r,c)非负矩阵分解用于图像聚类[J]. 应用数学进展, 2023, 12(3): 1306-1316. https://doi.org/10.12677/AAM.2023.123133

1. 引言

Lee和Seung于1999年提出非负矩阵分解(NMF) [1] 以来,NMF已广泛应用于数据挖掘和机器学习等领域。作为一种数据降维方法,非负矩阵分解将数据矩阵近似表示成两个非负因子矩阵的乘积,非负性约束使得该方法具有整体由部分表示的可解释性 [2] 。这使得NMF在文本挖掘 [3] 、模式识别 [4] 、DNA基因表达分析 [5] 等诸多方面得以广泛应用。根据具体问题的不同,人们提出了具有不同目标函数的NMF的衍变算法并将之应用于协同过滤、分类、约束聚类 [6] 等数据分析任务。C Ding等理论上分析了NMF与K-means聚类的潜在联系 [7] 。

在图像聚类任务中,NMF以矩阵的Frobenius范数作为目标函数度量样本数据矩阵与重构后的矩阵元素间的整体误差,由于该目标函数对噪声和异常值不稳定 [8] ,且忽视了原始图像数据与重构后的图像列与列之间的近似关系,是重构后的数据矩阵对原始图像数据的“粗糙”近似。C Ding [9] 等使用矩阵的 L 2 , 1 范数作为目标函数,提出具有鲁棒性(robustness)的 L 2 , 1 NMF,相较于NMF而言, L 2 , 1 NMF的目标函数度量是原始图像数据重排后的样本向量与重构后的矩阵列向量之间的误差,虽然相较于NMF而言, L 2 , 1 NMF能够获得更为精细的图像表示,但仍然没有考虑到原始图像数据和重构后图像的列之间的近似关系。

因此,为使目标函数能够度量原始图像数据和重构后图像列之间的近似关系,从而减少原始图像数据空间结构的改变产生的影响,本文定义了向量的 L ( r , c ) 函数并提出相应的 L ( r , c ) NMF算法,该算法具有与 L 2 , 1 NMF相当的鲁棒性的同时,兼顾了原始图像数据的空间结构,实验结果上看 L ( r , c ) NMF算法也具有更好的图像表示能力和图像聚类表现。

后续内容安排如下:第二小节介绍了相关工作;第三小节定义 L ( r , c ) 函数,并定义 L ( r , c ) NMF算法的目标函数,从不等式推导和数值实验两方面说明 L ( r , c ) NMF算法的有效性;第四节推导给出算法的更新公式;第五小节引入辅助函数分析算法的收敛性;第六小节展示了 L 2 , 1 NMF算法和三种对比算法在三个数据集上的实验结果。

2. 相关工作

NMF是为了得到数据的部分表示 [1] 。给定一个非负矩阵 X m × n ,NMF要将X近似表示成两个非负因子矩阵 U m × k V k × n 的乘积,即:

X U V (1)

为了求解U和V,对如下目标函数最小化:

Q N M F = X U V F 2 = i , j ( X U V ) i j 2 s .t . U 0 , V 0 (2)

其中 A F 2 = i , j A i j 2 表示矩阵A的Frobenius范数。

Lee和Seung [2] 给出了相应的更新公式:

U i j = U i j ( X V T ) i j ( U V V T ) i j (3)

V i j = V i j ( U T X ) i j ( U T U V ) i j (4)

然而,NMF以Frobenius范数为目标函数会导致该算法对噪声和异常值敏感 [8] ,为解决这一问题,D Kong和C Ding等提出了具有鲁棒性的 L 2 , 1 NMF,该算法以矩阵的 L 2 , 1 范数为目标函数,定义如下:

Q L 21 N M F = X U V 2 , 1 = j x j U v j s .t . U 0 , V 0 (5)

其中 a = i a i 2 表示向量的2范数。

文 [11] 中给出了相应的更新公式:

U i j = U i j ( X D V T ) i j ( U V D V T ) i j (6)

V i j = V i j ( U T X D ) i j ( U T U V D ) i j (7)

其中D是对角矩阵,对角元素定义如下:

D j j = 1 / x j U v j (8)

在图像聚类任务中,图像数据矩阵 X r c × n 的每一列 x j r c × 1 都是由一张分辨率为 r × c 的灰度图像按列重排后的样本向量,即 x j 的每r个元素就是灰度图像中的一列。对比式(2)和式(5)可以看出,NMF度量X与UV所有元素间的误差,而 L 2 , 1 NMF度量的是样本向量 x j 与重构后的数据矩阵列向量 U v j 间的误差。不难验证下式成立:

i , j ( X U V ) i j 2 j i ( X U V ) i j 2 (9)

上式表明,样本数据矩阵与重构后数据矩阵列向量之间的误差达到设定的误差限时,矩阵元素间的整体误差也能达到误差限,反之则不然。这使得 L 2 , 1 NMF能够度量样本数据矩阵与重构后数据矩阵列向量间的近似关系,从实验结果上看, L 2 , 1 NMF表示出的图像较之NMF要更加精细。

然而, L 2 , 1 NMF度量的仍然忽略了原始图像数据与重构后的图像列之间的近似关系,这使得样本向量与重构后的样本向量间误差较小时并不能保证原始图像数据的列向量间的误差也足够小。

因此,本文考虑了新的目标函数来度量原始图像数据与重构后图像数据列之间的近似关系。

3. ( r , c ) 目标函数

3.1. ( r , c ) 函数

给定 x r c × 1 ,本文定义x的一个实值函数如下:

定义1

x ( r , c ) : = p = 1 c i = r ( p 1 ) + 1 r p x i 2 , r , c + (10)

易验证, ( r , c ) 满足范数的三条性质:

(1) 正定性 (2) 齐次性 (3) 三角不等式

x , y r c × 1 , a , b ,我们有:

a x ( r , c ) + b y ( r , c ) = p = 1 c ( i = r ( p 1 ) + 1 r p ( a x i ) 2 + i = r ( p 1 ) + 1 r p ( b y i ) 2 ) 2 p = 1 c i = r ( p 1 ) + 1 r p ( a x i ) 2 + ( b y i ) 2 + 2 a x i b y i = p = 1 c i = r ( p 1 ) + 1 r p ( a x i + b y i ) 2 = a x + b y ( r , c ) (11)

当且仅当 x = y 时,不等式取等,显然当 a , b 0 a + b = 1 x y 时式(11)严格成立,因此 x ( r , c ) 是关于变量x的严格凸函数。对于向量 x n × 1 ,若 r = n , c = 1 ,该实值函数是x的 l 2 范数;若 r = 1 , c = n ,则该实值函数是x的 l 1 范数。限于定义中r,c是给定的,所以 ( r , c ) 并不是严格意义上 n × 1 中的向量范数。

3.2. ( r , c ) NMF目标函数

为了对原始图像数据逐列度量误差,本文提出的 L ( r , c ) NMF的目标函数定义如下:

Q L ( r , c ) N M F = j x j U v j ( r , c ) s .t . U 0 , V 0 (12)

对于 X , U V r c × n ,将 X , U V 的每一列对应一张 r × c 的图像,借由式(9),不难验证下式成立:

i ( X U V ) i j 2 p i = r ( p 1 ) + 1 r p ( X U V ) i j 2 (13)

由上式可知,对于 L ( r , c ) NMF而言,当原始图像数据与重构后的图像列之间的误差达到设定的误差限时, L 2 , 1 NMF的目标函数值也能达到,反之则不然。这使得本文给出的目标函数相较于NMF、 L 2 , 1 NMF更能在减少目标函数值的过程中兼顾原始图像数据和重构后图像列之间的近似关系。

4. L ( r , c ) NMF算法及鲁棒性说明

4.1. ( r , c ) NMF算法

本节给出 L ( r , c ) NMF算法的更新公式及推导过程。重述目标函数如下:

Q L ( r , c ) N M F = j = 1 n p = 1 c D p j = j , i ( X i j U V i j ) 2 D i r + 1 + 1 , j s .t . U i j 0 , V i j 0 (14)

其中 D p j = t = r ( p 1 ) + 1 r p ( X t j U V t j ) 2 D c × n 。式(14)的拉格朗日函数如下:

L L ( r , c ) N M F = j , i [ ( X i j U V i j ) 2 D i r + 1 + 1 , j + U i j Φ i j + U i j Ψ i j ] (15)

L L ( r , c ) N M F U a b = [ ( Δ ( X U V ) ) V T ] a b Φ a b (16)

L L ( r , c ) N M F V a b = [ U T ( ( X U V ) Δ ) ] a b Ψ a b (17)

其中 Δ r c × n Δ i j = 1 / D i r + 1 + 1 , j 是哈达玛积(Hardamard product),表示矩阵元素间的乘积。

由KKT条件 L L ( r , c ) N M F U a b = 0 Φ a b U a b = 0 L L ( r , c ) N M F V a b = 0 Ψ a b V a b = 0 即可得U和V的更新公式:

U i j = U i j ( ( Δ X ) V T ) i j ( ( Δ U V ) V T ) i j (18)

V i j = V i j ( U T ( X Δ ) ) i j ( U T ( U V Δ ) ) i j (19)

L ( r , c ) NMF算法见算法1。

4.2. ( r , c ) 函数的鲁棒性说明

我们使用二维数据点来说明 L ( r , c ) NMF的鲁棒性。示例的十个数据点中有三个是异常值,对每一个数据点 x i 我们使用 U v i 进行拟合,k值取1,如此我们把数据点投影到1维子空间中,实验中 L ( r , c ) NMF设定参数 r = 1 c = 2 。给定的数据点以及分别使用NMF、 L 2 , 1 NMF和 L ( r , c ) NMF得到的拟合值见图1,从图中可以看出, L ( r , c ) NMF和 L 2 , 1 NMF得到的拟合值远离异常值的同时更加贴近原数据点,而NMF的拟合值则受到三个异常值的影响偏离了原数据点。对应数据点的残差 x i U v i 图2,图中可以清晰地看出 L ( r , c ) NMF能够与异常值保持更大的残差从而减小异常值对拟合结果的影响,除开三个异常值处的残差外,相比于NMF而言, L ( r , c ) NMF和 L 2 , 1 NMF都有更小的残差。

Figure 1. The results of fitting ten data points

图1. 拟合十个数据点的结果

Figure 2. The residual histogram of fitting the data points

图2. 拟合数据点的残差直方图

为进一步说明 L ( r , c ) NMF的有效性。我们在数据集上运行 L ( r , c ) NMF、 L 2 , 1 NMF和NMF算法进行对比。本文展示Yale数据集上的对比结果。该数据集中,每一个 x i 都是由一张图像按列向量化所得,因此分解得到的基矩阵 U = [ u 1 , u 2 , , u k ] 中的每一个向量 u i 也对应一张图像,将 u i 重排成原始大小的图像,展示见图3

图像排成两行,每一行的上、中、下层分别是 L ( r , c ) NMF、 L 2 , 1 NMF和NMF算法收敛后得到的基矩阵U重排后的图像结果。从图像可见, L ( r , c ) NMF表示出的特征脸具有更加清晰的面部特征,例如对比明显的第一行的第1、2、5、6列和第二行的2、3、6、7、8列。总的来讲, L ( r , c ) NMF和 L 2 , 1 NMF都能降低数据中的噪声和异常值对算法的影响,而 L ( r , c ) NMF相较于 L 2 , 1 NMF进一步兼顾了原始图像数据的空间结构,因此能获得比 L 2 , 1 NMF更加清晰的图像表示结果。以上从理论和实验结果两方面说明了 L ( r , c ) NMF算法的有效性。

Figure 3. The base matrix obtained on the Yale dataset

图3. Yale数据集上得到的基矩阵

5. 收敛性分析

定理1 对于 U 0 , V 0 ,目标函数 Q L ( r , c ) N M F 在更新规则式(17)和式(18)下是非增的。

为证定理1,引入辅助函数的定义以及引理1。

定义2 如果下列条件满足:

G ( v a b , v a b t ) F ( v a b ) (20)

G ( v a b t , v a b t ) = F ( v a b t ) (21)

则称 G ( v a b , v a b t ) F ( v a b ) 的一个辅助函数。

引理1 若 G ( v a b , v a b t ) F ( v a b ) 的辅助函数,那么 F ( v a b ) 在下列更新规则下是非增的:

v a b t + 1 = arg min v a b G ( v a b , v a b t ) (22)

证明:由定义2及引理1有

F ( v a b t + 1 ) = G ( v a b t + 1 , v a b t ) G ( v a b t , v a b t ) = F ( v a b t )

接下来给出辅助函数。记 F ( v a b ) 是目标函数 Q L ( r , c ) N M F 关于 v a b 的部分, F ( v a b ) v a b 的一阶导 F ( v a b ) 和二阶导 F ( v a b ) 分别如下:

F ( v a b ) = [ U T ( ( U V X ) Δ ) ] a b (23)

F ( v a b ) = p = 1 c ( i = r ( p 1 ) + 1 r p U i a 2 D p b S D p b 3 ) a b (24)

其中 S = ( i = r ( p 1 ) + 1 r p ( U V i b X i b ) U i a ) 2

引理2 函数

G ( v a b , v a b t ) = F ( v a b t ) + F ( v a b t ) ( v a b v a b t ) + 1 2 ( U T ( U V Δ ) ) a b v a b t ( v a b v a b t ) 2 (25)

F ( v a b ) v a b t 处的辅助函数。

证明:取 F ( v a b ) v a b t 处的泰勒展式

F ( v a b ) = F ( v a b t ) + F ( v a b t ) ( v a b v a b t ) + 1 2 F ( v a b t ) ( v a b v a b t ) 2 (26)

F ( v a b ) = p = 1 c ( i = r ( p 1 ) + 1 r p U i a 2 D p b S D p b 3 ) p = 1 c ( i = r ( p 1 ) + 1 r p U i a 2 D p b ) p = 1 c ( i = r ( p 1 ) + 1 r p U V i b U i a D p b ) = ( U T ( U V Δ ) ) a b v a b (27)

G ( v a b , v a b t ) F ( v a b ) 成立,显然,当 v a b = v a b t ,有 G ( v a b t , v a b t ) = F ( v a b t ) ,引理1得证。

易知 G ( v a b , v a b t ) 是关于 v a b 的二次函数,可得:

v a b t + 1 = arg min v a b G ( v a b , v a b t ) = v a b t F ( v a b ) ( U T ( U V Δ ) ) a b v a b t = v a b t ( U T ( X Δ ) ) a b ( U T ( U V Δ ) ) a b (28)

该式恰是更新规则式(19),故而定理1得证。篇幅所限,关于U的证明不再赘述。

6. 数值实验

本节使用本文提出的 L ( r , c ) NMF算法进行图像聚类实验,并与K-means、NMF算法 [2] 和 L 2 , 1 NMF算法 [9] 以及GNMF算法 [10] (正则项参数根据文献设定为10)进行图像聚类效果比较,实验使用的数据集是Yale、ORL。

6.1. 数据集介绍

Yale包含15个人,每个人不同表情、姿态和光照下的11张人脸图像,共165张图片,每张图片大小为32 × 32。

ORL包含40个人,每个人不同表情、姿态和光照下的10张人脸图像,共400张图片,每张图片大小为32 × 32。

6.2. 评估指标

本文以广泛使用的聚类精度(ACC)、归一化互信息(NMI)作为评估指标 [11] [12] 。

聚类精度(ACC)定义如下:

ACC = i = 1 n δ ( s i , m a p ( r i ) ) n

其中 s i 是样本点的真实标签, r i 是算法得到的该样本点的聚类标签,n是数据样本总数, δ ( x , y ) 定义如下:

δ ( x , y ) = { 1 , x = y 0 , x y

m a p ( . ) 是置换映射函数(permutation mapping function),Kuhn-Munkres算法可以得到最佳映射 [13] 。

记C为真实标签集合, C 为算法获得的聚类标签,两者的互信息(mutual information)定义如下:

M I ( C , C ) = c i C , c j C p ( c i , c j ) log 2 p ( c i , c j ) p ( c i ) p ( c j )

其中 p ( c i ) p ( c j ) 分别是从数据集中任意选取一个样本,该样本属于 c i c j 所在类的概率,而 p ( c i , c j ) 则表示任意选取一个样本,该样本同属于 c i c j 所在类的联合概率(joint probability)。

归一化互信息(NMI)定义如下:

M I ¯ = M I ( C , C ) max ( H ( C ) , H ( C ) )

H ( C ) H ( C ) 分别是C、 C 的熵(entropies)。 M I ¯ [ 0 , 1 ] ,若两集合相同,则 M I ¯ = 1 ;两集合无关,则 M I ¯ = 0

6.3. 参数设置

本文提出的 L ( r , c ) NMF需要根据原始图像数据的大小来确定 和 的值。在实验所用的Yale和ORL数据集中,每个样本向量表示一张32行、32列的原始图像,这两个数据集上 r = 32 c = 32

本文的数值实验环境为:Matlab 2016a,11th Gen Intel(R) Core(TM) i7-11800H @ 2.30GHz 2.30 GHz,16.00GB内存,Windows1164位操作系统。

具体步骤如下:

步骤一:从数据集中随机选取k类样本;

步骤二:使用算法1对选取的样本数据矩阵进行分解得到V;

步骤三:使用k-means算法对V进行聚类;

步骤四:计算ACC和NMI两个聚类指标。

重复上述步骤15次,记录ACC和NMI的平均值。

Table 1. Experimental results of three algorithms on the Yale dataset

表1. 三种算法在Yale数据集上的实验结果

Table 2. Experimental results of the three algorithms on the ORL dataset

表2. 三种算法在ORL数据集上的实验结果

7. 结论

本文定义了具有鲁棒性且兼顾原始数据图像空间结构的 L ( r , c ) 函数并给出相应的 L ( r , c ) NMF算法,拟合测试数据时目标函数具有较好的抗噪(robustness)表现,图像数据集上聚类实验结果可看出, L ( r , c ) NMF算法兼顾了原始图像数据结构,相对于K-means、NMF算法和 L 2 , 1 NMF算法以及GNMF算法而言在AC和NMI指标下具有更好的聚类性能,实验结果见表1表2。以上均证实了本文算法的有效性。

参考文献

[1] Lee, D.D. and Seung, H.S. (1999) Learning the Parts of Objects by Non-Negative Matrix Factorization. Nature, 401, 788-791.
https://doi.org/10.1038/44565
[2] Lee, D. and Seung, H.S. (2000) Algorithms for Non-Negative Matrix Factorization. Proceedings of the 13th International Conference on Neural Information Processing Systems, Barcelona, 4-9 December 2016, 535-541.
[3] Pauca, V.P., Shahnaz, F., Berry, M.W., et al. (2004) Text Mining Using Non-Negative Matrix Factorizations. Proceedings of the 2004 SIAM International Conference on Data Mining, Lake Buena Vista, 22-24 April 2004, 452-456.
https://doi.org/10.1137/1.9781611972740.45
[4] Shu, Z., Wu, X.J., You, C., et al. (2020) Rank-Constrained Nonnegative Matrix Factorization for Data Representation. Information Sciences, 528, 133-146.
https://doi.org/10.1016/j.ins.2020.04.017
[5] Brunet, J.P., Tamayo, P., Golub, T.R., et al. (2004) Metagenes and Molecular Pattern Discovery Using Matrix Factorization. Proceedings of the National Academy of Sciences, 101, 4164-4169.
https://doi.org/10.1073/pnas.0308531101
[6] Li, T., Ding, C. and Jordan, M.I. (2007) Solving Con-sensus and Semi-Supervised Clustering Problems Using Nonnegative Matrix Factorization. 7th IEEE International Con-ference on Data Mining (ICDM 2007), Omaha, 28-31 October 2007, 577-582.
https://doi.org/10.1109/ICDM.2007.98
[7] Ding, C., He, X. and Simon, H.D. (2005) On the Equivalence of Nonnegative Matrix Factorization and Spectral Clustering. Proceedings of the 2005 SIAM International Conference on Data Mining, Newport Beach, 21-23 April 2005, 606-610.
https://doi.org/10.1137/1.9781611972757.70
[8] Liu, W., Zheng, N. and You, Q. (2006) Nonnegative Matrix Factorization and Its Applications in Pattern Recognition. Chi-nese Science Bulletin, 51, 7-18.
https://doi.org/10.1007/s11434-005-1109-6Kong, D., Ding, C. and Huang, H.
[9] (2011) Robust Nonnegative Matrix Factorization Using l21-Norm. Proceedings of the 20th ACM International Conference on Information and Knowledge Management, Glasgow Scotland, 24-28 October 2011, 673-682.
https://doi.org/10.1145/2063576.2063676
[10] Cai, D., He, X., Han, J., et al. (2010) Graph Regularized Nonnega-tive Matrix Factorization for Data Representation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 33, 1548-1560.
https://doi.org/10.1109/TPAMI.2010.231
[11] Xu, W., Liu, X. and Gong, Y. (2003) Document Clustering Based on Non-Negative Matrix Factorization. Proceedings of the 26th Annual International ACM SIGIR Conference on Re-search and Development in Information Retrieval, Toronto, 28 July-1 August 2003, 267-273.
https://doi.org/10.1145/860435.860485
[12] Cai, D., He, X. and Han, J. (2005) Document Clustering Using Local-ity Preserving Indexing. IEEE Transactions on Knowledge and Data Engineering, 17, 1624-1637.
https://doi.org/10.1109/TKDE.2005.198
[13] Lovász, L. and Plummer, M.D. (2009) Matching Theory. American Mathematical Society, Boston.
https://doi.org/10.1090/chel/367