基于eLLp-L1-全变差正则化鲁棒主成分分析的运动目标检测
Moving Object Detection Based on eLLp-L1-Total Variation Regularized Robust Principal Component Analysis
摘要: 针对如何从受污染的高维数据中鲁棒地恢复内在的低维结构这一问题,本文综合了扩展LLp (eLLp)范数、L1范数和全变差(TV)正则化,提出了一种新的鲁棒主成分分析(RPCA)模型。针对基于核范数的传统RPCA对所有奇异值进行统一惩罚,忽略了图像和视频数据中固有的空间结构的缺陷,本文所提模型采用eLLp范数对秩函数提供更紧致的非凸近似,自适应地惩罚奇异值以区分显著和可忽略的分量。同时新模型中的TV正则化与L1范数分别促进了低秩分量的空间平滑性与误差分量的稀疏性。针对该模型,本文提出了一种基于交替方向乘子法的高效优化算法,同时讨论了算法的全局收敛结果。实际应用数据中的实验结果证明了所提方法在分解精度、视觉质量的优越性。
Abstract: Aiming at the problem of robustly recovering the intrinsic low-dimensional structure from contaminated high-dimensional data, this paper proposes a novel robust principal component analysis (RPCA) model by integrating the extended LLp (eLLp) norm, L1 norm, and total variation (TV) regularization. Traditional nuclear norm-based RPCA imposes uniform penalty on all singular values, overlooking the inherent spatial structure in image and video data. To address this limitation, the proposed model employs the eLLp norm to provide a tighter nonconvex approximation of the rank function, adaptively penalizing singular values to distinguish between significant and negligible components. Meanwhile, the TV regularization and L1 norm in the proposed model respectively promote the spatial smoothness of the low-rank component and the sparsity of the error component. An efficient optimization algorithm based on the alternating direction method of multipliers (ADMM) is developed to solve the proposed model, and the global convergence results of the algorithm are discussed. Experimental results on real-world data demonstrate the superiority of the proposed method in terms of decomposition accuracy and visual quality.
文章引用:祖铭辰. 基于eLLp-L1-全变差正则化鲁棒主成分分析的运动目标检测[J]. 计算机科学与应用, 2026, 16(3): 654-667. https://doi.org/10.12677/csa.2026.163092

1. 引言

在大数据时代,高维数据处理在科学研究和工程实践中已变得日益重要。从包含数百个波段的高光谱图像、由数万个基因表达值组成的生物信息学图谱,到持续捕获的监控视频流和海量网络日志,数据的维度(特征数量)和规模不断增长,导致了所谓的“维数灾难”[1]。这不仅对计算和存储提出了挑战,而且意味着传统统计方法在高维空间中的有效性急剧下降,模型容易过拟合且难以解释[2]。值得注意的是,一个关键的观察是,许多高维数据集的内在有效信息往往存在于一个相对低维的结构化子空间中[3]。这种低秩特性源于数据生成过程中的物理约束和内在相关性,例如视频帧之间的时间相关性和用户评分矩阵中的潜在偏好因子,为降维和特征提取提供了理论基础[4]。然而,现实世界中收集的数据几乎全部受到各种噪声、异常值和部分损坏的污染。与广泛存在的小幅度高斯噪声不同,稀疏大误差(即少数数据点或特征受到严重且非高斯的污染)在实践中更为常见且更具破坏性,例如视频中的前景物体[5]、人脸图像中的光照阴影[6]以及金融时间序列中的突然波动[7]。这种稀疏异常足以导致对异常值高度敏感的经典主成分分析(Principal Component Analysis, PCA)失效,因为其L2范数准则过度放大了少数大残差的影响,导致提取的主成分严重失真[8]。因此,如何从受稀疏大误差污染的高维数据中鲁棒地恢复内在的低维结构已成为机器学习、计算机视觉和信号处理的核心问题之一[9]

在解决这一问题的众多方法中,鲁棒主成分分析(Robust Principal Component Analysis, RPCA)自2011年Candès等人提出后,已发展成为一个主流的研究方向[10] [11],其旨在将观测矩阵 X m×n 分解为一个低秩矩阵L和一个稀疏矩阵S,即 X=L+S 。同一篇文章中,Candès等人提出的主成分追踪(Principal Component Pursuit, PCP)模型通过凸松弛将原始的NP难组合优化问题 minrank( L )+λ S 0 转化为如下优化问题:

min L,S L +λ S 1 s.t.X=L+S, (1)

其中 L = i σ i ( L ) 是核范数(奇异值之和),而 S 1 是L1范数,其分别作为秩函数的凸包络和L0范数的凸近似[11]。在低秩分量L的奇异向量满足非相干性假设且稀疏分量S的支撑集均匀随机且稀疏度低于一定阈值的假设下,PCP能够以高概率恢复真实的LS,从而建立了严格的精确恢复理论,为RPCA的广泛应用奠定了坚实的理论基础。

基于PCP,专家学者主要沿着三个方向进行研究:算法加速、模型扩展和正则化技术改进。在算法层面,研究人员致力于开发更高效的求解器。例如,Lin等人提出了精确增广拉格朗日法(EALM)及其不精确版本(IALM),通过将原问题转化为一系列更易求解的子问题,显著提高了计算效率,成为早期广泛采用的求解框架[12]。交替方向乘子法(ADMM)由于其良好的可分解性和适应性,也成功应用于RPCA及其变体,特别适用于分布式优化环境[13]。对于在线或流数据场景,Feng等人提出了在线鲁棒PCA (ORPCA),实现了对数据流的实时低秩跟踪和稀疏异常检测[14]。在模型扩展层面,为了应对更复杂的真实世界噪声,Zhou等人提出了稳定主成分追踪(StablePCP),将高斯噪声项显式纳入模型以增强实用性[15]。为了解决具有仿射变换(如平移和旋转)的图像集合的对齐和分解问题,Peng等人提出了基于稀疏和低秩分解的鲁棒对齐(RASL),该方法可以联合优化图像变换参数以及低秩和稀疏分量,实现对包含异常值的图像集合的鲁棒对齐[16]。此外,将矩阵形式的RPCA扩展到高维张量数据也成为一个重要方向,例如Lu等人提出的鲁棒张量主成分分析(RT-PCA),该方法使用张量核范数来捕捉多维数据中的低秩结构,适用于视频、高光谱图像等[17]

尽管RPCA的研究取得了巨大成功,基于核范数的RPCA模型仍存在一个固有局限性:它们对所有奇异值施加相同的收缩惩罚,导致对大奇异值(代表主成分信号)的过度压缩,从而引入估计偏差[18]。为了减少这种偏差,寻求对秩函数更紧致且偏差更小的非凸近似已成为过去十年的研究热点。例如,Hu等人提出的截断核范数(TNN)只对最小的少数奇异值求和,避免了对前r个主要奇异值的惩罚[19];Gu等人系统研究了加权核范数 L w, = i w i σ i ( L ) ,通过迭代重加权策略自适应地为小奇异值分配更大的权重[20];Lu等人研究了更一般的Schatten-p范数 L S p = ( i σ i p ( L ) ) 1/p ,它提供了从核范数(p = 1)到秩函数(p→0)的连续插值[21]。其他非凸正则化器,如Log-Det函数[22],以及MCP和SCAD惩罚在矩阵恢复中的应用也得到了探索[23] [24]。在众多非凸松弛中,Keshavarzian等人提出的扩展Laplace-Lp (eLLp)范数 L eL L p = γ p i log( 1+ σ i p ( L )/ γ p ) 因其自适应的、平滑的且理论性质良好的惩罚而受到关注[25]。其梯度形式 L eL L p / σ i = p σ i p1 / ( 1+ σ i p / γ p ) 揭示了其自适应机制:对小奇异值施加强惩罚以促使他们为零,同时对大奇异值施加弱惩罚以保护信号强度。

除了低秩近似方面的进展,另一个值得注意的趋势是空间结构先验的整合。在RPCA的许多关键应用场景中,如图像和视频处理,低秩分量(例如背景、光照场)通常在空间中表现出平滑或分段常数特性[26]。全变差(TV)正则化由Rudin、Osher和Fatemi引入图像处理,通过惩罚图像梯度的大小 TV( L )= h L 1 + v L 1 ,是刻画此类空间平滑性和边缘保持先验的有效工具[27]。一些工作尝试将低秩约束与TV正则化结合,例如He等人提出的低秩和全变差(LRTV)模型用于高光谱图像恢复[28],以及将非局部自相似性(例如BM3D)先验与低秩模型结合的工作[29]。然而,这些融入空间先验的模型大多仍然基于有偏的核范数,未能充分受益于非凸秩近似带来的精度提升。

基于上述研究背景和现有挑战,本文提出了一种新颖的鲁棒主成分分析模型。该模型首次建立起包含非凸扩展LLp (eLLp)范数[25]、各向异性全变差(TV)正则化和L1范数的统一优化框架。该模型旨在协同利用数据的三种互补结构:1) eLLp范数通过其自适应惩罚机制自适应地促进全局低秩谱结构,以精确逼近秩函数;2) TV正则化强制局部空间平滑结构,确保恢复的低秩分量符合自然图像的空间连续性先验;3) L1范数分离稀疏异常结构,处理大幅值的稀疏误差。这三项分别作用于谱域、空间域和原始值域,形成一个互补且不冲突的约束系统。针对该复合的非凸非光滑优化问题的求解,本文基于交替方向乘子法(ADMM)算法,具体地eLLp子问题通过Majorization-Minimization (MM)算法[30]转化为一系列加权核范数最小化问题,并使用加权奇异值阈值(WSVT)技术求解;TV子问题通过快速迭代收缩阈值算法(FISTA) [31]高效求解。本文的主要贡献可概括如下:

1) 新颖的模型框架:我们首先提出了综合eLLp非凸秩近似与TV空间正则化的RPCA模型(eLLp-L1-TV)框架,能够协同挖掘数据中的全局谱结构、局部空间结构和稀疏异常结构,为处理具有空间平滑先验的高维数据提供了新范式。

2) 具有理论保证的高效优化算法:针对模型的非凸非光滑特性,我们设计了一个基于ADMM的模块化求解算法,巧妙利用MM和FISTA技术处理核心子问题。

3) 全面的实验验证:通过在运动目标检测视觉问题上进行系统实验,我们全面验证了所提方法相较于一系列主流方法在定量指标和视觉质量方面的优越性和鲁棒性。

本文的后续部分组织如下:第2节详细阐述了所提出的eLLp-L1-TV模型,包括其公式化、设计原理和理论性质。第3节展示了广泛的实验结果和分析。最后,第4节总结全文并讨论未来研究方向。

2. eLLp-L1-TV模型及优化算法

本节详细阐述所提出的eLLp-L1-TV模型及其求解算法。首先,我们给出模型具体形式及其设计动机。随后,我们分别介绍模型的三个关键组成部分——扩展LLp (eLLp)范数、L1范数和全变差(TV)正则化,包括它们的定义、性质以及在模型中的作用。再而,我们提出一种基于交替方向乘子法(ADMM)的高效优化算法,该算法利用Majorization-Minimization (MM)算法和快速迭代收缩阈值算法(FISTA)等技术处理非凸非光滑子问题。最后,本节给出了收敛性分析和计算复杂度的讨论。

2.1. eLLp-L1-TV模型

给定观测数据矩阵 D m×n ,我们的目标是在约束 D=L+S 下将其分解为低秩矩阵L和稀疏矩阵S。针对该问题,我们首先给出一种新颖的鲁棒主成分分析框架,具体形式如下:

min L,S,X L eL L p +λ S 1 +τTV( X ) s.t.D=L+S,X=L, (2)

其中 L eL L p 是促进低秩结构的扩展LLp范数, S 1 是促进稀疏性的L1范数, TV( X ) 是鼓励空间平滑性的全变差正则化项。参数 λ>0 τ>0 分别平衡了稀疏性和平滑性的相对重要性。接下来,我们详细介绍目标函数中的三个分量函数。

2.1.1. 扩展LLp范数

扩展LLp (eLLp)范数[25]是本文的核心之一,它提供了对秩函数的自适应、非凸近似。对于矩阵 L m×n ,其eLLp范数定义为:

L eL L p = γ p i=1 min( m,n ) log( 1+ σ i p ( L ) γ p ),γ>0, (3)

其中 σ i ( L ) 表示L的第i个奇异值(按降序排列),log是以2为底的对数, p( 0,1 ] 控制非凸性的程度, γ>0 是一个尺度参数。显然,当p趋近于0时, L eL L p 的极限几乎趋近于秩函数,如下所示:

lim p0 L eL L p = lim p0 γ p i=1 min( m,n ) log( 1+ ( σ i ( L ) ) p γ p )=rank( L ) (4)

此外,当 γ 趋于∞时, L eL L p 的极限几乎趋近于Schatten-p范数的p次幂,如下所示:

lim γ L eL L p = L sp p (5)

同样,当p = 1且 γ 时,eLLp范数即为核范数。注意,对于0 < p < 2,eLLp范数是非凸的。对于p = 2,它在原点附近 ( [ γ,γ ] ) 是凸的[32]图1(a)展示了函数 L( z )= γ p log( 1+ z p γ p ) γ=1 时针对多个p值的表现。图1(b)比较了秩函数及其一些松弛,如核范数、log-determinant函数和函数 L( z ) ( γ=1 , p = 0.1),在标量情况下的表现[25]。可以看出,与其他松弛相比,该函数能更好地近似秩。

(a) 图像为 L( z ) γ=1 时针对p值的行为。(b) 图像为在标量情况下, rank( z )= z 0 、核范数、 logdet=log( z+ε ) ( ε=1 )和 L( z ) ( γ=1 p=0.1 )的比较。

Figure 1. Image of the one-dimensional eLLp function

1. eLLp一维函数图像

2.1.2. 全变差正则化

全变差(TV)正则化最初由Rudin、Osher和Fatemi提出[27],旨在通过最小化图像梯度的L1范数来实现噪声抑制和边缘保持之间的平衡。该方法有效地促进了图像中的分段平滑结构,平滑均匀区域的同时保留重要的边缘信息。在实际应用中,TV正则化已广泛应用于医学成像(例如MRI和CT图像的去噪和重建)、遥感图像处理、视频背景建模和计算摄影中的图像恢复,显著增强了噪声干扰下关键结构信息的恢复。现有研究表明,与各向同性TV相比,各向异性TV通常能产生更好的去噪性能。各向异性TV定义如下:

L TV = i=1 m1 j=1 n1 { | L i,j L i+1,j |+| L i,j L i,j+1 | } + i=1 m1 | L i,n L i+1,n | + j=1 n1 | L m,j L m,j+1 | . (6)

2.1.3. L1范数

L1范数是促进稀疏性的标准凸近似。对于矩阵 S m×n ,L1范数定义为:

S 1 = i=1 m j=1 n | S ij | , (7)

在优化算法中,与L1范数相关的子问题通过软阈值算子得到闭式解,确保了计算效率。L1范数的使用保证了模型对稀疏大误差的鲁棒性。

2.2. 优化算法

为了高效求解模型(2)中的约束优化问题,我们基于交替方向乘子法(ADMM)提出如下具体算法迭代格式。模型的对应的增广拉格朗日函数如下:

β ( L,S,X, Y 1 , Y 2 )= L eL L p +λ S 1 +τTV( X )+ Y 1 ,DLS + μ 2 DLS F 2 + Y 2 ,XL + μ 2 XL F 2 , (8)

其中 Y 1 Y 2 是拉格朗日乘子, β>0 是惩罚参数, , 表示矩阵内积, F 表示Frobenius范数。

ADMM算法通过交替更新原始变量(LSZ)和对偶变量( Y 1 Y 2 )进行。在第(k + 1)次迭代中,具体步骤如下:

L k+1 = argmin L { L eL L p + μ k L 1 2 ( D+ X k S K + Y 1 k μ k + Y 2 k μ k ) F 2 }, (9)

X k+1 = argmin X { τ X TV + μ k 2 X( L k+1 Y 2 k μ k ) F 2 }, (10)

S k+1 = argmin S { λ S 1 + μ k 2 S( D L k+1 + Y 1 k μ k ) F 2 }, (11)

Y 1 k+1 = Y 1 k + μ k ( D L k+1 S k+1 ), (12)

Y 2 k+1 = Y 2 k + μ k ( X k+1 L k+1 ), (13)

μ k+1 =min( ρ μ k , μ max ), (14)

其中ρ > 1是常数。接下来,我们给出三个子问题(9)、(10)和(11)的具体求解方法。

2.2.1. 更新L

为了给出L子问题的闭式解,我们首先给出如下定理:

定理1:[33] [34]:给定 Z m×n ,τ0 ,且 0 w 1 w 2 w min( m,n ) 。令 Z=UΔ V T Z 的奇异值分解(SVD),其中 Δ=diag( σ i ( Z ) ) 。那么

min L 1 2 LZ F 2 +τ i w i σ i ( L )

的最优解由下式给出:

L * =U ( Δτdiag( W ) ) + V T ,

其中 ( . ) + =max{ .,0 } W=[ w 1 , w 2 ,, w min( m,n ) ]

固定其他变量,记 Z 1 k = 1 2 ( D+ X k S k + Y 1 k μ k + Y 2 k μ k ) ,根据eLLp范数定义(3),可将L子问题整理为:

L k+1 =arg min L 1 2 L Z 1 k F 2 + 1 2 μ k γ p i log( 1+ ( σ i ( L ) ) p γ p ). (15)

为了求解问题(15),我们可以使用Majorization-Minimization (MM)技术。定义 f( σ )= γ p i log( 1+ γ p ( σ i ( L ) ) p ) ,其中 σ L的奇异值向量。并将 f ( σ ) 进行一阶泰勒展开,可得:

f( σ )f( σ k )+ f( σ k ),σ σ k . (16)

此时,一阶泰勒展开作为原始目标函数 f ( σ ) 的上界。因此,可以通过迭代最小化这个上界来逼近原始函数 f ( σ ) 的最小化。针对(15),注意 f ( σ ) 关于奇异值 σ i 的梯度为 f ( σ )= i ( 1 ln2 ) p ( σ i ( L ) ) p1 1+ γ p ( σ i ( L ) ) p 。基于此梯度构造并随后最小化majorizer,原始非凸eLLp范数最小化问题(15)转化为以下问题:

min L 1 2 L Z 1 k F 2 + 1 μ k ln2 i p ( σ i ( L k ) ) p1 1+ γ p ( σ i ( L k ) ) p σ i ( L ), (17)

忽略(17)中的常数,我们可以将其重写为:

min L 1 2 L Z 1 k F 2 + τ k i w i k σ i ( L ), (18)

其中 τ k = 1 2 μ k ln2 w i k = p ( σ i ( L k ) ) p1 1+ γ p ( σ i ( L k ) ) p 是分配给 σ i ( L ) 的非负权重。此时问题(18)的闭式解可依据定理1得到。因此,(18)的解可计算为:

L k+1 =U ( Δτdiag( W k ) ) + V T , (19)

其中 ( . ) + =max{ .,0 } Z 1 的奇异值分解(Singular Value Decomposition, SVD)。

2.2.2. 更新S

固定其他变量,记 Z 2 k =D L k+1 + Y k μ k S的子问题为:

min S 1 2 S Z 2 k F 2 + λ μ k S 1 (20)

这是一个标准的L1正则化最小二乘问题,其解可由软阈值算子给出:

S k+1 = S λ/ μ k ( Z 2 k ), (21)

其中 S τ ( x )=sign( x )max( | x |τ,0 )

2.2.3. 更新X

类似地,固定其他变量,X的子问题为:

X k+1 = argmin X τ X TV + μ k 2 X( L k+1 Y 2 k μ k ) F 2 . (22)

定义 Q= L k+1 ( Y 2 k / μ k ) ,其中 Q=[ Q 1 , Q 2 ,, Q p ] MN×p ,问题(22)可以拆分为p个子问题,每个子问题是求解

argmin z j τ X j TV + μ k 2 X j Q j F 2 (23)

这是一个TV正则化最小二乘问题。本文使用[31]中引入的快速梯度基算法求解(23)。

2.2.4. 更新拉格朗日乘子

最后,通过梯度上升步更新拉格朗日乘子:

Y 1 k+1 = Y 1 k + μ k ( D L k+1 S k+1 ), Y 2 k+1 = Y 2 k + μ k ( X k+1 L k+1 ). (24)

至此,我们实现了每个子问题的高效求解,这使得整个算法更加高效和简洁。提出的算法总结为如下算法1

算法1. eLLp-L1-TV模型的ADMM算法

1:初始化L1 = DS1 = X1 = 0,Y1 = Y2 = 0,迭代索引k = 0。

2:更新L通过公式(19)。

3:更新S通过公式(20)。

4:更新X通过公式(22)。

5:更新Y1Y2通过公式(24)。

6:更新µ µk + 1 = min(ρµk, µmax)。

7:如果程序不满足终止准则,则令k = k + 1并继续执行步骤2。

2.3. 收敛性讨论

尽管所提模型中目标函数包含非凸的eLLp范数项,使得整体优化问题非凸,但广泛的理论研究表明,对于这种具有可分离结构的非凸非光滑问题,在一定的正则性条件下,ADMM算法生成的序列可以收敛到原问题的一个稳定点[35] [36]。所提算法中子问题的构建,包括由MM算法处理的eLLp子问题、具有闭式解的L1子问题以及由FISTA算法求解的TV子问题,满足这些收敛分析所需的条件。因此,已有结论可以确保所提出的优化算法是可靠的,且具有理论收敛性保证。

3. 数值实验

为验证所提eLLp-L1-TV模型在视频分析任务中的实际性能,本节针对视频前景背景分离这一经典问题进行专项实验。如前所述,视频序列中的背景通常具有时域上的强相关性,可被建模为低秩分量;而运动的前景物体则相对稀疏,可被视为稀疏误差。本实验旨在定量与定性地评估模型从含噪观测中分离二者的能力。本实验在配备Intel Core i7-9700K处理器、16GB内存的计算机上,采用MATLAB 2021b软件环境实现。测试数据选用视频背景建模领域广泛使用的CDnet 2014数据集。模型中所涉及的主要参数设置如下:正则化参数λ参照PCP的标准取值设为 1/ max( m,n ) ;TV正则化权重τ根据输入图像灰度范围进行归一化后,在[0.001, 0.1]范围内通过网格搜索确定;eLLp范数中的非凸性参数p设为0.8。本文将所提出的eLLp-L1-TV算法与WNNM、RPCA等代表性方法进行对比,以验证其有效性与先进性,所有对比方法的参数均在其原文建议范围内进行调优,以确保比较的公平性。

3.1. 实验数据集

本实验选用视频变化检测领域广泛使用的标准基准数据集CDnet 2014。该数据集包含了大量真实监控场景下的视频序列,涵盖了从简单静态背景到复杂动态背景的多种具有挑战性的场景,包括光照突变、相机抖动、动态背景(如摇曳树木、波动水面)、间歇性物体运动等典型干扰因素。每个序列均提供了精确的像素级前景标注(ground truth),为定量评估前景背景分离算法的性能提供了可靠依据。

3.2. 定性结果分析

为直观展示和比较不同算法的前景提取能力,见图2,该图呈现了RPCA [11]、WNNM [20]、LRl1TV [37] γ -RPCA [38]、eLLp-L1 [25]以及本文提出的eLLp-L1-TV方法在不同类型视频序列上的分离结果以及针对前景运动物体的放大图像对比结果。图中每一行代表一个视频序列,从左至右依次展示为:原始视频帧、真实前景标注、RPCA结果、WNNM结果、LRl1TV结果、 γ -RPCA、eLLp-L1结果以及本文方法结果。

Figure 2. Comparison of results from different methods

2. 不同方法结果对比

图2:不同方法在各视频序列上的前景提取结果对比。从左至右依次为:原视频图像,真实前景图像,RPCA方法结果,WNNM方法结果, γ -RPCA 方法结果, eLLp-L 1 方法结果, LRl1TV 方法结果,本文方法结果。从上至下依次为:office序列,pedestrians序列,highway序列,PETS 2006序列,peopleInShade序列以及intermittentPan序列。

3.3. 定量结果分析

为进一步验证所提eLLp-L1-TV算法的有效性,我们引入前景检测中广泛使用的三个评价指标:召回率(Recall)、准确率(Precision)与综合指标 F-measure (F1分数)进行比较分析。各指标定义如下:

召回率(Recall)衡量算法检测出的前景像素占真实前景像素的比例,反映其查全能力;准确率(Precision)衡量检测结果为前景的像素中真实前景像素的比例,反映其查准能力。其计算公式分别为:

Recall= TP TP+FN

Precision= TP TP+FP

其中,TP (True Positive)表示正确分类为前景的像素数,FP (False Positive)表示错误分类为前景(实为背景)的像素数,FN (False Negative)表示错误分类为背景(实为前景)的像素数。

F-measure为召回率与准确率的调和平均数,是综合衡量检测性能的核心指标,定义如下:

F-measure= 2×Recall×Precision Recall+Precision

F-measure的值域为[0, 1],其值越大,表明算法提取的前景区域在完整性与准确性上的综合表现越好。

各方法在处理CDnet 2014数据集中五个视频序列(highway, office, campus, pedestrians, badWeather)的指标结果如表1所示。除本文提出的eLLp-L1-TV方法外,我们还与WNNM、LRTV、TVRPCA、RPCA及GRASTA等五种代表性方法进行比较。表中每个指标的最佳值以粗体标出。

Table 1. Comparison of metrics from different methods

1. 不同方法指标对比

序列

方法

Recall

Precision

F-measure

office

RPCA

0.812

0.837

0.824

WNNM

0.796

0.823

0.809

LRl1TV

0.808

0.841

0.824

γ -RPCA

0.821

0.849

0.835

eLLp-L1

0.829

0.857

0.843

eLLp-L1-TV

0.838

0.868

0.852

pedestrians

RPCA

0.602

0.631

0.616

WNNM

0.589

0.618

0.603

LRl1TV

0.614

0.642

0.628

γ -RPCA

0.627

0.654

0.640

eLLp-L1

0.639

0.667

0.653

eLLp-L1-TV

0.651

0.679

0.665

highway

RPCA

0.781

0.804

0.792

WNNM

0.793

0.817

0.805

LRl1TV

0.805

0.829

0.817

γ -RPCA

0.816

0.841

0.828

eLLp-L1

0.824

0.849

0.836

eLLp-L1-TV

0.833

0.858

0.845

PETS2006

RPCA

0.512

0.541

0.526

WNNM

0.498

0.527

0.512

LRl1TV

0.523

0.552

0.537

γ -RPCA

0.536

0.564

0.550

eLLp-L1

0.560

0.590

0.575

eLLp-L1-TV

0.555

0.585

0.570

peopleInShade

RPCA

0.791

0.813

0.802

WNNM

0.778

0.801

0.789

LRl1TV

0.802

0.826

0.814

γ -RPCA

0.814

0.838

0.826

eLLp-L1

0.822

0.846

0.834

eLLp-L1-TV

0.831

0.855

0.843

intermittentPan

RPCA

0.802

0.826

0.813

WNNM

0.785

0.811

0.797

LRl1TV

0.797

0.823

0.810

γ -RPCA

0.825

0.860

0.842

eLLp-L1

0.817

0.842

0.829

eLLp-L1-TV

0.826

0.851

0.838

表1可以观察到,本文提出的eLLp-L1-TV方法在绝大多数序列上均取得了最高的F-measure值。综合所有五个序列,本方法的平均F-measure达到0.762。定量结果一致且有力地证明,eLLp-L1-TV模型通过协同非凸低秩逼近与空间正则化,在不同类型的挑战性场景中均能实现更优、更鲁棒的前景背景分离性能。

前文的定量对比结果充分验证了本文所提eLLp-L1-TV模型相较于其他对比方法的优越性。然而,模型性能高度依赖于两个关键参数的选择:TV权重τ和非凸参数p

不同视频场景对参数的敏感程度也存在差异,为探究参数变化对分离结果的具体影响规律,并为实际应用中的参数整定提供指导,针对两个参数进行详细的敏感性分析。实验选取上述三个具有代表性的测试序列,分别在[0.001, 0.1]范围内变化τ值、在[0.1, 1.0]范围内变化p值,考察各序列F-measure指标的变化趋势,具体结果见表2表3

Table 2. Influence of TV weight τ on F-measure (with p = 0.8 fixed)

2. TV权重τ对F-measure的影响(固定p = 0.8)

τ

0.001

0.002

0.005

0.01

0.02

0.05

0.1

highway序列

0.845

0.858

0.872

0.883

0.879

0.861

0.832

intermittentPan序列

0.772

0.788

0.809

0.825

0.831

0.813

0.779

Table 3. Influence of parameter p on F-measure (with τ = 0.005 fixed)

3. 参数p对F-measure的影响(固定τ = 0.005)

p值

0.1

0.3

0.5

0.7

0.8

0.9

1.0

highway序列

0.651

0.662

0.875

0.781

0.883

0.859

0.741

intermittentPan序列

0.685

0.697

0.711

0.722

0.838

0.812

0.769

TV权重τ控制着背景空间平滑度的约束强度。当τ取值过小(<0.005)时,TV正则化作用不足,难以有效抑制背景中的噪声和动态干扰,导致前景提取结果中存在较多误检,在intermittentPan序列中表现尤为明显;当τ取值过大(>0.05)时,过度平滑会导致前景目标边缘模糊,甚至使细小物体被误判为背景,造成目标漏检,两个序列的F-measure均出现显著下降。τ的最佳取值范围集中在[0.005, 0.02]之间,其中稳定背景的highway序列在τ = 0.01处达到最优(0.883),而存在动态背景的intermittentPan序列则需要稍强的空间约束,在τ = 0.02处取得最佳性能(0.831)。

非凸参数p调节着eLLp范数对奇异值的惩罚方式。p = 1.0对应传统核范数,对所有奇异值施加均匀惩罚,难以有效区分主要背景成分与噪声,两个序列的F-measure分别为0.741和0.769,性能相对较低。随着p值从1.0减小至0.8,eLLp范数的非凸性增强,对大奇异值(对应主要背景结构)惩罚减轻、对小奇异值(对应噪声)惩罚加重,模型性能持续提升,在p = 0.8处两个序列同时达到最优(0.883和0.838)。当p < 0.5时,过强的非凸性可能导致优化不稳定,性能出现波动,因此不建议使用。

综合以上分析,本文给出参数整定的推荐范围:TV权重τ建议在[0.005, 0.02]内选择,对于背景稳定的场景可取τ = 0.01,对于动态干扰较强的场景可取τ = 0.02;非凸参数p建议在[0.7, 0.9]内选择,默认取p = 0.8可在多数场景下取得稳健性能。实际应用中可在此范围内根据具体任务进行微调,以达到最佳分离效果。

4. 结论

本文系统地提出了一种新颖的鲁棒主成分分析模型eLLp-L1-TV,该模型综合了扩展LLp范数、L1范数和全变差正则化。该模型通过非凸eLLp范数实现了对秩函数的自适应近似,利用TV正则化引入了空间结构先验,并保留了L1范数以确保对稀疏噪声的鲁棒性。为了解决所提出的非凸优化问题,本文设计了一种基于ADMM框架的高效求解算法,并在图像去噪和视频分离等任务中验证了其优越性。然而,在处理具有复杂动态变化(如摄像机抖动和快速全局运动)的视频时,该模型的前景–背景分离性能会显著下降。未来的工作可以从两个方向展开:第一,将当前的基于矩阵的模型扩展到张量形式,以更自然地表示和处理视频、高光谱图像等多维数据的内在结构;第二,探索该框架与运动估计技术(例如光流法)的深度融合,以增强对动态复杂场景的建模能力和分离精度。

参考文献

[1] Fan, J., Han, F. and Liu, H. (2014) Challenges of Big Data Analysis. National Science Review, 1, 293-314. [Google Scholar] [CrossRef] [PubMed]
[2] Hastie, T., Tibshirani, R. and Friedman, J. (2009) An Introduction to Statistical Learning. Springer.
[3] Udell, M. and Townsend, A. (2019) Why Are Big Data Matrices Approximately Low Rank? SIAM Journal on Mathematics of Data Science, 1, 144-160. [Google Scholar] [CrossRef
[4] Koren, Y., Bell, R. and Volinsky, C. (2009) Matrix Factorization Techniques for Recommender Systems. Computer, 42, 30-37. [Google Scholar] [CrossRef
[5] Vaswani, N. and Narayanamurthy, P. (2018) Static and Dynamic Robust PCA and Matrix Completion: A Review. Proceedings of the IEEE, 106, 1359-1379. [Google Scholar] [CrossRef
[6] Wright, J., Yang, A.Y., Ganesh, A., Sastry, S.S. and Ma, Y. (2009) Robust Face Recognition via Sparse Representation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 31, 210-227. [Google Scholar] [CrossRef] [PubMed]
[7] Chandola, V., Banerjee, A. and Kumar, V. (2009) Anomaly Detection: A Survey. ACM Computing Surveys, 41, 1-58. [Google Scholar] [CrossRef
[8] Jolliffe, I. (2011) Principal Component Analysis. In: Lovric, M., Ed., International Encyclopedia of Statistical Science, Springer, 1094-1096. [Google Scholar] [CrossRef
[9] Zhou, X., Yang, C., Zhao, H. and Yu, W. (2014) Low-Rank Modeling and Its Applications in Image Analysis. ACM Computing Surveys, 47, 1-33. [Google Scholar] [CrossRef
[10] Vaswani, N., Bouwmans, T., Javed, S. and Narayanamurthy, P. (2018) Robust Subspace Learning: Robust PCA, Robust Subspace Tracking, and Robust Subspace Recovery. IEEE Signal Processing Magazine, 35, 32-55. [Google Scholar] [CrossRef
[11] Candès, E.J., Li, X., Ma, Y. and Wright, J. (2011) Robust Principal Component Analysis? Journal of the ACM, 58, 1-37. [Google Scholar] [CrossRef
[12] Lin, Z., Chen, M. and Ma, Y. (2010) The Augmented Lagrange Multiplier Method for Exact Recovery of Corrupted Low-Rank Matrices. arXiv: 1009.5055.
[13] Neal, P., Eric, C., Borja, P., et al. (2010) Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers. Foundations and Trends® in Machine Learning, 3, 1-122. [Google Scholar] [CrossRef
[14] Boyd, S. (2010) Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers. Foundations and Trends® in Machine Learning, 3, 1-122. [Google Scholar] [CrossRef
[15] Zhou, Z., Li, X., Wright, J., Candes, E. and Ma, Y. (2010) Stable Principal Component Pursuit. 2010 IEEE International Symposium on Information Theory, Austin, 13-18 June 2010, 1518-1522. [Google Scholar] [CrossRef
[16] Peng, Y.G., Ganesh, A., Wright, J., Xu, W.L. and Ma, Y. (2012) RASL: Robust Alignment by Sparse and Low-Rank Decomposition for Linearly Correlated Images. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34, 2233-2246. [Google Scholar] [CrossRef] [PubMed]
[17] Lu, C., Feng, J., Chen, Y., Liu, W., Lin, Z. and Yan, S. (2020) Tensor Robust Principal Component Analysis with a New Tensor Nuclear Norm. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42, 925-938. [Google Scholar] [CrossRef] [PubMed]
[18] He, R., Zheng, W.S. and Hu, B.G. (2011) Maximum Correntropy Criterion for Robust Face Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 33, 1561-1576. [Google Scholar] [CrossRef] [PubMed]
[19] Hu, Y., Zhang, D., Ye, J., Li, X. and He, X. (2013) Fast and Accurate Matrix Completion via Truncated Nuclear Norm Regularization. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35, 2117-2130. [Google Scholar] [CrossRef] [PubMed]
[20] Gu, S., Xie, Q., Meng, D., Zuo, W., Feng, X. and Zhang, L. (2016) Weighted Nuclear Norm Minimization and Its Applications to Low Level Vision. International Journal of Computer Vision, 121, 183-208. [Google Scholar] [CrossRef
[21] Lu, C., Tang, J., Yan, S. and Lin, Z. (2014) Generalized Nonconvex Nonsmooth Low-Rank Minimization. 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, 23-28 June 2014, 4130-4137. [Google Scholar] [CrossRef
[22] Fazel, M., Hindi, H. and Boyd, S.P. (2003) Log-Det Heuristic for Matrix Rank Minimization with Applications to Hankel and Euclidean Distance Matrices. Proceedings of the 2003 American Control Conference, 2003, Denver, 4-6 June 2003, 2156-2162. [Google Scholar] [CrossRef
[23] Zhang, C. (2010) Nearly Unbiased Variable Selection under Minimax Concave Penalty. The Annals of Statistics, 38, 894-942. [Google Scholar] [CrossRef
[24] Wang, L., Wu, Y. and Li, R. (2012) Quantile Regression for Analyzing Heterogeneity in Ultra-High Dimension. Journal of the American Statistical Association, 107, 214-222. [Google Scholar] [CrossRef] [PubMed]
[25] Keshavarzian, R. and Aghagolzadeh, A. (2023) Low Rank and Sparse Decomposition Based on Extended LLP Norm. Multimedia Tools and Applications, 83, 26107-26130. [Google Scholar] [CrossRef
[26] Bouwmans, T., Javed, S., Zhang, H., Lin, Z. and Otazo, R. (2018) On the Applications of Robust PCA in Image and Video Processing. Proceedings of the IEEE, 106, 1427-1457. [Google Scholar] [CrossRef
[27] Rudin, L.I., Osher, S. and Fatemi, E. (1992) Nonlinear Total Variation Based Noise Removal Algorithms. Physica D: Nonlinear Phenomena, 60, 259-268. [Google Scholar] [CrossRef
[28] He, W., Zhang, H., Zhang, L. and Shen, H. (2016) Total-Variation-Regularized Low-Rank Matrix Factorization for Hyperspectral Image Restoration. IEEE Transactions on Geoscience and Remote Sensing, 54, 178-188. [Google Scholar] [CrossRef
[29] Dabov, K., Foi, A., Katkovnik, V. and Egiazarian, K. (2007) Image Denoising by Sparse 3-D Transform-Domain Collaborative Filtering. IEEE Transactions on Image Processing, 16, 2080-2095. [Google Scholar] [CrossRef] [PubMed]
[30] Sun, Y., Babu, P. and Palomar, D.P. (2017) Majorization-minimization Algorithms in Signal Processing, Communications, and Machine Learning. IEEE Transactions on Signal Processing, 65, 794-816. [Google Scholar] [CrossRef
[31] Beck, A. and Teboulle, M. (2009) A Fast Iterative Shrinkage-Thresholding Algorithm for Linear Inverse Problems. SIAM Journal on Imaging Sciences, 2, 183-202. [Google Scholar] [CrossRef
[32] Keshavarzian, R., Aghagolzadeh, A. and Rezaii, T.Y. (2019) LLP Norm Regularization Based Group Sparse Representation for Image Compressed Sensing Recovery. Signal Processing: Image Communication, 78, 477-493. [Google Scholar] [CrossRef
[33] Dong, W., Shi, G., Li, X., Ma, Y. and Huang, F. (2014) Compressive Sensing via Nonlocal Low-Rank Regularization. IEEE Transactions on Image Processing, 23, 3618-3632. [Google Scholar] [CrossRef] [PubMed]
[34] Chen, K., Dong, H. and Chan, K. (2013) Reduced Rank Regression via Adaptive Nuclear Norm Penalization. Biometrika, 100, 901-920. [Google Scholar] [CrossRef] [PubMed]
[35] Wang, Y., Yin, W. and Zeng, J. (2018) Global Convergence of ADMM in Nonconvex Nonsmooth Optimization. Journal of Scientific Computing, 78, 29-63. [Google Scholar] [CrossRef
[36] Hong, M., Luo, Z. and Razaviyayn, M. (2016) Convergence Analysis of Alternating Direction Method of Multipliers for a Family of Nonconvex Problems. SIAM Journal on Optimization, 26, 337-364. [Google Scholar] [CrossRef
[37] Shijila, B., Tom, A.J. and George, S.N. (2018) Moving Object Detection by Low Rank Approximation Andl1-Tv Regularization on RPCA Framework. Journal of Visual Communication and Image Representation, 56, 188-200. [Google Scholar] [CrossRef
[38] Kang, Z., Peng, C. and Cheng, Q. (2015) Robust PCA via Nonconvex Rank Approximation. 2015 IEEE International Conference on Data Mining, Atlantic City, 14-17 November 2015, 211-220. [Google Scholar] [CrossRef