基于非光滑约束的Langevin算法
Langevin Algorithms Based on Non-Smooth Constraints
DOI: 10.12677/AAM.2024.131018, PDF, HTML, XML, 下载: 51  浏览: 100  国家自然科学基金支持
作者: 曹嘉锋:浙江师范大学数学科学学院,浙江 金华;李春晔*, 王 薇:嘉兴学院数据科学学院,浙江 嘉兴
关键词: 贝叶斯推断蒙特卡罗全变差随机微分方程高斯测度Bayesian Inference Monte Carlo Total Variation Stochastic Differential Equation Gaussian Measure
摘要: 贝叶斯推断求解反问题越来越流行,得益于它对解不确定性的诠释。在解决实际问题中,算法的计算时间受到一定的关注,而基于Langevin方程的算法利用了一阶导数信息,具有采样效率高的优点,在采样算法中被广泛使用。对于含有急剧跳跃先验信息的图像问题,贝叶斯框架下先验的选取尤为重要,而TV正则化方法等非光滑约束可以很好刻画先验信息。本文回顾了非光滑约束与高斯先验相结合的混合先验,同时重述了近端Langevin算法,并在此基础上提出了基于非光滑约束的对偶Langevin算法。最后应用于CT成像问题,数值结果表明,我们提出算法是有效的,能够更好地利用非光滑约束刻画解。
Abstract: Bayesian inference for solving inverse problems is becoming increasingly popular, thanks to its in-terpretation of solution uncertainty. In solving practical problems, the computational time of algo-rithms has received certain attention, and algorithms based on Langevin equation utilize first-order derivative information, which has the advantage of high sampling efficiency and is widely used in sampling algorithms. For image problems with sharp jump prior information, the selection of prior information in the Bayesian framework is particularly important, and non-smooth constraints such as TV regularization methods can effectively characterize prior information. This article reviews the hybrid prior combining non-smooth constraints with Gaussian prior, while reiterating the proximal Langevin algorithm, and proposes a dual Langevin algorithm based on non-smooth constraints. Fi-nally, it is applied to the CT imaging problem, and numerical results show that our proposed algo-rithm is effective and can better utilize non-smooth constraints to characterize the solution.
文章引用:曹嘉锋, 李春晔, 王薇. 基于非光滑约束的Langevin算法[J]. 应用数学进展, 2024, 13(1): 149-158. https://doi.org/10.12677/AAM.2024.131018

1. 引言

本文考虑求解不适定问题

A u = y

其中 A : X Y 是Hilbert空间X到Hilbert空间Y的有界线性算子。在实际应用中,真实数据很难获得,而常常只能得到带有噪声的扰动数据 y = y + ε ε 是服从正态分布 N ( 0 , Σ ) 的噪声, Σ 是对称正定算子。我们关注的问题的不适定性是指解不连续依赖于右端数据。正则化方法是求解不适定问题的基本策略,其利用具体问题的某些附加信息,引进约束泛函给出一个逼近原问题的稳定的近似解 [1] [2] 。当解为不均匀介质,包含不连续点、脉冲尖点等结构时,经典的正则化方法因过光滑而不再适用,一些非光滑约束如全变差约束(TV正则化)、稀疏约束被引入 [3] 。

对一般凸约束 R : X ( , ] 构造约束泛函

u = arg min u { 1 2 A u y 2 + a R ( u ) }

传统的优化方法只能给出反问题的“点估计”,当物理模型或测量数据存在随机性时,我们希望获得更多的统计信息。相应统计反演(贝叶斯推断)结合后验概率分布因其能提供更多重构解的统计信息而得到广泛关注。

在贝叶斯视角下,统计反演问题中对反演解的高斯先验、TV先验、Besov先验与Tikhonov型正则化方法的平方约束、TV约束、稀疏约束相呼应 [4] ,反演解作为随机变量可以获得后验分布的采样。对于后验分布的诠释有两种:最大后验(MAP)估计和条件均值(CM)估计。MAP估计指选取最可能的值,即密度函数取值最大的地方,等价于优化问题的求解。CM估计选取后验概率分布的均值,其对应于一个积分问题,实际应用受限于高维积分的庞大计算量,通常通过马尔可夫链蒙特卡罗(MCMC)方法来实现。

在处理高维问题,甚至函数空间时,相应的快速算法与理论分析是研究的热点。文献 [5] 提出了一系列函数空间的MCMC方法,包括预处理Crank-Nicolson (pCN)算法和基于Langevin方程的预处理Crank-Nicolson (pCNL)算法,这两个算法的优势在于结果与问题的离散维数无关,且pCNL算法进一步引入导数信息,加快了Markov链的收敛速度。这些方法更多限定在Gauss先验,而涉及一般非光滑约束的算法讨论不多。对全变差(TV)先验,文献 [6] 指出随着离散化维度的提高TV先验产生的后验分布不具有边缘保持性,不会收敛到一个定义良好的无限维测度。相应地,文献 [4] 提出了以高斯测度作为参考测度并与TV项相混合的TG先验,并构造了分裂pCN算法。这些方法通过定义提议分布和接受率来构造满足细致平衡条件的转移核,引入接受率控制采样来消除渐近误差,相应的Langevin算法被称作MALA算法。其中,接受率一定程度上会影响采样效率。

回顾涉及TV先验的MCMC算法,TV约束并未出现在提案(proposal)中,仅仅在接受率的计算中有所体现 [6] 。而文献 [7] [8] 基于Langevin随机微分方程对一般非光滑凸约束,给出了相应的Langevin系统,并引入Moreau近似获得近似的后验,使得约束部分在提案中有所体现。特别地,基于Langevin随机方程,构造不使用接受率控制采样点的蒙特卡罗方法,称之为ULA算法。文献 [9] 理论分析了ULA算法的收敛性。因为ULA算法不涉及接受-拒绝步,因此在一定的收敛条件下,ULA算法相比MALA算法具有采样效率更高的优点。

本文基于非光滑先验综述现有的采样算法,主要关注ULA算法。特别地,基于凸分析理论,我们将目光聚焦在随机微分方程的构造,提出一种新的ULA算法,期望获得基于非光滑约束快速收敛的Langevin 算法,使其适用于高维问题,并在求解CT成像问题验证方法的优势。

2. 基于非光滑约束的Langevin算法

在实际问题中,如在实际的地震波形反演中,由于地下介质的复杂,常常会遇到解为不连续函数或含尖点的函数,为此为了使重构解具有这些特征,一些非光滑先验被引入。如 Ω d 上的有界区域,全变分约束

R ( u ) : = Ω | D u | : = sup { Ω u ( d i v f ) d w : f C 0 1 ( Ω ; N ) , f L ( Ω ) 1 }

可以很好地反演出跳跃性较大的不连续参数部分。

μ 0 = N ( 0 , C ) 为X上的Gauss测度,其中C为对称正定的协方差算子。结合非光滑约束 R ( u ) 先验,引入混合先验 μ p r ,有

d μ p r d μ 0 ( u ) exp ( α R ( u ) )

相应的后验分布 μ p o s t 的关于 μ 0 的Randon-Nikodym导数为

d μ p o s t d μ 0 ( u ) exp ( Φ ( u ) α R ( u ) )

其中 Φ ( u ) = 1 2 A u y Σ 2 = 1 2 Σ 1 2 ( A u y ) 2 2 α > 0

本文主要关心求解高维问题 A u = y ( A : N M )下基于过阻尼Langevin方程的相关算法。对于目标分布

π ( u ) exp ( J ( u ) )

J : N 是光滑的,则有相应的Langevin随机微分方程

d u = log π ( u ) d t + 2 d w = J ( u ) + 2 d w (1)

其中 w ~ N ( 0 , I N ) I N 表示N维单位矩阵,下同。在 N exp ( J ( u ) ) d u < 的条件下, π ( u ) 是关于(1)式的唯一不变分布 [8] ,于是当 t ,可对目标分布进行采样。对时间t应用Euler离散,可得马氏链

u k + 1 = u k δ J ( u k ) + 2 δ w k + 1 (2)

其中 w k + 1 ~ N ( 0 , I N ) ,下同。可以看到(1)式的构造基于J的光滑性,当面临TV等非光滑约束时并不适用。

近端Langevin算法

涉及TV等非光滑约束时,文献 [10] 引入近端算子 R γ 来近似函数R

R γ ( u ) = min v { R ( v ) + 1 2 γ u v 2 } (3)

其中 γ > 0 。当 γ 0 时, R γ 点收敛到R,并且 R γ 连续可微

R γ ( u ) = 1 γ ( u prox R γ ( u ) )

这里

prox R γ ( u ) = arg min v { R ( v ) + 1 2 γ u v 2 }

表示R的近端算子。考虑由混合先验下近似的后验概率密度

π γ ( u ) exp ( Φ ( u ) 1 2 u C 2 α R γ ( u ) )

其中 u C 2 = C 1 2 u 2 2 。结合对称正定算子K的Langevin随机微分方程 [5]

d u = K ( C 1 u + Φ ( u ) + α R γ ( u ) ) d t + 2 K d w

K = C 并对t使用Euler方法离散,设步长为 δ ,可得马氏链 ( u k ) k 0

u k + 1 = ( 1 δ ) u k δ C ( Φ ( u k ) + α R γ ( u k ) ) + 2 δ C w k + 1 (4)

综上,基于Euler离散的近端Langevin (PxEuL)算法具体流程如下:

3. 对偶Langevin算法

这一节,我们基于凸分析理论再次考虑非光滑约束R与Gauss先验的混合约束,构造新的随机微分方程,进而获得新型ULA算法。令约束

f ( u ) = R ( u ) + 1 2 η u 2 2

注意到R非光滑,因而f是非光滑的。当R为一般凸函数时,f具有强凸性,其Fenchel共轭

f * ( ξ ) = sup u { u , ξ f ( u ) }

是Frechet可导,且导数 f * 满足Lipschitz连续。按照凸分析理论可知

u = f * ( ξ ) u = arg min u { f ( u ) ξ , u } (5)

实际上,对 f ( u ) = R ( u ) + 1 2 η u 2 2 ,我们有

f * ( ξ ) = arg min u { 1 2 η u η ξ 2 2 + R ( u ) }

对比近端近似算子有 f * ( ξ ) = prox R η ( η ξ ) [8] 。近些年,基于非光滑强凸函数成功的结合到迭代正则化方法 [11] [12] ,渐近正则化方法中 [13] [14] ,利用凸分析的理论基础证明了这些方法的收敛性与正则性,数值结果表明TV等非光滑约束成功地刻画了反演解的特征。

受文献 [13] 的启发,我们针对约束问题

min { f ( u ) : A u = y , u X } (6)

定义Lagrangian函数

L ( u , λ ) = f ( u ) λ , A u y

及其对偶函数

V ( λ ) = f * ( A * λ ) λ , y

进而关注分布

π f ( λ ) exp ( V ( λ ) )

假设 V : N 是连续可微的。考虑 π f ( λ ) 对应的Langevin随机微分方程,取 K = I

d λ = V ( λ ) d t + 2 d w

实际上 V ( λ ) 可导,且 V ( λ ) = A f * ( A * λ ) y ,故有

d λ = ( A f * ( A * λ ) y ) d t + 2 d w

我们将Langevin算法与对偶梯度流方法 [13] 相结合,提出了新的随机微分方程

{ d λ = ( A u y ) d t + 2 d w u = f * ( A * λ ) (7)

应用Euler离散,设步长为 δ ,则有马氏链 ( λ k ) k 0

{ λ k + 1 = λ k δ ( A u k y ) + 2 δ w k + 1 u k + 1 = f * ( A * λ k + 1 ) (8)

综上,基于非光滑约束的对偶Langevin (DuEuL)算法具体流程如下:

4. CT成像数学模型及其离散

4.1. CT成像问题

CT成像是现代医学一种常见的影像扫描技术,它通过获取人体头颅、心肺、腹部等内部器官的二维断层图像来反映病人的病症,具有密度分辨率高,无创伤等特点,因而被广泛用于临床。传统的CT重建算法是以检测目标为中心,通过X射线旋转扫描,采集目标在不同视角下的投影数据,利用图形重建算法还原出检测目标的断层图像。X射线穿过组织体,射线强度会发生衰退,这一过程可以用Radon变换来描述。记矩形区域 Ω 2 ,相应的非负衰减系数 u : Ω [ 0 , + ) ,当组织体包含在矩形区域中,即 Ω 1 Ω ,当 x Ω \ Ω 1 时, f ( x ) = 0 ,有

A : L 2 ( Ω ) L 2 ( D )

( A u ) ( θ , s ) = L ( θ , s ) u ( l ) d l

其中 L ( θ , s ) = { u 2 : u 1 cos θ + u 2 sin θ = s } 为X射线路径, D = { ( θ , s ) : r s r , 0 θ π } 为投影空间。

在数值模拟中,我们使用在1度到180度之间的30个均匀分布的投影数据,每个投影包含362行光束,所探测的图像离散后为256 × 256。我们借助文献 [15] 的MATLAB包AIRTOOL中函数paralletomo来实现问题的离散,进而获得不适定线性问题 A u = y ,其中A是 M × N 的稀疏矩阵, M = 10860 N = 66536 。设图像u在两方向上的离散维数分别为n和m,则涉及的非光滑约束TV约束的定义为

u T V = i = 1 n j = 1 m | 1 u | + | 2 u |

其中 ( 1 u , 2 u ) 表示

( 1 u ) i , j = { u i + 1 , j u i , j , i = 1 , , n 1 ; j = 1 , , m 1 u n , j + 1 u n , j , i = n ; j = 1 , , m 1

( 2 u ) i , j = { u i , j + 1 u i , j , i = 1 , , n ; j = 1 , , m 1 u i + 1 , m u i , m , i = 1 , , n 1 ; j = m

4.2. 数值算例

在数值模拟中,真实图像选取为脑部图,如图1所示,对投影数据添加高斯噪声 y = y + ε ,其中: ε ~ N ( 0 , σ 1 2 I N ) ,其中: σ 1 取测量数据y中最大元素的0.5%。PxEuL算法混合先验中 C = σ 2 2 I N

在算法的实现过程当中,PxEuL算法涉及求解

prox R γ ( u ) = arg min v { R ( v ) + 1 2 γ u v 2 }

以及DuEuL算法涉及求解

f * ( ξ ) = arg min u { 1 2 η u η ξ 2 2 + R ( u ) } = prox R η ( η ξ )

的部分,通过主对偶混合梯度方法 [10] [16] 进行有效求解。

我们基于非光滑约束对比贝叶斯推断方法

• PxEuL-TV算法: γ = 5 δ = 1 × 10 4 α = 1 σ 2 = 0.1

• DuEuL-TV算法: α 固定为1,分别取不同的 η ,并调整步长 δ 的大小。

其中PxEuL为已有的近端算法,我们只选取了一种参数,而本文的重点为DuEuL算法,实验中共选取了四组参数,需要注意的是,为了使马氏链达到平稳状态,随着 η 的变大,相应的步长 δ 应变小。

为了衡量图像的重构效果,我们使用了相对误差(RelErr)和峰值信噪比(PSNR)等指标,设u是重构得到的解, u * 是真解,则它们的定义如下

RelErr = u u * 2 u * 2

PSNR = 10 log 10 255 2 MSE [ dB ]

其中MSE为重构解u的均方误差。除了RelErr和PSNR指标外,我们还使用结构相似性(SSIM)指标来衡量算法结果和原始图像的相似性。

实际算例中,PxEuL和DuEuL算法的初始值 u 0 λ 0 选取为N维零向量,马氏链长为3 × 104,取后1 × 104个点作为平稳后的采样点。贝叶斯方法给出了条件均值(CM)估计和最大后验(MAP)估计,记 k 0 = 2 × 10 4 以及 k 1 = 3 × 10 4 ,数值实验中它们的求解如下

u C M = 1 k 1 k 0 k = k 0 + 1 k = k 1 u k

u M A P = arg max k { k 0 + 1 , , k 1 } π ( u k )

Figure 1. Original image

图1. 原始图像

(a) (b)

Figure 2. PxEuL algorithm results: MAP estimation (left) and CM estimation (right), γ = 5

图2. PxEuL算法重构结果:MAP估计(左)和CM估计(右), γ = 5

图2图3给出了两种算法的重构结果,包括MAP估计和CM估计。从单个算法来看,CM估计比MAP估计更优、更为清晰;从两个算法来看,DuEuL算法给出的重构解相比于PxEuL算法有着更清晰的边界,且背景更颜色更深更接近原始图像。两种算法一定程度上都可以反演出脑部结构,但相比于原始图像,存在背景颜色更浅、反演结果存在伪影的问题。

表1给出了两种算法求解的MAP估计和CM估计对应的相对误差、峰值信噪比和结构相似性等结果。从单个算法来看,CM估计的结果通常优于MAP估计,这说明通过贝叶斯方法给出的CM估计是相当有必要的;从两个算法比较来看,我们提出的DuEuL算法在三个指标上大大优于PxEuL算法,说明DuEuL算法中TV约束更能够刻画反演解的特征。表2给出了DuEuL算法取不同 η 时的结果,由MAP估计和CM估计结果可知,随着 η 的变大,算法的重构结果更好。

(a) (b)

Figure 3. DuEuL algorithm results: MAP estimation (left) and CM estimation (right), η = 5

图3. DuEuL算法结果:MAP估计(左)和CM估计(右), η = 5

Table 1. Results of two algorithms ( γ = η = 5 )

表1. 两种算法结果( γ = η = 5 )

Table 2. DuEuL algorithm results with different parameters taken

表2. 取不同参数DuEuL算法结果

图4给出了两种算法的相对误差和峰值信噪比随着更新次数的变化趋势。从两种算法比较来看,更新初期,PxEuL算法和DuEuL算法变化速度差不多,而后期PxEuL算法存在一定程度的半收敛现象,半收敛现象的程度依赖于参数选取的好坏。另一方面,DuEuL算法最终达到平稳的相对误差值更低,且变化趋势更光滑,没有半收敛现象。

(a) (b)

Figure 4. RelErr and PSNR ratio trend of two algorithms ( γ = η = 5 )

图4. 两种算法的相对误差和峰值信噪比趋势( γ = η = 5 )

5. 结论

本文基于非光滑约束下的混合先验,提出了对偶Langevin算法,并与近端Langevin算法对比,通过MAP估计和CM估计解相应的指标比较算法的优劣,并基于CT成像问题进行了数值模拟。结果表明DuEuL算法显著优于现有的近端Langevin算法,可以给出更好的重构解,更能够利用TV约束刻画反演解的特征。

基金项目

国家自然科学基金(批准号:12071184)资助项目。

NOTES

*通讯作者。

参考文献

[1] 程晋, 刘继军, 张波. 偏微分方程反问题: 模型、算法和应用[J]. 中国科学: 数学, 2019, 49(4): 643-666.
[2] Engl, H., Hanke, M. and Neubauer, A. (1996) Regularization of Inverse Problems. Springer, New York.
[3] Burger, M. and Osher, S. (2004) Convergence Rates of Convex Variational Regularization. Inverse Problems, 20, 1411-1421.
https://doi.org/10.1088/0266-5611/20/5/005
[4] Yao, Z., Hu, Z. and Li, J. (2016) A TV-Gaussian Prior for Infi-nite-Dimensional Bayesian Inverse Problems and Its Numerical Implementations. Inverse Problems, 32, 075006.
https://doi.org/10.1088/0266-5611/32/7/075006
[5] Cotter, S.L., Roberts, G.O., Stuart, A.M. and White, D. (2023) MCMC Methods for Functions: Modifying Old Algorithms to Make Them Faster. Statistical Science, 28, 424-446.
https://doi.org/10.1214/13-STS421
[6] Lassas, M. and Siltanen, S. (2004) Can One Use Total Variation Prior for Edge-Preserving Bayesian Inversion? Inverse Problems, 20, 1537.
https://doi.org/10.1088/0266-5611/20/5/013
[7] Durmus, A., Majewski, S. and Miasojedow, B. (2019) Analysis of Langevin Monte Carlo via Convex Optimization. The Journal of Machine Learning Research, 20, 2666-2711.
[8] Durmus, A., Moulines, E. and Pereyra, M. (2018) Efficient Bayesian Computation by Proximal Mar-kov Chain Monte carlo: When Langevin Meets Moreau. SIAM Journal on Imaging Sciences, 11, 473-506.
https://doi.org/10.1137/16M1108340
[9] Dalalyan, A.S. (2017) Theoretical Guarantees for Approximate Sam-pling from Smooth and Log-Concave Densities. Journal of the Royal Statistical Society Series B: Statistical Methodology, 79, 651-676.
https://doi.org/10.1111/rssb.12183
[10] Bonettini, S. and Ruggiero, V. (2012) On the Convergence of Primal-Dual Hybrid Gradient Algorithms for Total Variation Image Restoration. Journal of Mathematical Imaging and Vision, 44, 236-253.
https://doi.org/10.1007/s10851-011-0324-9
[11] Jin, Q. and Wang, W. (2013) Landweber Iteration of Kaczmarz Type with General Non-Smooth Convex Penalty Functionals. Inverse Problems, 29, 085011.
https://doi.org/10.1088/0266-5611/29/8/085011
[12] Zhong, M., Wang, W. and Jin, Q. (2019) Regularization of Inverse Problems by Two-Point Gradient Methods in Banach Spaces. Numerische Mathematik, 143, 713-747.
https://doi.org/10.1007/s00211-019-01068-0
[13] 金其年, 王薇. Banach 空间中求解线性反问题的对偶梯度流方法[J]. 中国科学: 数学, 2023, 53(10): 1377-1396.
[14] Zhong, M., Wang, W. and Zhu, K. (2022) On the Asymp-totical Regularization with Convex Constraints for Nonlinear Ill-Posed Problems. Applied Mathematics Letters, 133, 108247.
https://doi.org/10.1016/j.aml.2022.108247
[15] Hansen, P.C. and Saxild-Hansen, M. (2012) AIR Tools—A MATLAB Package of Algebraic Iterative Reconstruction Methods. Journal of Computational and Applied Mathematics, 236, 2167-2178.
https://doi.org/10.1016/j.cam.2011.09.039
[16] Zhu, M. and Chan, T. (2008) An Efficient Primal-Dual Hybrid Gradient Algorithm for Total Variation Image Restoration. Ucla Cam Report, 34, 8-34.