1. 引言
反问题[1]-[3]和不适定问题是计算数学与应用数学中的热点研究方向,它广泛出现在各类科学和技术领域中。反问题的研究可以追溯到19世纪,最早的形式出现在傅里叶对热传导问题的研究中,傅里叶通过解决热传导方程得出了关于温度分布的解,但是在某些情况下,研究人员可能希望通过测量的温度来推算热源或物体的物理特性,这就引出了反问题的概念。反问题的核心问题是从一组观测结果或测量数据中推算出所对应的模型参数或输入条件。反问题通常被看作是初值问题的反向过程,常见的反问题包括:从给定的输出(例如温度、压力等)推算出未知的输入或源项;根据不完全或受噪声污染的数据恢复物理模型;从测量的数据推断未知的边界条件或初始条件。反问题在很多实际工程应用中扮演着重要角色,例如在地球物理、生命科学、材料科学、遥感技术、模式识别、信号(图像)处理、工程控制等领域,都体现出了“由效果、表现(输出)反求原因、原象(输入)”的反问题现象。数学中的几乎所有领域都可以提出反问题,而反问题提法的正确性、其求解方法,以及它的稳定性问题都是微分方程反问题研究的主要方向。数学物理反问题的求解面临的一个本质性的困难是不适定性,主要是近似解的不稳定性,即方程的解(如果存在)不连续依赖于右端的数据,当右端的数据有误差时,其解与精确解之间会产生很大的误差。不适定问题的概念最早由法国数学家Jacques Hadamard于1923年提出,Hadamard的定义为数学分析提供了研究不适定性的问题的基础。在许多实际情况下,科学和工程中的某些问题无法满足定义中适定性的标准,尤其是当问题涉及不完全的、模糊的或不准确的初始条件时。一个典型的例子是逆问题,即从测量数据推算未知的物理量,例如,在医学成像中,无法完全准确地测量每个细节,我们面临的就是不适定的问题。不适定问题在实际工程中尤其重要,典型的应用领域有CT扫描、磁共振成像(MRI)、地球物理勘探、数据同化与优化、控制与系统辨识。求解不适定问题的普遍方法是正则化方法,如何建立有效的正则化方法及算法是不适定问题研究的重要内容[4]。
2. 反问题与不适定问题的定义
2.1. 反问题
Keller [5]指出,若两个问题的求解过程,互相涉及或包含了彼此的全部或部分内容,则任何一方可作为正问题,而另一个则为相对的反问题。传统的正问题通常是通过参数确定的数学模型和相应的定解条件去求解问题的解。反问题则正好相反,通常由解的部分已知信息,来确定相应模型中的部分未知参数。在科学和技术领域,经常需要通过测量结果来估计初始输入信息,或者由已知解的部分信息来确定原物理模型的性质。
2.2. 不适定问题
反问题都有一个共同特征,即“不适定性”。Hadamard于20世纪初,引入了适定和不适定的概念[6]:
如果一个问题满足以下三个条件:
1) 对于给定的初始数据,问题的解存在(存在性);
2) 问题的解唯一(唯一性);
3) 问题的解连续依赖于初始数据(稳定性)。
那么该问题称为是适定的,反之,如果以上条件中有一条不满足,则称该问题是不适定的。对许多问题来说,解的存在性和唯一性依赖于问题的提法,而实际应用中遇到的真正难点在于解的稳定性,即不适定问题的解对初始数据的敏感性。在许多应用中,由于各种原因,例如测量、数据存储、离散近似等,在输入数据时不可避免地带有误差。如果解对初始数据的扰动非常敏感,那么直接求解这类问题往往不能得到有意义的近似解。为了克服这个困难,需要对原问题进行修正,使得修正后的问题在一定意义下是稳定的,而且它的解是原问题解的高质量的近似。
2.3. 线性离散不适定问题
不适定问题中重要的一部分是线性离散不适定问题,用有限元方法、有限差分法或数值积分法离散出线性方程组:
(2.1)
其中,A为积分算子、微分算子或矩阵(有限秩算子),F和U均为度量空间(分别为解空间和数据空间),算子A:F→U映射F到U。与最小二乘问题
(2.2)
如果上述问题同时满足如下条件:
1) 系数矩阵A的条件数
较大;
2) A的奇异值迅速趋于0,且无明显的分离;
3) 不满足Picard准则[7]。
那么该问题被称为线性离散不适定问题[8]。
由于不适定问题的特性,原始资料的小的观测误差,存在于方程(2.1)右端项中(这在实际中是不可避免的),会导致近似解与真实解的严重偏离。即
(2.3)
其中,
是观测中的扰动项。
当然,如何从已知的含有噪音数据的观测系统中得到原问题的真实解,是求解线性离散不适定问题的重难点。为了解决这一问题,常用的处理方式是将原不适定问题近似地看作最小二乘问题再进一步求解,这种方案在参数识别和图像重建等领域也经常用到[5]。
3. 不适定问题的正则化
针对上述不适定问题的解具有不存在、不唯一、不稳定的情况,求解得到的结果是否可信就成为了反演工作者必须面对的问题,解决的办法引起了诸多数学学者的研究。求解不适定问题的普遍方法是:用与原不适定问题相“邻近”的适定问题的解去逼近原问题的解,这种方法称为正则化方法。如何建立有效的正则化方法是反问题领域中不适定问题研究的重要内容。奠基性工作是由前苏联数学家Tikhonov [9] [10]在20世纪60年代首次提出不适定问题的正则化方法,随后不适定问题在理论和数值计算上都得到了广泛而深入的研究。不适定问题广泛出现在许多科学和工程领域中,不适定问题的研究引起越来越多数学家的重视,逐渐成为一个新兴的热门研究领域。该方法的主要思想是:利用对解和数据误差的先验估计可以将问题的求解限定在某个较小范围内,对问题的提法进行适当的改造后,原本不适定的问题就可以转化为适定的最优化问题求解,而且先验估计表明在一定精度下用正则化方法求得的解是合理的。
3.1. 标准形式正则化的不适定问题
直接正则化方法有标准Tikhonov正则化、Lasso正则化、总变差(TV)正则化和正则化的TSVD等,是较为简单却十分基础的方法。
标准形式的Tikhonov正则化可以写成:
(3.1)
其中,
称为正则化参数。该方法的主要思想是用极小化问题(3.1)代替不适定问题(2.3)。当
较小时,(3.1)与问题(2.3)是相“邻近”的。一般来说,对于任何参数
,问题(3.1)是适定的[4]。它的计算简单,理论成熟,适用于大多数线性反问题,能有效处理噪声和不稳定解,尤其是在数据不完全或存在噪声的情况下。但是对于某些类型的问题,可能会导致解过于平滑,无法有效恢复数据中的高频信息或细节。
Lasso正则化是一种通过引入L1范数作为惩罚项来约束解的稀疏性的方法。Lasso的目标是最小化以下目标函数:
其中,
是解的L1范数,
控制正则化的强度。该方法的优点是强调稀疏性,可以在许多应用中得到稀疏解(即解中许多分量为零),这种特性非常适用于特征选择和模型压缩,在高维数据中表现良好,特别是在解释模型时(例如,回归模型中哪些特征最为重要)。但是对于某些非线性问题或数据具有相关性的问题,Lasso可能会选择过多的变量,导致偏差较大,解的稀疏性有时可能导致过度简化问题,从而失去部分重要的信息。
总变差(TV)正则化是一种通过最小化图像或信号的总变化(即图像梯度的L1范数)来平滑数据的正则化方法。其目标函数通常是:
其中,
是图像或信号的梯度,
表示图像或信号的总变差。该方法的优点是特别适用于图像恢复、去噪和压缩感知等任务,因为总变差能够保持图像或信号的边缘,同时去除平滑区域的噪声,对局部噪声敏感的信号恢复任务中具有优良的性能,能够保持解的边缘细节。缺点是在边缘细节较多或信号非常复杂的情况下,总变差正则化可能无法完全恢复精细的结构,可能在图像或信号的平滑区域产生假边界(即伪影)。
矩阵的奇异值分解(SVD) [11]是研究线性不适定问题的重要分析工具,并可据之提出和开发有效可靠的数值算法。基于A的SVD的最为流行的直接正则化方法是截断SVD (TSVD)方法[12]-[14],也可以用SVD设计实现Tikhonov正则化的算法[9] [10]。TSVD方法和Tikhonov正则化方法的显式解都可以利用A的SVD直接得到。以上两种方法均为参数过滤型方法,它们通过控制小奇异值对应SVD分量的大小,来防止右端项的噪声破坏正则化的解。截断奇异值(Truncated-SVD),是舍掉SVD中特别小的奇异值,从而产生新的、条件数较好的、适定的系数矩阵
。TSVD正则化方法的思想是很简单的,这种正则化方法奏效的一个原因是小奇异值所对应的奇异向量对噪音都很敏感,而它们在真实解中的权重又不是很大,
的条件数也会比A小很多。对于中小规模的问题,上面的问题可以利用矩阵A的SVD进行较快速的求解[15] [16]。对于大规模的问题,基于SVD的正则化方法并不可行。一方面,大规模矩阵的SVD由于计算量和存储量太大而无法接受。另一方面,为了得到一个好的正则化解,必须提前选择一个合适的正则化参数,而正则化参数的选取同样可能需要大的计算量。
对于大规模的离散不适定问题,迭代正则化方法通常是唯一可行的选择。迭代法有这样的优点:将无穷维问题转换为有限维问题后,迭代过程不会破坏系数矩阵A的结构,而且存储量较之直接法要相对节省。对于规模较大的不适定问题,可以利用迭代法求解。和数值代数[17] [18]中提及的迭代法形式类似,求解规模较大的不适定问题的迭代法分为两类:经典的定常迭代法和Krylov子空间迭代法。其中,定常迭代法中较经典的是Landweber迭代法[19]。Landweber迭代法是求解线性和非线性反问题的一种有效方法,因其良好的稳定性,所以在实际生活中也具有很强的应用价值。图像重建或者恢复是计算机工程等领域的一个很重要的研究方向,属于一类反问题。迭代算法成为图像重建或者恢复[20]-[22]中的一类有效方法。采用迭代法解决问题的过程中,通常会出现“半收敛”的现象,因此迭代步数k,也可以说是迭代算法中的正则化参数,将直接影响近似解的精度。迭代方法往往只涉及矩阵乘向量
或者
,它能够充分利用A的稀疏结构,从而大大降低计算量和存储量。Landweber方法[19]和Kaczmarz (ART)方法[23]是两种经典的迭代正则化方法。此类方法迭代格式相对简单,长期以来在一些特殊的应用中获得了很好的效果,比如计算物理层析成像技术。但是此类方法通常具有收敛速度慢的缺点[15],因此并不能作为一种通用的迭代方法。
另外一类非常高效的迭代正则化方法是子空间投影方法,它的基本思想是通过构造一系列合适的子空间,将原来的大规模问题投影到低维子空间上,得到中小规模的问题,之后用标准算法求解中小规模问题的解,最后将中小规模问题的解还原为原问题的解[15] [16]。目前最流行的子空间迭代法是Krylov子空间投影方法[24],该方法将原问题投影到一系列的低维的Krylov子空间上来得到迭代近似解。其中基于Lanczos双对角化的LSQR算法[25] [26]以及与之数学上等价的CGLS [27]算法具有天然的正则化性质[16] [28] [29],它只涉及矩阵乘向量
或者
,而且对矩阵A的形状和对称性没有额外要求。当A对称时,基于Lanczos过程的MINRES算法和MR-II算法得到了广泛的应用[30] [31]。一般情况下,MR-II比MINRES能够得到更好的正则化解,如果MR-II和LSQR在差不多相同的迭代次数内得到最佳可能的正则化解,那么MR-II更有优势[30] [32],这是因为它们的计算量比LSQR几乎少了一半。上述几类投影迭代方法都会表现出半收敛特性[15] [16],即在算法的初始阶段迭代近似解越来越接近真实解,之后由于噪声的影响,迭代解将逐渐偏离真实解并收敛到原问题(2.1)或(2.2)的直接解。在这个过程中,迭代步数扮演了正则化参数的角色。因此,为了得到好的正则化解,需要在一个合适的步数停止迭代,这可以用合适的正则化参数的选择方法来完成。近年来,许多学者致力于研究这类投影方法的正则化性质,即算法在半收敛点处的迭代解是否是原问题的最佳可能的正则化解。特别地,Jia最近的研究[33]-[35]从理论上证明了LSQR算法对一大类不适定问题能够获得最佳可能的正则化解,即半收敛点处的解能够达到与TSVD得到的最佳解同样的精度。为了克服迭代方法所表现出的半收敛性,学者们提出了“杂交”方法并展开了进一步的研究。最常用的一种杂交方法首先利用诸如Lanczos双对角化的过程把原问题投影到低维子空间,再对投影后的小规模问题进行正则化[36]。对于杂交方法来说,只有当小规模问题的正则化参数能很好地近似原问题的最佳正则化参数时,该方法才能较好的克服半收敛性并求得好的正则化解[37]。
3.2. 一般形式正则化的不适定问题
在许多实际应用中,标准形式正则化问题中采用的惩罚项
并不是最优选择。在不同的问题中,为了使正则化解包含真实解的某些先验特征,惩罚项往往具有多种多样的形式。对于很多问题来说,选择
作为惩罚项常常能够得到较好的近似解,其中L称为正则化矩阵。
当惩罚项采用
时,我们得到一般形式的Tikhonov正则化问题:
(3.2)
其中,
是数据拟合项(即最小二乘误差),
是正则化项,通常选取L = I或L为某个线性算子(如梯度算子),用于控制解的平滑性或稳定性,λ是正则化参数,用于权衡拟合误差和正则化项之间的相对重要性。Tikhonov正则化的目的是在控制拟合误差的同时,约束解的大小或平滑性,从而防止过拟合和提高泛化能力。
Tikhonov正则化的效果在很大程度上依赖于正则化参数
的选择,选择合适的λ值是该方法中最重要的步骤之一。如果λ选择不当,可能导致过正则化(
过大):模型会变得过于简单,无法充分拟合数据,产生偏差(欠拟合);欠正则化(
过小):模型可能会对训练数据过度拟合,导致过拟合。为了选择合适的正则化参数λ,常用的几种方法包括L曲线法和交叉验证法。L曲线法的基本思想是通过绘制数据拟合误差与正则化项的权衡图像来选择最优的
值,它通过不同的
值,计算相应的解
,再计算拟合误差
和正则化项
,最终绘制一个二维图,其中横坐标为
,纵坐标为
,形成一个“L”形的曲线。L曲线的“膝部”对应的是最佳的正则化参数λ,因为在膝部附近,拟合误差和正则化项的平衡达到最优,过大或过小的λ值都会导致解的质量下降。L曲线法是一种直观的方法,通过可视化的方式帮助我们找到平衡拟合误差和正则化的最优点,但这种方法对于高维数据或参数空间非常复杂的情况,可能不太适用,且对于计算量较大的问题,L曲线的构造可能需要大量的计算资源。交叉验证是另一种常用的选择正则化参数的方法,特别适用于没有先验知识的情况,它的基本思想是将数据集划分为多个子集,依次用其中一个子集作为验证集,其余部分作为训练集,进行多次训练和验证,最终选择能够在验证集上取得最佳性能的正则化参数。交叉验证方法可以避免过拟合,并且能够在训练集和验证集之间找到一个良好的平衡,适用于不同类型的数据和问题,但是该方法的计算复杂度较高,尤其是在数据集较大时。每次训练和验证都需要重新求解正则化问题,计算开销较大。
对于一般形式的正则化问题,矩阵对{A, L}的广义奇异值分解(GSVD) [38]是强有力的分析和计算工具。对于中小规模的问题,截断GSVD (TGSVD)方法是最直接的正则化方法[39],TGSVD方法和一般形式的Tikhonov正则化方法的解也都是参数过滤型方法。Tikhonov正则化作为一种经典的正则化方法,已在许多领域中取得了成功,尤其是在处理线性反问题和回归任务中,然而,随着数据的复杂性和多样性的增加,Tikhonov正则化面临一些局限性。对于大规模的离散不适定问题,Tikhonov正则化常常需要与其他技术相结合,才能有效处理问题。由于GSVD的计算量和存储量比较大,基于直接计算GSVD的正则化方法在实际中不可行。从1977年起,人们开始研究大规模一般形式正则化的不适定问题及其算法。1982年,Eldén [40]提出把一般形式正则化问题转化为标准形式正则化问题的变换方法,之后许多学者致力于开发把一般形式正则化问题转化为标准形式正则化问题求解的算法,也即把正则化矩阵L对解的光滑作用加入到转化后的标准形式的正则化问题中,再利用基于Krylov子空间投影的迭代方法求解标准形式的正则化问题。需要指出,对于Eldén提出的变换公式,除了L可逆或者L有特殊的结构外,对于一般的L,这种变换的算法实现代价昂贵。近来,Chung等人[41]针对可逆的L提出了广义杂交迭代法,即广义Lanczos双正交算法。最近十几年,人们开始尝试设计不依赖于这种变换的迭代方法来求解一般形式的正则化问题。
另一大类流行的求解大规模问题的方法是基于Krylov子空间投影的迭代方法。1996年,Zha [42]提出了联合双对角化(JBD)过程,用之计算大规模矩阵对的部分GSVD。2007年,Kilmer等人[43]提出了基于联合双对角化(JBD)过程的迭代算法求解一般形式正则化问题。该算法属于杂交型方法,每一步迭代产生的小规模问题都需要先选取合适的正则化参数,然后再求解这个正则化问题。对于某些不适定问题,这种杂交方法得到的解的收敛性很不稳定,有时候仍然表现出半收敛的特征,Jia和Yang [44]分析和找到了这种现象不可避免的数学原因。此外,每一步迭代产生的小规模问题的参数选取也需要不少的计算量,且在编程上较为复杂。同样基于联合双对角化过程,最近Jia和Yang [44]提出了不需要杂交来求解大规模一般形式的正则化问题的纯迭代算法,并对该算法做了较深入的理论分析。特别地,基于{A, L}的GSVD,他们证明了该算法求得的解具有过滤GSVD展开形式,并且正则化解落在{A, L}的广义右奇异子空间内。该算法具有典型的半收敛特性,其中迭代步数扮演正则化参数的角色:随着联合双对角化过程的进行,该算法将捕获越来越多的{A, L}的GSVD的主要成分,正则化解逐渐逼近原问题的真实解;随着迭代继续进行,噪声开始破坏迭代解,最后迭代解将收敛到原问题的直接解。以上的这些性质表明基于联合双对角化过程的算法产生一个合理的正则化解的子空间,可以利用这些性质进一步探索此类算法的正则化性质。
3.3. 正则化方法的局限性
正则化方法在现代优化问题中广泛应用,但它们也存在一些局限性和挑战,特别是在计算复杂性、模型偏差、过正则化和欠正则化等方面。
正则化方法在一定程度上提高了求解问题的计算复杂度,尤其在高维数据或大规模问题中尤为明显。在高维数据集(例如机器学习中的大规模特征空间)中,正则化方法通常要求在每次迭代中计算或更新正则化项,这会增加计算时间,尤其是在大规模数据或复杂模型(如深度学习模型)中,计算复杂性可能变得不可忽视。例如:Lasso正则化(L1范数)可能导致“稀疏解”,从而影响求解过程中的梯度计算,而在处理高维稀疏数据时,求解正则化问题通常需要更多的迭代次数,增加了计算成本。正则化方法可能使优化问题变得更加稳定,但在某些情况下,特别是在高维和噪声较大的情况下,正则化可能导致数值计算不稳定,特别是当正则化强度过大时,可能会引发数值上的溢出或下溢。尽管正则化能在很多情况下提高模型的泛化能力,但在大规模数据集上,如何高效地进行正则化计算仍是一个挑战。随着算法和硬件的进步,许多方法(如坐标下降法、分布式优化等)在一定程度上解决了计算复杂性的问题,但在极大规模问题中仍可能出现瓶颈。
正则化的一个重要作用是控制模型复杂度,但如果正则化参数选择不当,可能导致模型偏差或过拟合的风险。当正则化项的权重(正则化参数)过大时,模型可能会过于简单,无法捕捉数据中的重要特征,此现象就是过正则化。过正则化通常会导致模型的拟合能力下降,产生较大的偏差,表现为欠拟合,例如:在Lasso正则化中,如果选择的L1正则化强度过大,模型可能会丢失太多的特征,导致欠拟合。而当正则化项的权重过小,甚至没有正则化时,模型可能会对训练数据过度拟合,导致过拟合。过拟合会使得模型对训练数据表现很好,但在未见过的数据上效果差,导致泛化能力较差,此现象称为欠正则化,例如:在Tikhonov正则化中,如果正则化项的权重过小,模型可能无法有效控制参数的大小,导致高方差和过拟合。正则化方法的效果高度依赖于正则化参数的选择,一个合适的正则化参数可以有效平衡拟合和泛化能力,但在实际应用中,正则化参数的选择通常是一个经验过程,需要依赖交叉验证等技术进行调优。当前正则化方法的不足之一就是如何快速且精确地选择一个最优的正则化参数,以避免过正则化或欠正则化。
4. 结论
反问题和不适定问题是数学中的热点研究方向,它广泛出现在各类科学和工程技术领域,由于离散后的线性问题往往具有不适定性,这给数值求解带来本质性的困难,因此求解不适定问题通常需要引入正则化技术。对于大规模的离散线性不适定问题,设计高效可靠的迭代数值算法具有重要的意义。最常用的正则化方法是一般形式的Tikhonov正则化问题,该问题和矩阵对{A, L}的GSVD密切相关,利用{A, L}的GSVD可以得到显式解,对于中小规模的问题,截断GSVD方法是最直接的正则化方法,当A和L是大规模矩阵时,问题的求解具有很大的挑战。
比较流行的一类求解大规模不适定问题的方法是基于Krylov子空间投影的迭代方法。基于1996年Zha [42]提出的计算大规模矩阵对的部分GSVD的一个算法,2007年,Kilmer等人[43]首次提出基于联合双对角化(JBD)过程的“杂交”型迭代算法求解一般形式的Tikhonov正则化问题。同样基于联合双对角化过程,Jia和Yang [44]提出了不需要“杂交”来求解大规模一般形式的正则化问题的纯迭代型算法,并对该算法做了深入的理论分析。