次指数过程上确界的多项式时间逼近算法
Polynomial Time Approximation Algorithm for Supremum of Sub-Exponential Processes
摘要: 本文提出了一个用于逼近一类次指数过程上确界的算法,具体来说,给定一个有限的向量集合 V d ,对于集合上密度函数对称单峰的次指数过程X,我们能够在多项式时间内确定性地计算出其上确界的期望,即 E[ su p vV | v,X | ] ( 1+ε ) 阶的近似值,其中X服从d维正态分布, ε 是一个大于0的常数。在此前,相关的工作只研究了高斯过程的上确界的算法,而次指数过程作为高斯过程的扩展,在泛函分析、凸几何以及有限图上的随机游走等领域有着广泛的应用,其上确界的近似算法在高斯假设过强的场景下具有重要的研究价值,可以提供的合理的理论保证。
Abstract: This paper proposes an algorithm for approximating the upper bound of a class of sub-exponential processes. Specifically, given a finite set of vectors V d , for a sub-exponential process X with a density function that is symmetric and unimodal on the set, we can deterministically compute the expected upper bound in polynomial time, that is, the ( 1+ε ) -th order approximation of E X N d [ su p vV | v,X | ] , where X follows a d-dimensional normal distribution, and ε is a constant greater than 0. Prior to this, related work has only studied algorithms for the upper bounds of Gaussian processes, while sub-exponential processes, as an extension of Gaussian processes, have a wide range of applications in functional analysis, convex geometry, and random walks on finite graphs, among other fields. The approximation algorithm for the upper bound has significant research value in scenarios where the Gaussian assumption is too strong, providing a reasonable theoretical guarantee.
文章引用:龙新雨. 次指数过程上确界的多项式时间逼近算法[J]. 理论数学, 2024, 14(8): 105-111. https://doi.org/10.12677/pm.2024.148309

1. 引言

高斯过程的上确界研究是概率论和泛函分析的一个重要领域,给定一个任意的度量空间 ( T,d ) ,对于该空间上的高斯过程 { X t ,tT } ,我们希望研究 E sup tT X t 的上界,这是Fernique和Talagrand的著名的占优测度定理研究的重要内容,具体为

1 L γ 2 ( T,d )E sup tT X t L γ 2 ( T,d )

其中 γ 2 ( T,d ) 是只跟度量空间有关的泛函,L是一个常数因子,有兴趣的读者可以参见Ledoux和Talagrand [1],Talagrand [2]的相关工作及其参考文献获得更多的细节。这是一个非常强的结论。到目前为止,已经有大量关于获得高斯过程上确界紧密估计和特征化的工作,这些工作在压缩感知Krahmer [3]等人,凸几何Pisier [4]等领域有多项应用,可以将具体的量转化为这种形式的上界并加以控制。

我们主要关注的问题在于Ding, Lee和Peres [5]在图论中的重大进展,即使用强大的Dynkin同构理论和占优测度定理建立了有限联通随机图G的覆盖时间与G上的高斯自由场相关的高斯过程的上确界之间的结构联系。然后,他们利用这个联系解决了Winkler-Zuckerman [6]毯(blanket)时间猜想,并获得了第一个确定性多项式时间内常数因子逼近算法来计算随机图的覆盖时间。这个结果解决了Aldous和Fill [7] 1994年以来的一个长期开放问题。上确界的计算时间是关于概率和泛函分析中高斯过程的丰富文献中较少研究的一个方面。从算法的角度看,Talagrand的占优测度定理本质上是有限制的,因为其得到的上界中的 常数因子L的大小在理论研究中并不是关心的问题,所以在某些应用中它可能取值较大,而一个好的逼近算法则希望可以足够接近这个量本身,即在算法具体实现时,这个常数因子越趋近于1越好,因此,Ding [5]等人提出了有关该问题计算性的另一个开问题,具体而言,对于任意的 ε>0 ,是否存在一个确定性的多项式算法,使得对于向量集合 v 1 ,, v m d ,对于 E[ sup i | v i ,X | ] 有一个 ( 1+ε ) 阶的逼近算法,而Meka [8]通过借助凸几何中经典的比较不等式成功的解决了这一问题,此后越来越多的工作开始关注占优测度定理在算法上的定量研究,例如Borst [9]等人提供了一种基于凸优化的观点来看待占优测度,他们通过求解一个凸规划问题找到最佳的测度,还给出了一个组合的证明方法,用于构建与占优测度相联系的上下界的证明。此外,该方法将原始的占优测度理论应用于各种非高斯过程,以示了其一般性和通用性。

受到Meka [8]工作的启发,我们尝试考虑一类次指数过程上确界问题的多项式时间内的逼近算法,众所周知,次指数随机变量都是次指数的,作为高斯过程的自然推广,其随机变量的分布比正态分布更集中,即其尾部概率衰减速度比正态分布更快。具体来说,如果一个随机变量X满足对于任意的 t>0 ,都有 P( | X |>t )Cexp( t ) ,其中C是常数,则称X为次指数随机变量,而如果一个随机过程的所有随机变量都是次指数的,但是其随机变量的矩母函数可能是不收敛的,这相较高斯分布在直观上以更大概率产生异常值,其分布的行为更难以预测,对于d维随机向量,若对于任意的 vV v,X 都为次指数随机变量,则称X为次指数随机向量。次指数过程在在信号处理、通信领域、机器学习与数据挖掘等领域都有着广泛的应用,显然,估计次指数过程上确界的期望的难度在于,更复杂的分布特性对于估计 E sup tT X t 上界的精准度有着更高的要求,而对于高斯过程上界 ( 1+ε ) 阶矩的结果在此并不适用,而目前次指数过程 ( 1+ε ) 阶矩的逼近算法尚未有相关工作涉及,本文将在适当的假设下针对一部分次指数过程解决这一问题。

2. 预备知识和主要结果

2.1. 降维

本文的核心想法是一个去随机化版本的Johnson-Lindenstrauss引理(参见Engebretsen等人[10])的降维操作,对于固定的向量集合 V={ v 1 ,, v m } d ε>0 ,不失一般性,我们假设 max vV v 2 =1 ,我们将V投影到 O( ( logm )/ ε 2 ) 维度的空间中,并且在Johnson-Lindenstrauss引理中保持所有的成对(欧氏距离)在 ( 1+ε ) 阶内,此时我们将说明投影后的次指数过程的期望上确界与原始的期望上确界保持在 ( 1+ε ) 内,我们通过经典的Fernique-Slepian引理来量化这一个事实,通过比较随机过程成对的相关性来关联两个次指数过程的上确界,以下结果参见van Handel [11]

引理1.1. { X t } tT { Y t } tT 为两个 ( T,d ) 上的次指数随机过程,则对于一个通用常数C,有

E[ sup tT X t ]CE[ sup tT Y t ]

此时,我们给出下面去随机的Johnson-Lindenstrauss引理,因此降维可以在 O( ( logm )/ ε 2 ) 时间内确定性的完成。

定理1.1. 对于任意的 ε>0 ,存在一个计算时间为 ( dm 2 ( logm+1/ε ) O( 1 ) ) 的算法,给定向量 v 1 ,, v m d ,计算一个线性映射 A: d k ,其中 k=O( ( logm )/ ε 2 ) ,使得对于任意 i,j[ m ] ,都有 v i v j 2 A( v i )A( v j ) 2 ( 1+ε ) v i v j 2

结合上面两个结果,我们可以得到

定理1.2. 对于任意的 ε>0 ,存在一个计算时间为 ( dm 2 ( logm+1/ε ) O( 1 ) ) 的算法,给定向量 v 1 ,, v m d ,计算一个线性映射 A: d k ,其中 k=O( ( logm )/ ε 2 ) ,则对于d维次指数随机向量Xk维随机向量Y,有下式成立

E[ sup i | v i ,X | ]E[ sup i | A,( v i ),Y | ]( 1+ε )E[ sup i | v i ,X | ]

证明

V={ v 1 ,, v m }{ v 1 ,, v m } ,并令 { X v } vV 是次指数过程,其中 X v v,X ,则有 E[ sup i | v i ,X | ]=E[ sup v X v ] ,令 A: d k 是按照定理2.1作用于V的线性映射, { Y v } vV 是对应的次指数过程,有 Y v A,( v ),Y ,即 E[ sup i | v i ,Y | ]=E[ sup v Y v ] 。观察到,对于任意的 u,vV

E[ ( X u X v ) 2 ] = uv 2 2 A( u )A( v ) 2 2  =E[ ( Y u Y v ) 2 ] ( 1+ε ) 2 E[ ( X u X v ) 2 ]

则上述不等式结合引理2.1应用与过程 ( { X v } vV , { Y v } vV ) ( { Y v } vV , { ( 1+ε ) X v } vV ) ,我们可以得到

E[ sup v | X v | ]E[ sup v | Y v | ]E[ sup v ( 1+ε )| X v | ]=( 1+ε )E[ sup v | X v | ]

2.2. 多项式时间内的半范数估计量

在上一节中,我们将d维次指数过程的上确界转化为 O( ( logm )/ ε 2 ) 维,我们接下来将提供逼近次指数过程上确界的这一算法。这个算法一般的适用于所有的半范数的结果,我们假设 φ: k + 是一个半范数,即我们只要求 φ 满足齐次性以及三角不等式,为了归一化,我们假设 1E[ φ( x ) ] ,其中x满足k维的次指数过程,我们用 N k 表示k维的次指数分布,并且 φ 的Lipschitz常数至多为 k O( 1 ) ,这个假设在很多种情况下都可以满足,特别的, φ V ( x )= sup vV | v,x | 满足这一假设,满足上述假设后,我们有如下结果成立。

定理1.3. 对于任意 ε>0 ,存在一个集合 S k ,其基数为 | S |= ( 1/ε ) O( k ) ,函数 p: k + ,可以在多项式时间poly ( k,1/ε ) 内得到,使得对于任意半范数 φ: k + ,都有下面结果成立

( 1ε )( xS p( x )φ( x ) )E[ φ( X ) ]( 1+ε )( xS p( x )φ( x ) ).

该算法的思路是非常自然的,即我们尝试对于次指数分布的密度函数以均匀分布进行离散化,构造 上的一个对称分布 μ ,这可以看做一个分段函数,并且在以下意义上夹住次指数分布;设v μ 的一个收缩,再通过乘积分布 μ k 来计算期望,在对称性和单峰性的假设下,我们可以得到一个不依赖维度k的误差界,其概率密度函数为 ( 1ε )x ,当 xμ 时,我们将证明,如果 μ ε 3/2 维标准进行分段划分,则对于任意的对称凸集 I ,我们有 μ( I )N( I )v( I ) 。简而言之,半范数不能区分 μ k N k ,即对于任意的半范数 φ E μ k [ φ( x ) ]=( 1±ε ) E N k [ φ( x ) ] 。首先我们给出如下定义:

定义1.1. 定义在 n 上的分布f成为单峰的,若f可以写成一个序列的递增极限,每个分布都是对称凸集上的均匀分布的有限正权重和。

显然,通过对于集合S进行枚举,通过在S上的点来查询 φ ,本文的主要结果可以得出。

定理1.4. 对于d维,密度函数对称单峰的次指数过程X,对于任意的 ε>0 ,都存在一个非随机的算法,在多项式时间 ( 1/ε ) O( k ) ,空间复杂度poly ( k,1/ε ) ,并且仅使用 φ 得到 E[ φ( X ) ] ( 1+ε ) 阶近似。

3. 证明

从现在起,我们令 γ 为次指数分布的对称函数,如之前假设, γ 为对称单峰的,固定 ε>0 ,并令 δ>0 是一个参数,我们将在后文选择,令 μ μ δ 是对于 γ 在区间 I=[ iδ,( i+1 )δ ) 上用均匀分布进行质量近似得到的分段近似分布,并令 μ( z )=μ( z ) ,则对于 z>0,z[ iδ,( i+1 )δ ) ,我们有

μ( z )= γ( [ iδ,( i+1 )δ ) ) δ .

显然, μ 上的对称分布,此处,如我们之前所提,如果参数 δε 足够的小,半范数不能够区分 μ k N k

引理2.2 δ= ( 2ε ) 3/2 ,则对于k维次指数向量Z,和分布为 μ k 的随机向量X,对于任意半范数 φ: k ,有

( 1ε )E[ φ( X ) ]E[ φ( Z ) ]E[ φ( X ) ].

在给出引理2.2的证明之前,我们首先引入如下定义,帮助我们通过凸集的体积比较两个多变量分布的大小,该定义是来自Ball [12]

定义2.2. 给定两个对称的 k 上的概率密度函数 f,g ,称f峰值比g小,记为 ( f _ g ) ,若对于任意凸集 K k ,有 f( K )g( K )

在如上定义下,我们有对于任意的半范数 φ: k ,若 f _ g ,则 E f [ φ( x ) ] E g [ φ( x ) ]

引理2.4. (Kanters 引理[13]). 令 μ 1 , μ 2 n 上的对称分布,满足 μ 1 _ μ 2 ,令v m 上的单峰分布,则 μ 1 ×v, μ 2 ×v n × m 上的乘积分布满足 μ 1 ×v _ μ 2 ×v

引理2.5. γ 是如上定义的次指数分布,设随机变量X分布是 μ,v 是随机变量 Y=( 1ε )X 的分布,则若 δ ( 2ε ) 3/2 ,我们有 μ _ γ _ v

证明

由于上文已经有 μ _ γ ,我们只需证明 γ _ v ,我们直观上来看,v是通过将 γ 在区间 I=[ iδ,( i+1 )δ ) 上的质量均匀分布在较小的区间 ( 1ε )I 上获得的,对于足够小的 δ ,我们固定区间 I=[ iδ( 1ε )θ,iδ( 1ε )+θ ] ,其中 0θ<δ( 1ε ) ,则

v( I )=v( [ iδ( 1ε ),iδ( 1ε ) ] )+2v( [ iδ( 1ε ),iδ( 1ε )+θ ] ) =γ( [ iδ,iδ ] )+ 2θγ( [ iδ,( i+1 )δ ) ) δ( 1ε )

现在存在两种情况:

1. 令 i ( 1ε )/ε 使得 iδ( 1ε )+θiδ ,则由上式,我们有

ν( I )γ( [ iδ,iδ ] )γ( [ iδ( 1ε )θ,iδ( 1ε )+θ ] )=γ( I ).

2. 若 i< ( 1ε )/ε 。我们令 α=( i+1 )δ=δ/ε 。则由于次指数分布的定义, 1x e x 1

γ( ( iδ,iδ+θ ] )θγ( 0 ),γ( [ iδ,( i+1 )δ ) )δγ( 0 )( 1α ).

因此我们有

v( I )=γ( I )2γ( ( iδ,iδ( 1ε )+θ ] )+ 2θγ( [ iδ,( i+1 )δ ) ) δ( 1ε ) γ( I )2γ( ( iδ,iδ+θ ] )+ 2θγ( [ iδ,( i+1 )δ ) ) δ( 1ε ) γ( I )2θγ( 0 )+ 2θδγ( 0 )( 1α ) δ( 1ε ) =γ( I )+ 2θγ( 0 ) 1ε ( εα )γ( I ).

对于 α 2 2ε ,证毕。

现在我们来给出引理2.2的证明

证明.

显然,由假设, μ,v,γ 都是单峰的,而单峰分布的乘积分布依旧是单峰分布,则由如上引理并反复应用Kanter引理,最后我们有 μ k _ γ k _ ν k ,因此对于任意的半范数 φ

E μ k [ φ( X ) ] E γ k [ φ( Y ) ] E v k [ φ( X ) ]= E μ k [ φ( ( 1ε )X ) ]=( 1ε ) E μ k [ φ( X ) ]

最后我们给出,本文主要结果定理1.3的证明。

证明.

μ ^ δ( +1/2 ) 上的对称分布,定义如下,对于 i0

μ ^ ( δ( i+1/2 ) )=μ( [ iδ,( i+1 )δ ) )

再令 X μ k , X ^ μ ^ k ,Z N k ,我们首先往证 E[ φ( X ^ ) ]=( 1±ε )E[ φ( Z ) ] ,令Y [ δ,δ ] k 上的均匀分布,并且观察到 X X ^ +Y ,因此我们有

E[ φ( X ) ]=E[ φ( X ^ +Y ) ]=E[ φ( X ^ ) ]±E[ φ( Y ) ] =E[ φ( X ^ ) ]±δE[ φ( Y/δ ) ] =E[ φ( X ^ ) ]±δ E Z u [ 1,1 ] k [ φ( Z ) ] =E[ φ( X ^ ) ]±δE[ φ( Z ) ] 

最后一个等式是由于Y是均匀分布,从Kanter引理和单峰的性质而来。

因此由于引理2.5,我们有

E[ φ( X ^ ) ]=( 1±O( ε ) )E[ φ( Z ) ]

我们接下来处理 μ ^ k ,由 p( x )= μ ^ k ( x ) 定义 p: k + ,此处显然, p( x ) 是一个可以在poly ( k,1/ε ) 时间内遍历的乘积分布。

再令区间 S= ( δ( +1/2 ) ) k B 2 ( 3 k ) ,其中 B 2 ( r ) k 表示半径为r的欧式球,由于半范数 φ 的Lipschitz常数被 k O( 1 ) 控制,所以我们在 X ^ 的支撑之外丢弃所有的点不会对 E[ φ( X ^ ) ] 产生很大影响,并且由次指数分布的定义,可以很容易看出对于 xS ,有着 p( x ) exp( x 2 2 /4 )/ ( 2π ) k/2 ,因此,

E[ φ( X ^ ) ]= x p( x )φ( x )= xS p( x )φ( x )+ xS p( x )φ( x ) = xS p( x )φ( x )± xS exp( x 2 2 /4 ) ( 2π ) k/2 ( k O( 1 ) x 2 ) = xS p( x )φ( x )±o( 1 ).

由于归一化假设 E[ φ( Z ) ]1 ,集合这几个等式,我们立刻有

E[ φ( Z ) ]=( 1±O( ε ) )( xS p( x )φ( x ) ),

我们现在考虑集合S的复杂度,这涉及到单纯的体积计算,

Vol( B 2 ( 3 k )+ [ δ,δ ] k ) Vol( [ δ,δ ] k ) = ( 1/δ ) O( k ) = ( 1/ε ) O( k )

其中对于集合 A,B k A+B 表示其Minkowski和,而Vol表示其Lebesgue体积,不失一般性,我们假设 R= 3 n /δ 是个整数,那么枚举集合S中的元素相当于,按照顺序枚举半径为Rn维球的整数点,这可以通过遍历S中的格点来完成,S中的每个点需要poly ( k,1/ε ) 时间以及 O( klog( 1/ε ) ) 的空间,证毕。

4. 总结

本文通过假设次指数过程的概率密度函数为对称单峰,从而运用降维技术在低维空间得到了一个多项式时间内的逼近算法,来近似这类次指数过程的上确界的期望。而以往的经典的方法在处理这类上界时,一般根据次指数过程的定义,放缩为高斯过程的尾概率,随后通过占优测度定理获得,由于占优测度定理会忽略掉一个通用常数,我们的结果显然是更紧致的,而对于一般的次指数过程,如何一个紧致的上界,是一个很有趣的问题,我们将考虑在之后的工作中解决。

基金项目

山东省自然科学基金(ZR2023QA033)一类抛物型积分微分方程的高阶差分方法;山东大学实验研究项目(sy20233204)机器学习与微分方程实验教学课程研究。

参考文献

[1] Ledoux, M. and Talagrand, M. (1991) Probability in Banach Spaces: Isoperimetry and Processes. Springer.
https://doi.org/10.1007/978-3-642-20212-4
[2] Talagrand, M. (2005) The Generic Chaining: Upper and Lower Bounds of Stochastic Processes. Springer.
[3] Krahmer, F., Mendelson, S. and Rauhut, H. (2014) Suprema of Chaos Processes and the Restricted Isometry Property. Communications on Pure and Applied Mathematics, 67, 1877-1904.
https://doi.org/10.1002/cpa.21504
[4] Pisier, G. (1999) The Volume of Convex Bodies and Banach Space Geometry. Cambridge University Press.
[5] Ding, J., Lee, J. and Peres, Y. (2012) Cover Times, Blanket Times, and Majorizing Measures. Annals of Mathematics, 175, 1409-1471.
https://doi.org/10.4007/annals.2012.175.3.8
[6] Winkler, P. and Zuckerman, D. (1996) Multiple cover Time. Random Structures and Algorithms, 9, 403-411.
https://doi.org/10.1002/(sici)1098-2418(199612)9:4<403::aid-rsa4>3.0.co;2-0
[7] Aldous, D. and Fill, J. (1994) Reversible Markov Chains and Random Walks on Graphs.
http://www.stat.berkeley.edu/~aldous/RWG/book.html
[8] Meka, R. (2015) A Polynomial Time Approximation Scheme for Computing the Supremum of Gaussian Processes. The Annals of Applied Probability, 25, 465-476.
https://doi.org/10.1214/13-aap997
[9] Borst, S., Dadush, D., Olver, N., et al. (2020) Majorizing Measures for the Optimizer. arXiv preprint arXiv: 2012.13306.
[10] Engebretsen, L., Indyk, P. and O’Doneell, R. (2002) Derandomized Dimensionality Reduction with Applications. Proceedings of the Thirteenth Annual ACM-SIAM Symposium on Discrete Algorithms, San Francisco, 6-8 January 2002, 705-712.
[11] van Handel, R. (2014) Probability in High Dimension. Lecture Notes (Princeton University), 2014, 2, 2-3.
[12] Ball, K. (2001) Convex Geometry and Functional Analysis. Handbook of the Geometry of Banach Spaces, 1, 161-194.
https://doi.org/10.1016/s1874-5849(01)80006-1
[13] Kanter, M. (1977) Unimodality and Dominance for Symmetric Random Vectors. Transactions of the American Mathematical Society, 229, 65-85.
https://doi.org/10.1090/s0002-9947-1977-0445580-7