一种非光滑强凸函数的随机次梯度镜面下降算法
A Stochastic Sub-Gradient Mirror Descent Algorithm for Non-Smooth and Strongly Convex Functions
摘要: 镜面下降法(MD)在机器学习问题中已有些实际应用,针对大规模数据的处理和非光滑损失凸优化问题,本文将迭代平均与随机次梯度镜面下降方法相结合,得到了一种改进的方法,通过对问题域的特殊处理,利用它们的结构,提出一种加权平均的随机次梯度镜面下降算法。在这个加权平均过程中,平均迭代不用于构造算法,而是作为算法的副产品出现,其中平均权重由算法使用的步长确定。该算法有很好的收敛性。对于强凸函数,我们证明了该算法的最佳收敛速度达到
Abstract: Mirror descent (MD) has been widely used to deal with the machine learning problems. For large scale data processing and non-smooth loss convex optimization problem, we proposed an improved mirror descent method, which is called modified stochastic sub-gradient mirror descent method. It combined an iterative average method with stochastic sub-gradient descent method. In the process of weighted average, the average iteration is not used to construct the algorithm, but occurs as a byproduct of our algorithm. The average weight is determined by the step size used by the algorithm. Our algorithm has good convergence. For strong convex functions, we show that the optimal convergence rate of the algorithm arrives at .
文章引用:周倩, 罗贤兵, 王鑫. 一种非光滑强凸函数的随机次梯度镜面下降算法[J]. 理论数学, 2018, 8(3): 221-229. https://doi.org/10.12677/PM.2018.83028

1. 引言

随着机器学习的火热发展,机器学习中的大规模优化问题成为近年来被广泛研究的热门问题之一,大部分的机器学习问题的本质都是建立优化模型,通过最优化方法对目标函数(或损失函数)进行优化,从而训练出最好的模型。其主要模式是通过优化经验损失函数,模拟出最优参数,从而获得损失最小化模型 。正则化损失最小化问题是机器学习问题的常见范例,在当今机器学习的应用和研究中占主导地,强凸不可微优化问题作为正则化随机学习问题在机器学习中最为突出。大规模非光滑凸优化是机器学习和计算机虚拟等计算领域中的一个常见问题。这些领域的问题包括特殊的领域结构和特征。对这些问题域的特殊处理,利用它们的结构,可以大大提高计算效率。

众所周知,在低迭代次数下,凸优化问题可以用内点法在多对数时间内求解。然而,这些方法中的大多数都不能很好地适应优化问题的维数。内点法的单次迭代代价随问题的大小呈非线性增长。一阶方法计算上廉价的迭代成为大规模优化问题的一个可行的选择。本文提出了一种求解凸集笛卡儿乘积上一般大规模非光滑强凸优化问题的一阶自适应方法 [1] 。

我们主要关注于求解一个形式如下的优化问题:考虑约束集 Ω 上的凸函数F的最小化问题(其中F不一定是可微函数):

min w Ω F ( w ) = E [ f ( w , ξ ) ] . (1)

设约束集 Ω 是闭凸集,函数 F 是凸的,且在任意点 w Ω 是连续的。此外,对任意的 w Ω ,函数 F ( w ) 的次梯度 g ( w ) 存在,即,对任意的 w Ω ,存在向量 g ( w ) ,使得:

F ( w ) + g ( w ) , u w F ( u ) ,对任意的 u Ω

2. 基本的镜面下降算法

镜面下降算法 [2] [3] 是投影次梯度法 [4] 的推广。标准次梯度法在投影步长上采用欧氏距离函数,选用适当步长。镜面下降算法在非线性投影步长中,采用具有最佳步长的非线性距离函数,对标准投影次梯度法进行扩展。在这一部分中,我们回顾一个基本的镜面下降算法来解决问题(1),不考虑区域几何。

B ( · , · ) 表示集合 Ω 中任意两点的Bregman距离函数,一个基本的镜面下降算法使用了一个非线性投影序列:

w k + 1 = arg min w Ω { g k , w + 1 α k B φ ( w , w k ) } .

其中, g k 是函数F在点 w k 处的次梯度, α k > 0 为迭代步长。

MD方法要求距离函数的范数满足如下性质 [5] [6] :

1) 空间E上的范数 · 嵌入于 Ω ,且 E * 上的对偶范数 * 满足:

ξ * = max w { ξ , w : w 1 } ;

2) 集合上的距离生成函数及范数 · ,即有连续凸函数 φ ( w ) : Ω R 使得:

- 存在 φ ( · ) 的一个次梯度 φ ( · ) ,在集合 Ω 0 = { w Ω : φ ( w ) } 上连续;

- φ ( · ) 关于1范数 · 是强凸的:

( w , w Ω 0 ) : φ ( w ) φ ( w ) , w w w u 2 .

设最大距离为 V = max u Ω B ( w c , u ) ,假设 F ( w ) 在集合 Ω 上是Lipschitz连续的,Lipschitz常数为 L = max w Ω F w * < ,MD方法有如下收敛性:

定理1:设 F * 记为目标函数的全局最优解, w ¯ = arg min w = { w 1 , w 2 , , w k } F ( w ) 。选取最优步长为 α = 2 V L k ,则k次迭代的最优界为:

F * F ( w ¯ ) L 2 V k .

上述定理的证明参考 [1] 。

3. 随机镜面下降算法

在这一节中,我们假设问题(1)的目标函数F具有强凸性,且设其强凸系数为 μ F ,则有:

F ( u ) F ( w ) + g ( w ) , u w + μ F 2 u w 2 , 对任意 u , w Ω

接下来,我们考虑求解问题(1)的随机次梯度镜面下降算法。首先给出Bregman距离函数 [7] 的定义如下:

φ ( ) 为集合 Ω 上连续可微的强凸函数,即存在 μ φ > 0 ,使得

φ ( v ) φ ( w ) + φ ( w ) , v w + μ φ 2 v w 2 , 对任意 w , v Ω (2)

则由函数 φ ( ) 生成的Bregman距离函数记为 B φ 定义为:

B φ ( w , u ) = φ ( u ) φ ( w ) φ ( w ) , u w , 对任意 u , w Ω (3)

从定义可以看出,Bregman距离函数具有以下性质:

B φ ( w , u ) B φ ( v , u ) = B φ ( w , v ) + φ ( v ) φ ( w ) , u w , 对任意 u , v , w Ω (4)

B φ ( w , u ) μ φ 2 w u 2 , 对任意 u , w Ω (5)

上述性质都可由函数 φ ( ) 的强凸性质得到。又函数 φ ( ) 连续可微,可知函数 B φ ( w , u ) 关于u可微,设 w B φ ( , ) 表示 B φ ( w , u ) 关于u的偏导数,则有:

w B φ ( w , u ) = φ ( u ) φ ( w ) 。对任意 u , w Ω (6)

w 0 Ω 为初始点,则问题(1)的次梯度镜面下降法的迭代公式如下:

w k + 1 = arg min w Ω { α k g k , w w k + B φ ( w k , w ) } , 对任意 k > 0

其中 α k > 0 为迭代步长, g k 为函数 F ( w ) 在点 w = w k 的次梯度。当集合 Ω 具有的结构能允许对 w k + 1 有效计算的前提下,该算法有效,例如, w k + 1 的闭形式是有效的。为了处理更一般的形式,我们采用随机思想,用目标函数次梯度的无偏估计代替其次梯度。即用任意选取的某一个损失函数 f ( w , ξ ) 的次梯度 g ˜ 代替目标函数 F ( w ) 的次梯度,从而得到如下形式的随机次梯度镜面下降算法:

w k + 1 = arg min w Ω { α k g ˜ k , w w k + B φ ( w k , w ) } , 对任意 k > 0 (7)

其中任意选取初始点 w 0 Ω ,满足 E [ w 0 2 ] Ω < ,但是与随机次梯度序列 { g ˜ k } 无关。

迭代步长 α k ( 0 , 1 ] ,设其满足

1 α k + 1 α k + 1 2 1 α k 2 , 对任意 k 0 α 0 = 1 . (8)

为了使上述假设看起来更有意义,我们讨论步长的选取问题。由设定的步长条件(8),我们有:

0 < α k + 1 α k 4 + 4 α k 2 α k 2 2 , 对任意 k 0

初始化 α 0 = 1 。我们将考虑下面两种特殊的步长选择:

α k = 1 k + 1 α k + 1 = α k 4 + 4 α k 2 α k 2 2 , 对任意 k 0 (9)

上述的第一个步长由Tseng [8] 提出,设第二个式子中 α k + 1 = 1 t k + 1 ,则得到Nesterov序列 [9] ,它用于构造梯度Lipschitz连续的凸函数的快速一阶算法,即

t k + 1 = 1 + 4 t k 2 + 1 2 , 对任意 k 0

t 0 = 1 [10] 。通过归纳,我们可以发现 t k + 1 = k + 2 2 ,对任意 k 0 ,从而推出(9)中的两个步长公式都满足:

0 < α k 2 k + 2 , 对任意 k 0 , 且 α 0 = 1

由于步长 α k 满足(8),则有

α k 2 1 / ( t = 0 k 1 α t ) , 对任意 k 0 .

我们可以建立基本的随机次梯度镜面下降算法如下:

a) 任意选取初始点 w 0 Ω ,满足 E [ w 0 2 ] Ω < ,一般我们选取 w 0 = arg min w Ω φ ( w )

b) w k + 1 = arg min w Ω { α k g ˜ k , w w k + B φ ( w k , w ) }

c) w ^ k = ( t = 0 k 1 α t ) 1 t = 0 k ( 1 α t w t )

这里,我们取 α k = 1 k + 1 ,且 α 0 = 1 。观察发现,上述迭代中,每次循环都需存储 w k ,加权平均值 w ^ k 1 ,以及步长的相关和 S = t = 0 k 1 α t

我们假设 S k + 1 = S k + 1 α k ,其中 S 0 = 0 ,这样我们可以将上述c改成:

w ^ k = S k S k + 1 w ^ k 1 + ( 1 S k S k + 1 ) w k .

这也就是我们说的加权平均迭代的随机次梯度镜面下降算法。

4. 算法的收敛性分析

接下来,我们对算法的收敛性进行理论分析。首先,讨论步长满足条件(8)的随机次梯度镜面下降法的迭代特点。这里我们假设Bregman距离函数满足如下要求:

B φ ( w , u ) 1 2 w u 2 , 对任意 w , u Ω (10)

上述关系成立,当Bregman距离生成函数 φ 在集合 Ω 上梯度Lipschitz连续,且Lipschitz参数 L = 1 2 ,即,

φ ( w ) φ ( u ) , w u 1 2 w u 2 , 对任意 w , u Ω

观察发现,基于函数 φ 的梯度Lipschitz连续的性质,则对任意 w , u Ω ,我们有

1 2 w u 2 φ ( w ) φ ( u ) , w u φ ( u ) φ ( w ) φ ( w ) , w u = B φ ( w , u ) ,

其中后面的不等式可由函数 φ Ω 上的凸性得到。而且,若 φ ˜ Ω 上满足梯度Lipschitz连续,且Lipschitz常数为 L > 0

φ ˜ ( w ) φ ˜ ( u ) , w u L w u 2 , 对任意 w , u Ω

则存在函数 φ = 1 2 L φ ˜ ,其梯度的Lipschitz常数为 L = 1 2 。这样的函数可以用做满足式(10)的距离生成函数。对于欧式空间,我们取 φ ( w ) = 1 2 w 2 2 ,得Bregman距离函数为 B φ ( w , u ) = 1 2 w u 2 ,同样满足式(10)。

假设1:设随机次梯度 g ˜ ( w ) 满足 E [ g ˜ ( w ) | w ] = g ( w ) ,对任意 w Ω ,则存在某一标量 C ˜ > 0 使得对任意 w Ω ,有 E [ g ˜ ( w ) * 2 | w ] C ˜ 2

g ˜ ( w ) = g ( w ) 时,假设1中次梯度在 Ω 上一致有界,即存在 C > 0 使得对任意 w Ω ,有 g ( w ) C 。若目标函数的次梯度一致有界,且满足 E [ g ˜ ( w ) | w ] = g ( w ) ,存在某个 γ > 0 ,使得对任意 w Ω E [ g ˜ ( w ) g ( w ) * 2 | w ] γ 2 ,则对于一般范数,假设1成立,且 C ˜ 2 = 2 C 2 + 2 γ 2 。显然欧式范数下有同样结论。

我们定义由算法生成的σ-场如下:

Γ k = σ { w 0 , g ˜ 0 , , g ˜ k 1 } , 对任意 k 1 ,

Γ 0 = σ { w 0 } 。根据σ-场,在假设1下,我们得到随机次梯度镜面下降法生成的序列 { w k } 有如下基本性质:

引理1:若假设1成立,则根据算法(7),对任意 u Ω k 0 ,有

E [ B φ ( w k + 1 , u ) | Γ k ] + α k g k , w k u B φ ( w k , u ) + α k 2 C ˜ 2 2 μ φ .

证明:由点 w k + 1 处的一阶必要性条件得:

0 α k g ˜ k + u B φ ( w k , w k + 1 ) , u w k + 1 ,对任意 u Ω

其中 u B φ ( , ) 表示Bregman距离函数关于第二个变量的偏导数。由式(6),我们有,

0 α k g ˜ k + φ ( w k + 1 ) φ ( w k ) , u w k + 1 , 对任意 u Ω

等价地,

α k g ˜ k , w k + 1 u φ ( w k + 1 ) φ ( w k ) , u w k + 1 . (11)

根据式(5),令 w = w k , v = w k + 1 ,则对任意 u Ω ,我们有

φ ( w k + 1 ) φ ( w k ) , u w k + 1 = B φ ( w k , u ) B φ ( w k + 1 , u ) B φ ( w k , w k + 1 ) .

将其带入(11)式,可以发现,对任意 u Ω

α k g ˜ k , w k + 1 u B φ ( w k , u ) B φ ( w k + 1 , u ) B φ ( w k , w k + 1 ) .

φ ( w ) 的强凸性质,以及式(5)可推出,

α k g ˜ k , w k + 1 u B φ ( w k , u ) B φ ( w k + 1 , u ) μ φ 2 w k w k + 1 2 . (12)

下面求内积项,根据Fenchel’s不等式 | p , q | 1 2 p 2 + 1 2 q * 2 ,可得:

α k g ˜ k , w k + 1 u = α k g ˜ k , w k + 1 w k + α k g ˜ k , w k u | α k μ φ g ˜ k , μ φ ( w k + 1 w k ) | + α k g ˜ k , w k u α k 2 2 μ φ g ˜ k * 2 μ φ 2 w k + 1 w k 2 + α k g ˜ k , w k u , (13)

* 为范数 的共轭范数。消去 w k + 1 w k 2 ,我们有

α k g ˜ k , w k u B φ ( w k , u ) B φ ( w k + 1 , u ) + α k 2 2 μ φ g ˜ k * 2 .

Γ k 上取条件期望,再根据假设1,我们得到

α k g ˜ k , w k u B φ ( w k , u ) E [ B φ ( w k + 1 , u ) | Γ k ] + α k 2 C ˜ 2 2 μ φ .

从而推论得证。

引理2:设F为 Ω 上的强凸函数,强凸系数 μ F > 0 ,若假设1成立,且Bregman距离函数 B φ 满足式(10),步长取值满足条件(8),则随机次梯度镜面下降迭代生成的序列 { w k } 与问题(1)的最优解满足如下关系:

E [ B φ ( w k + 1 , w * ) ] + 1 μ F 1 ( t = 0 k 1 α t ) t = 0 k 1 α t ( E [ F ( w t ) ] F ( w * ) ) ( k + 1 ) α k 2 C ˜ 2 2 μ F 2 μ φ .

证明:在假设1下,根据引理1,令 u = w * ,则对任意 k 0 ,有

E [ B φ ( w k + 1 , w * ) | Γ k ] + α k μ F g k , w k w * B φ ( w k , w * ) + α k 2 C ˜ 2 2 μ F 2 μ φ ,

由函数F的强凸性可得

α k μ F g k , w k w * α k μ F ( F ( w k ) F ( w * ) ) + α k 2 w k w * 2 α k μ F ( F ( w k ) F ( w * ) ) + α k B ( w k , w * ) .

结合上述两不等式,并对它们求总期望,进一步得:对任意 k 0

E [ B φ ( w k + 1 , w * ) ] + α k μ F ( E [ F ( w k ) ] F ( w * ) ) ( 1 α k ) E [ B φ ( w k , w * ) ] + α k 2 C ˜ 2 2 μ F 2 μ φ ,(14)

不等式两边同时乘以 1 / α k 2 ,由 1 α k α k 2 1 α k 1 2 ,则对任意 k 1 ,我们有

1 α k 2 E [ B φ ( w k + 1 , w * ) ] + 1 α k μ F ( E [ F ( w k ) ] F ( w * ) ) ( 1 α k ) α k 2 E [ B φ ( w k , w * ) ] + C ˜ 2 2 μ F 2 μ φ 1 α k 1 2 E [ B φ ( w k , w * ) ] + C ˜ 2 2 μ F 2 μ φ .

由于 α 0 = 1 ,将上面不等式从 k , k 1 , , 1 求和得

1 α k 2 E [ B φ ( w k + 1 , w * ) ] + 1 μ F t = 1 k 1 α t ( E [ F ( w t ) ] F ( w * ) ) E [ B φ ( w 1 , w * ) ] + k C ˜ 2 2 μ F 2 μ φ ,(15)

由于 α 0 = 1 ,由(14)式知,当 k = 1 时, E [ B φ ( w 1 , w * ) ] 满足如下关系:

E [ B φ ( w 1 , w * ) ] + 1 μ F ( E [ F ( w 0 ) ] F ( w * ) ) C ˜ 2 2 μ F 2 μ φ 。对任意 k 1 (16)

联立(15)和(16)式,我们可得到,对任意 k 1

1 α k 2 E [ B φ ( w k + 1 , w * ) ] + 1 μ F t = 0 k 1 α t ( E [ F ( w t ) ] F ( w * ) ) ( k + 1 ) C ˜ 2 2 μ F 2 μ φ ,

将上式两边同时乘以 α k 2 ,然后运用关系 α k 2 1 / ( t = 0 k 1 α t ) ,从而推论得证。

定理2:设F为 Ω 上的强凸函数,强凸系数 μ F > 0 。若假设1成立,且Bregman距离函数 B φ 满足式(10),步长取(9)中任何一个,则对随机次梯度镜面下降迭代法生成的序列 { w k } ,我们有:

E [ w t w * 2 ] 4 k + 1 C ˜ 2 μ F 2 μ φ 2 , 对任意 k 0 ,

则对加权平均迭代序列 { w ^ k } ,我们有:

E [ F ( w ^ t ) ] F ( w * ) 2 k + 1 C ˜ 2 μ F μ φ , 对任意 k 0 ,

E [ w ^ t w * 2 ] 4 k + 1 C ˜ 2 μ F 2 μ φ , 对任意 k 0 ,

其中 w * 为问题(1)的最优解。

证明:根据引理2,对任意 k 0 ,我们有:

E [ B φ ( w k + 1 , w * ) ] + 1 μ F 1 ( t = 0 k 1 α t ) t = 0 k 1 α t ( E [ F ( w t ) ] F ( w * ) ) ( k + 1 ) α k 2 C ˜ 2 2 μ F 2 μ φ .

有步长序列 { α k } 满足:对任意 k 0 α k 2 k + 1 ,所以

E [ B φ ( w k + 1 , w * ) ] + 1 μ F 1 ( t = 0 k 1 α t ) t = 0 k 1 α t ( E [ F ( w t ) ] F ( w * ) ) 2 k + 1 α k 2 C ˜ 2 μ F 2 μ φ , (17)

由F的强凸性以及加权平均迭代序列 { w ^ k } 的定义,上式可总结为:

E [ F ( w ^ k ) ] F ( w * ) 2 k + 1 C ˜ 2 μ F μ φ , 对任意 k 0 ,

又F在 Ω 上的强凸性,我们有 F ( w ^ ) F ( w * ) μ F 2 w ^ w * 2 ,则

E [ w ^ k w * 2 ] 4 k + 1 C ˜ 2 μ F 2 μ φ , 对任意 k 0 ,

而且由式(17)我们可得:

E [ B φ ( w k + 1 , w * ) ] 2 k + 1 C ˜ 2 μ F 2 μ φ , 对任意 k 0 ,

则由函数 φ 的强凸性,我们有

E [ w k w * 2 ] 4 k + 1 C ˜ 2 μ F 2 μ φ 2 , 对任意 k 0 .

5. 总结

本文在基本的镜面下降方法的基础上引入随机思想,得到随机次梯度镜面下降方法,并将该方法与加权平均迭代法相结合,进一步探讨了带有加权平均迭代 [11] 的随机次梯度下降镜面下降方法。我们考虑了随机次梯度镜像下降法的最优性条件,通过使用自适应步长求得权值,从而得到该方法的加权平均迭代值。本文的创新点是在迭代平均值的构造中使用自适应步长选择来获得权重,通过使用所提出的权值,我们可以恢复强凸函数和仅凸函数的已知速率。

基金项目

国家自然科学基金(11461013),贵州省公共大数据重点实验开放课题项目(2017BDKFJJ012)。

参考文献

[1] Juditsky, A. and Nemirovski, A.S. (2010) First Order Methods for Nonsmooth Convex Large-Scale Optimization, II: Utilizing Problem’s Structure. MIT Press, Cambridge.
[2] Ben-Tal, A., Margalit, T. and Nemirovski, A. (2001) The Ordered Subsets Mirror Descent Optimization Method with Applications to Tomography. Society for Industrial and Applied Mathematics, 12, 79-108.
[3] Rakhlin, A., Shamir, O. and Sridharan, K. (2012) Making Gradient Descent Optimal for Strongly Convex Stochastic Optimization. arXiv:1109.5647 [cs.LG]
[4] Beck, A. and Teboulle, M. (2003) Mirror Descent and Nonlinear Projected Subgradient Methods for Convex Optimization. Operations Research Letters, 31, 167-175.
https://doi.org/10.1016/S0167-6377(02)00231-6
[5] Duchi, J.C., Shalev-Shwartz, S. and Singer, Y. (2010) Composite Objective Mirror Descent. 23rd Conference on Learning Theory, Haifa, 27-29 June 2010, 14-26.
[6] Sra, S., Nowozin, S. and Wright, S.J. (2011) Optimization for Machine Learning. MIT Press, Cam-bridge.
[7] Brègman, L.M. (1967) The Relaxation Method of Finding the Common Point of Convex Sets and Its Ap-plication to the Solution of Problems in Convex Programming. USSR Computational Mathematics & Mathematical Physics, 7, 200-217.
https://doi.org/10.1016/0041-5553(67)90040-7
[8] Tseng, P. (2008) On Accelerated Proximal Gradient Methods for Convex-Concave Optimization. SIAM Journal on Optimization.
[9] 陶蔚, 潘志松, 陶卿. 使用Nesterov步长策略投影次梯度方法的个体收敛性[J]. 计算机学报. 2018 (1).
[10] Beck, A. and Te-boulle, M. (2009) A Fast Iterative Shrinkage-Thresholding Algorithm for Linear Inverse Problems. SIAM Journal on Imaging Sciences, 2, 183-202.
https://doi.org/10.1137/080716542
[11] Luong, D.V.N., Parpas, P. and Rueckert, D. (2016) A Weighted Mirror Descent Algorithm for Non-Smooth Convex Optimization Problem. Journal of Optimi-zation Theory & Applications, 170, 900-915.
https://doi.org/10.1007/s10957-016-0963-5