有向网络中基于动量方法的加速行随机优化
Accelerated Row-Stochastic Optimization over Directed Networks Based on Momentum Methods
DOI: 10.12677/AAM.2023.123094, PDF, HTML, XML, 下载: 178  浏览: 263 
作者: 任冬梅:河北工业大学理学院,天津
关键词: 分布式优化有向网络异构步长线性收敛Distributed Optimization Directed Network Heterogeneous Step Size Linear Convergence
摘要: 本文研究了有向网络下的分布式凸优化问题,并在现有分布式算法的基础上提出了一种新颖的分布式动量加速算法,叫做ARNH。该算法采用行随机矩阵和异构步长,有效克服网络不平衡性的同时提高了网络灵活性。此外,为了实现更快的收敛速率,ARNH采用Nesterov梯度法和Heavy-Ball法相结合的双加速机制。在局部目标函数可微且强凸的假设下,本文证明通过选取合适的步长和动量参数,算法可使节点状态渐近收敛到全局最优解。最后,在仿真实验中将ARNH与相关算法进行性能比较,验证了新算法的优越性。
Abstract: In this paper, we study the distributed convex optimization problems over directed networks, and propose a novel distributed momentum acceleration algorithm called ARNH based on the existing distributed algorithms. ARNH uses row-stochastic matrix and heterogeneous step size, which effec-tively overcomes the network imbalance and improves the network flexibility. Furthermore, in or-der to achieve faster convergence, ARNH employs a double acceleration mechanism combining Nesterov gradient method and heavy-ball method. Under the assumption that the local objective function is differentiable and strongly convex, it is proved that the node state can be asymptotically converged to the global optimal solution by choosing appropriate step-sizes and momentum pa-rameters. Finally, the superiority of the new algorithm is verified by comparing the performance of ARNH with related algorithms in simulation experiments.
文章引用:任冬梅. 有向网络中基于动量方法的加速行随机优化[J]. 应用数学进展, 2023, 12(3): 919-931. https://doi.org/10.12677/AAM.2023.123094

1. 引言

近年来,分布式优化受到了越来越多的关注,与传统的集中控制优化策略不同,分布式优化不需要集中的数据控制,可以有效减轻通信负担,节省通信成本,增强网络可扩展性。得益于上述优势,分布式优化算法被广泛应用于统计估计 [1] 、机器学习 [2] [3] [4] 、能源调度 [5] [6] 、网络化多智能体系统的控制 [7] 等领域。

分布式优化的研究早期是在无向网络上进行的,Nedić等在文献 [8] 中为解决分布式无约束优化问题突破性地提出了分布式次梯度算法(DGD),但该算法受衰减步长影响存在收敛速度较慢的缺陷。为了达到更快的收敛速度,Shi等在文献 [9] 中通过对前一次迭代信息的再次使用提出了即使采用固定步长也可实现线性收敛的EXTRA算法。随后,Qu等人通过结合梯度追踪技术和不精确梯度法,在文献 [10] 中提出了适用于时变通信网络的DIGing算法,当局部目标函数强凸且光滑,该算法可使节点渐近收敛到全局最优解。此后,Jakovetić等在文献 [11] 中揭示了EXTRA和DIGing之间的差异在于原始误差对对偶误差的影响不同,并通过推导出一种新的方法对上述两种方法进行统一。

上述算法要求节点间的信息传输是对称且双向的,这在实际网络系统中很难实现,因此研究有向网更具有实用性。针对有向网络下的分布式无约束凸优化问题,Xi等通过运用push-sum协议 [12] 设计了一种基于广播通信的次梯度下降算法 [13] ,该算法采用列随机权重矩阵和衰减步长,虽然有效克服了有向网络的不平衡性,但只能达到次线性收敛。为解决收敛速度过慢的问题,Kempe等通过将push-sum协议与EXTRA算法相结合,在文献 [14] 中提出了可以实现线性收敛的DEXTRA算法。进一步地,文献 [15] 考虑了更一般的时变网络,提出了一种带有异构步长的有向图算法(push-DIGing),该算法不仅为步长提供较广阔的选择范围,而且能实现更快收敛。此外,文献 [16] [17] 提出一类算法可同时使用了行和列随机权重矩阵来实现在强连通有向图中的线性收敛。

上述方法虽能有效应用于有向网络,但列随机矩阵的使用需要节点知道其自身出度,这在基于广播通信的网络中是不符合实际的。为了突破这一严苛条件,文献 [18] [19] 中提出了一类只使用行随机权重矩阵的分布式算法,此类算法通过引入辅助变量来消除网络不平衡性,当目标函数强凸且具有Lipschitz连续梯度时,可实现线性收敛。在此基础上,Xin等人在文献 [20] 中进一步放宽了对步长的限制,设计出采用异构步长的行随机优化算法(FROST)。随后,文献 [21] 基于Nesterov加速机制提出了FROST算法的加速版本,文献 [22] 将FROST与heavy-ball和Nesterov动量项相结合,以实现更快收敛。除此之外,还有一些单使用行随权重机矩阵的原始对偶算法 [23] [24] ,与现有的有向网络下的分布式算法相比,此类方法在没有显式使用梯度跟踪技术(GT)的情况下也具有线性收敛性。

基于上述研究,本文在文献 [11] 的基础上,结合Push-sum协议提出了一种可适用于有向网络的加速行随机分布式优化算法(ARNH),并通过采用异构步长和双加速机制,在提高网络灵活性和保证节点隐私性的同时加快了收敛速度。后续证明在一定的假设条件下,ARNH可以实现线性收敛,最后,根据数值实验结果验证了该算法相较于现有的有向图算法有更好的收敛性能。

2. 预备知识

2.1. 问题描述

在一个由n个节点组成的网络系统中,节点间的信息交换可用图 G = ( V , E ) 进行描述,其中 V = { 1 , , n } 是有限的非空点集合, E = { ( i , j ) : i , j V } 为边集合。若有 ( i , j ) E ,那么称节点j是节点i的邻居,对节点i,我们将其入度邻居定义为 N i i n = { j V | ( j , i ) E } ,相应的其出度邻居用 N i o u t = { j V | ( i , j ) E } 表示,其中出度邻居的个数被定义为节点i的出度。若对任意边 ( i , j ) V 必有相应的边 ( j , i ) V 存在,该网络拓扑图为无向图,反之为有向图。若图中任意两个节点都存在一条有向路径,那么称此图是强连通的。

分布式优化即指上述网络中的所有节点共同解决以下分布式优化问题:

min s ˜ R p f ( s ˜ ) = 1 n i = 1 n f i ( s ˜ ) (1)

其中 s ˜ R np 为全局决策变量, f i ( s ˜ ) : R p R 为节点i私有的局部目标函数。若以分布形式来解决问题(1),需要引入一个变量来模拟节点状态,则上述优化问题可转化为:

min s R np f ( s ) = 1 n i = 1 n f i ( s i ) s .t . s i = s j i , j = 1 , 2 , , n (2)

其中 s = [ s 1 T , s 2 T , , s n T ] R np ,因为问题(1)和(2)等价,则问题(2)的最优解可写为 s * = 1 s ˜ * R np

2.2. 相关定义和假设

定义2.1若矩阵 A = [ a i j ] 每一行(列)求和都为1,称矩阵为行(列)随机矩阵。若该矩阵同时满足行随机与列随机,那么称矩阵 A = [ a i j ] 为双随机矩阵。

定义2.2若一个连续可微函数 f : R p R ,对任意的 s ˜ 1 , s ˜ 2 R p 存在 μ 使得:

f ( s ˜ 1 ) f ( s ˜ 2 ) + f ( s ˜ 2 ) T ( s ˜ 1 s ˜ 2 ) + μ 2 s ˜ 1 s ˜ 2 2 (3)

成立,则称函数f是 μ -强凸,其中 μ 是强凸系数。

定义2.3若一个连续可微函数 f : R p R ,对任意的 s ˜ 1 , s ˜ 2 R p 存在l使得:

f ( s ˜ 2 ) f ( s ˜ 1 ) l s ˜ 2 s ˜ 1 2 (4)

成立,则称函数f是l-光滑或简称光滑,其中l是Lipschitz常数。

假设2.1网络拓扑图 G = ( V , E ) 强连通。

假设2.2局部目标函数 f i : R p R 强凸且光滑。

2.3. 算法发展

1) Heavy-ball方法

Polyak为解决一般优化问题在文献 [25] 中提出了Heavy-ball方法:

x k + 1 = x k α f ( x k ) + η ( x k x k 1 )

其中 η ( x k x k 1 ) 为重球动量项,文中指出当步长 α 和动量参数 η 的选取满足约束条件时,该算法可达到比一般梯度下降法更快的收敛速度,因此后续有学者将该方法引入分布式优化算法 [23] [26] 中以实现更快收敛。

2) Nesterov梯度法

文献 [26] 对一阶梯度法使用历史信息提出了Nesterove梯度方法:

x k + 1 = s k α f ( s k ) s k + 1 = x k + 1 + η ( x k + 1 x k )

其中 β ( x k + 1 x k ) 为Nesterov动量项,当目标函数满足强凸且光滑条件, α = 1 l β = l μ l + μ 时,该算法可以达到 O ( ( 1 α μ ) k ) 的收敛速率,这比相同情况下的梯度下降法更快,因此后续有学者将其应用到

分布式算法 [22] [23] 中。

受上述算法的启发,我们将动量项与文献 [11] 中的算法相结合,设计出一种行随机加速优化算法(ARNH)。所提出的算法中,对任意第 k N 次迭代,每个节点 i V 持有四个变量, x k i s k i v k i u k i ,根据如下规则进行更新

x k + 1 i = j = 1 n r i j s k j α i ( f i ( s k i ) [ v k i ] i + u k i ) + η i ( x k i x k 1 i ) (5)

s k + 1 i = x k + 1 i + η i ( x k + 1 i x k i ) (6)

u k + 1 i = u k i j = 1 n l i j ( f j ( s k j ) [ v k j ] j + u k j l = 1 n b j l s k l ) (7)

v k + 1 i = j = 1 n r i j v k j (8)

算法初始化设定任意 x 0 i = s 0 i R p u k i = 0 p v 0 i = e i ,权重矩阵 R = [ r i j ] 为行随机矩阵, L = [ l i j ] = I n R ,矩阵 B = [ b i j ] n × n 维的行随机矩阵,并且满足有 b R 存在使得 B 1 n = b 1 n 成立。 α i η i 分别对应节点i的步长和动量参数。为了更好地分析算法收敛性,我们将ARNH改写成矩阵形式前需要引入必要符号:

α = [ α 1 , α 2 , , α n ] T , D α = d i a g { α } I p , V k = [ v k 1 , v k 2 , , v k n ] T , B ¯ = B I p , L ¯ = L I p , η = [ η 1 , η 2 , , η n ] T , D η = d i a g { η } I p , V ¯ k = d i a g { V k } I p , R ¯ = R I p .

那么ARNH算法可转换为如下矩阵形式:

x k + 1 = R ¯ s k D α ( V ¯ k 1 F ( s k ) + u k ) + D η ( x k x k 1 ) (9)

s k + 1 = x k + 1 D η ( x k + 1 x k ) (10)

u k + 1 = u k L ¯ ( V ¯ k 1 F ( s k ) + u k B ¯ s k ) (11)

V k + 1 = R ¯ V k (12)

其中 F ( s k ) x k s k u k 被分别定义为 F ( x k ) = [ f 1 ( x k 1 ) T , f 2 ( x k 2 ) T , , f n ( x k n ) T ] T x k = [ ( x k 1 ) T , ( x k 2 ) T , , ( x k n ) T ] T s k = [ ( s k 1 ) T , ( s k 2 ) T , , ( s k n ) T ] T u k = [ ( u k 1 ) T , ( u k 2 ) T , , ( u k n ) T ] T

3. 算法收敛性证明

V = lim V k k , V ¯ k = d i a g ( V k ) , v = sup k 0 V k , v ^ = sup k 0 V ¯ k 1 , η ¯ = max i { η i } , α ¯ = max i { α i } , τ = R ¯ I np , λ = R ¯ + I np , γ = I np V ¯ .

3.1. 辅助引理

引理3.1 [24] 考虑由行随机矩阵R生成的 V ¯ k ,对于任意的 k N ,有下列不等式成立

V ¯ k V ¯ k 1 σ k

其中 k 1 为大于0的常数, σ ( 0 , 1 ) 为收缩因子。

引理3.2 [22] 考虑由行随机矩阵R生成的 V ¯ k ,对于所有的 k N ,有下列不等式成立

V ¯ k 1 V ¯ 1 k 1 n v ^ 2 σ k

其中 σ ( 0 , 1 ) 为收缩因子在引理1中被定义,其中 k 1 为大于0的常数。

引理3.3 [21] 给定 0 < α < 2 n l ,令 ω = max { | 1 α n μ | , | 1 α n l | } ,如果假设2.2成立,那么对于 x R np ,我们有

x α F ( x ) x * ω x x * 2

引理3.2建立了 V ¯ k 1 的线性收敛性。引理3.3指出,在集中式梯度法中,当前迭代值与最优解之间的距离在每次迭代中收缩。

引理3.4 [21] 对于一个非负矩阵 X R n × n 和正向量 x R n ,如果有 X x < ζ x ,那么 ρ ( X ) < ζ

3.2. 收敛关系

被提出的算法收敛关系将通过推导如下四项误差的上界得到

1) 对偶误差: u k + 1 u *

2) 最优误差: x ^ k + 1 s *

3) 状态误差:: x k x k 1

4) 一致性误差: x k + 1 x ^ k + 1

其中 x ^ k + 1 = V ¯ x k + 1

引理 3.5 若假设2.1-2.2成立,对任意 k 0 有下列不等式成立

u k + 1 u σ u k u + ( B + v ^ l ) L x k x ^ k + ( B + v ^ l ) L x ^ k s * + η ¯ L ( B + v ^ l ) x k x k 1 + v ^ 2 σ k k 1 L F ( s k )

证明 考虑k趋近于无穷时算法收敛于 ( s * , u * ) 根据式子(11),我们有

u * = u * L ¯ ( V ¯ 1 F ( s * ) + u * B ¯ s * ) (13)

这意味着 u * = V ¯ 1 F ( s * ) ,则等式(13)可变换为下列形式

u k + 1 u = u k u L ¯ ( V ¯ k 1 F ( s k ) V ¯ 1 F ( s * ) + V ¯ 1 F ( s * ) + u k ) + L ¯ B ¯ s k = R ¯ ( u k u ) + L ¯ ( V ¯ k 1 F ( s k ) V ¯ 1 F ( s * ) ) + L ¯ B ¯ s k , (14)

根据初始化条件 u 0 = 0 np 可证得 V ¯ u k + 1 = V ¯ u k = 0 np ,由于 L ¯ B ¯ s * = b L ¯ s * = 0 np ,(14)可改写为

u k + 1 u = ( R ¯ V ¯ ) ( u k u ) + L ¯ ( V ¯ k 1 F ( s k ) V ¯ 1 F ( s * ) ) + L ¯ B ¯ ( s k s ) (15)

根据引理2.2~2.3以及假设2,等式(15)右边的第二项可改写为

V ¯ k 1 F ( s k ) V ¯ 1 F ( s * ) V ¯ k 1 F ( s k ) V ¯ 1 F ( s k ) + V ¯ 1 F ( s k ) V ¯ 1 F ( s * ) v ^ l x k x ^ k + v ^ l x ^ k s * + η ¯ v ^ l x k x k 1 + v ^ 2 σ k k 1 F ( s k ) (16)

将等式(16)带入等式(15),并对两边取范数可得

u k + 1 u σ u k u + ( B ¯ + v ^ l ) L ¯ x k x ^ k + ( B ¯ + v ^ l ) L ¯ x ^ k s * + η ¯ L ¯ ( B ¯ + v ^ l ) x k x k 1 + v ^ 2 σ k k 1 L ¯ F ( s k ) (17)

引理 3.6 若假设1~3成立,对 k 0 下面不等式成立:

x k + 1 x ^ k + 1 α ¯ γ u k u + ( σ + α ¯ γ v ^ l ) x k x ^ k + α ¯ γ v ^ l x ^ k s * + ( λ γ η ¯ + α ¯ γ η ¯ v ^ l ) x k x k 1 + α ¯ γ v ^ 2 σ k k 1 F ( s k )

证明 结合(9)和(10)可得

x k + 1 = R ¯ x k D α ( V ¯ k 1 F ( s k ) + u k ) + ( R ¯ + I np ) D η ( x k x k 1 ) (18)

在上式两端乘以 ( I n p V ¯ ) 并使用 R ¯ V ¯ = V ¯ ,我们有

x k + 1 x ^ k + 1 = ( R ¯ V ¯ ) x k + ( I np V ¯ ) ( R ¯ + I np ) D η ( x k x k 1 ) ( I np V ¯ ) D α ( V ¯ k 1 F ( s k ) + u k ) , (19)

根据 ( R ¯ V ¯ ) x k = ( R ¯ V ¯ ) ( x k x ^ k ) ,进一步可得

x k + 1 x ^ k + 1 = ( R ¯ V ¯ ) ( x k x ^ k ) + ( I np V ¯ ) ( R ¯ + I np ) D η ( x k x k 1 ) ( I np V ¯ ) D α ( V ¯ k 1 F ( s k ) V ¯ 1 F ( s * ) + V ¯ 1 F ( s * ) + u k ) = ( R ¯ V ¯ ) ( x k x ^ k ) + ( I np V ¯ ) ( R ¯ + I np ) D η ( x k x k 1 ) ( I np V ¯ ) D α ( V ¯ k 1 F ( s k ) V ¯ 1 F ( s * ) ) ( I np V ¯ ) D α ( V ¯ 1 F ( s * ) + u k ) , (20)

对式子(20)取范数并将式子(16)带入,我们可得

x k + 1 x ^ k + 1 α ¯ γ u k u + ( σ + α ¯ γ v ^ l ) x k x ^ k + α ¯ γ v ^ l x ^ k s * + ( λ γ η ¯ + α ¯ γ η ¯ v ^ l ) x k x k 1 + α ¯ γ v ^ 2 σ k k 1 F ( s k )

引理3.7 若假设1~3成立,对 k 0 下面不等式成立:

x k + 1 x k ( τ + α ¯ v ^ l ) x k x ^ k + ( α ¯ η ¯ v ^ l + η ¯ λ ) x k x k 1 + α ¯ v ^ l x ^ k s * + α ¯ v ^ 2 σ k k 1 F ( s k ) + α ¯ u k u

在等式(9)两边同时减去 x k 并运用(10)可得

x k + 1 x k = ( R ¯ I np ) x k D α ( V ¯ k 1 F ( s k ) + u k ) + ( R ¯ + I np ) D η ( x k x k 1 )

根据 R ¯ x ^ k = x ^ k ,我们有下式成立

x k + 1 x k = ( R ¯ I np ) ( x k x ^ k ) + ( R ¯ + I np ) D η ( x k x k 1 ) + D α ( V ¯ 1 F ( s * ) + u k + V ¯ k 1 F ( s k ) V ¯ 1 F ( s * ) ) , (21)

对(21)两边同时取范数,我们有

x k + 1 x k ( τ + α ¯ v ^ l ) x k x ^ k + ( η ¯ α ¯ v ^ l + λ η ¯ ) x k x k 1 + α ¯ v ^ l x ^ k s * + α ¯ v ^ 2 σ k k 1 F ( s k ) + α ¯ u k u

引理3.7证明完毕。

引理3.8 若假设1~3成立,对 k 0 下列不等式成立

x ^ k + 1 s * ( ω + v v ^ l Δ α ) x ^ k s * + ( α ¯ + Δ α ) v v ^ l x k x ^ k + Δ α v u k + 1 u * + ( α ¯ v ^ l + Δ α v ^ l + λ ) v η ¯ x k x k 1 + ( α ¯ + Δ α ) v v ^ 2 σ k k 1 F ( s k )

其中 Δ α = α ¯ α min

根据 V ¯ R ¯ = V ¯ 在等式(9)两边同时乘 V ¯ 并运用(10)可得

V ¯ x k + 1 = V ¯ x k + V ¯ ( R ¯ + I np ) D η ( x k x k 1 ) V ¯ D α ( V ¯ k 1 F ( s k ) + u k ) (22)

根据 V ¯ u k + 1 = V ¯ u k = 0 np ,在(22)右边加减 α ¯ V ¯ V ¯ 1 F ( x ^ k ) ,我们可得

V ¯ x k + 1 = V ¯ x k α ¯ V ¯ V ¯ 1 F ( x ^ k ) + α ¯ V ¯ ( V ¯ 1 F ( x ^ k ) V ¯ k 1 F ( s k ) ) + V ¯ ( α ¯ I np D α ) ( V ¯ k 1 F ( s k ) V ¯ 1 F ( s * ) ) + V ¯ ( α ¯ I np D α ) ( u k + 1 u * ) + V ¯ ( R ¯ + I np ) D η ( x k x k 1 )

根据假设2和引理2.3,(23)式的第二项满足下列不等式

V ¯ k 1 F ( s k ) V ¯ 1 F ( x ^ k ) V ¯ k 1 F ( s k ) V ¯ 1 F ( s k ) + V ¯ 1 F ( s k ) V ¯ 1 F ( x ^ k ) v ^ 2 σ k k 1 F ( s k ) + v ^ l x k x ^ k + η ¯ v ^ l x k x k 1 + η ¯ v ^ l x k x k 1 (23)

将(23)和(16)带入(22),并对等式两边减去 s * 同时取范数可得

x ^ k + 1 s * ( ω + v v ^ l Δ α ) x ^ k s * + ( α ¯ + Δ α ) v v ^ l x k x ^ k + Δ α v u k + 1 u * + ( α ¯ v ^ l + Δ α v ^ l + λ ) v η ¯ x k x k 1 + ( α ¯ + Δ α ) v v ^ 2 σ k k 1 F ( s k )

3.3. 主要结果

在呈现主要结果之前,根据以上所提及的结果和符号,我们进行如下定义:

t k = [ u k u * x k x ^ k x ^ k s * x k x k 1 ] , H k = σ k [ v ^ 2 σ k k 1 L ¯ 0 0 0 α ¯ γ v ^ 2 k 1 0 0 0 v v ^ 2 k 1 ( Δ α + α ¯ ) 0 0 0 α ¯ v ^ 2 k 1 0 0 0 ] , s k = [ F ( s k ) 0 0 0 ] J ( α , η ) = [ σ w 1 w 1 η ¯ w 1 α ¯ γ λ + α ¯ w 2 α ¯ w 2 λ γ η ¯ + α ¯ η ¯ w 2 v Δ α ( Δ α + α ¯ ) w 3 ω + Δ α w 3 η ¯ ( α ¯ w 3 + Δ α w 3 + λ v ) α ¯ τ + α ¯ w 4 α ¯ w 4 η ¯ ( α ¯ w 4 + λ ) ] , w 1 = ( B ¯ + v ^ l ) L ¯ , w 2 = γ v ^ l , w 3 = v v ^ l , w 4 = v ^ l .

定理3.1 若假设1~2成立,根据引理3.5~3.8有下列线性不等式成立

t k + 1 J ( α , η ) t k + H k s k

当最大步长 α ¯ 满足:

0 α ¯ < min { c 2 λ ( η ¯ c 4 + c 2 ) γ c 1 + w 2 c 2 + w 2 c 3 + w 2 η ¯ c 4 , c 4 τ c 2 c 1 + w 4 c 2 + w 4 c 3 + η ¯ w 4 c 4 , 1 n l } (24)

动量参数 η ¯ 满足:

0 η ¯ < min { ( 1 λ ) c 2 α ¯ ( γ c 1 + w 2 c 2 + w 2 c 3 ) λ c 4 + α ¯ w 2 c 4 , c 4 τ c 2 a ¯ ( c 1 + w 4 c 2 + w 4 c 3 ) λ c 4 + a ¯ w 4 c 4 , α ¯ ( n μ c 3 w 3 c 2 ) Δ α ( v c 1 + w 3 c 2 + w 3 c 3 ) n μ c 3 + α ¯ w 3 c 4 + w 3 Δ α c 4 } . (25)

其中 c 1 , c 2 , c 3 , c 4 为随机常数,取值满足:

0 < c 2 , τ c 2 < c 4 , w 1 ( c 2 + c 3 ) + η ¯ w 1 c 4 1 σ < c 1 , 0 < c 3 < n μ c 3 η ¯ w 3 c 4 w 3

最大步长和最小步长之间的差距满足:

0 < Δ α < α ¯ ( n μ c 3 w 3 c 2 η ¯ w 3 c 4 ) v c 1 + w 3 c 2 + w 3 c 3 + w 3 η ¯ c 4

则矩阵 J ( α , η ) 的谱半径小于1,即 ρ ( J ( α , η ) ) < 1

证明 由于 l > μ 所以 ω = 1 α ¯ n μ ,根据引理4可知存在正向量 c = [ c 1 , c 2 , c 3 , c 4 ] T R + 4 使得 J ( α , η ) c < c ,即下列不等式组成立

{ w 1 ( c 2 + c 3 ) + η ¯ w 1 c 4 < ( 1 σ ) c 1 , λ γ η ¯ c 4 < ( 1 λ ) c 2 α ¯ ( γ c 1 + w 2 c 2 + w 2 c 3 + η ¯ w 2 c 4 ) , v λ η ¯ c 4 < α ¯ ( n μ c 3 w 3 c 2 η ¯ w 3 c 4 ) Δ α ( v c 1 + w 3 c 2 + w 3 c 3 + w 3 η ¯ c 4 ) , η ¯ λ c 4 < c 4 τ c 2 a ¯ ( c 1 + w 4 c 2 + w 4 c 3 + η ¯ w 4 c 4 ) . (26)

为了确保该不等式的左项严格大于0,我们需要下列不等式组成立

{ 0 < ( 1 λ ) c 2 α ¯ ( γ c 1 + w 2 c 2 + w 2 c 3 + η ¯ w 2 c 4 ) , 0 < α ¯ ( n μ c 3 w 3 c 2 η ¯ w 3 c 4 ) Δ α ( v c 1 + w 3 c 2 + w 3 c 3 + w 3 η ¯ c 4 ) , 0 < c 4 τ c 2 a ¯ ( c 1 + w 4 c 2 + w 4 c 3 + η ¯ w 4 c 4 ) . (27)

通过计算可知要使不等式(26)第一项成立,最大步长 α ¯ 需要满足:

α ¯ < c 2 λ ( η ¯ c 4 + c 2 ) γ c 1 + w 2 c 2 + w 2 c 3 + w 2 η ¯ c 4 (28)

根据式子(27)的第二项,参数 c 2 α ¯ 必须满足下列条件:

0 < c 3 < n μ c 3 η ¯ w 3 c 4 w 3 , 0 < Δ α < α ¯ ( n μ c 3 w 3 c 2 η ¯ w 3 c 4 ) v c 1 + w 3 c 2 + w 3 c 3 + w 3 η ¯ c 4 (29)

根据式子(27)的第三项,可得

c 4 > τ c 2 , a ¯ < c 4 τ c 2 c 1 + w 4 c 2 + w 4 c 3 + η ¯ w 4 c 4 (30)

为了确保式子(26)成立,必须有

w 1 ( c 2 + c 3 ) + η ¯ w 1 c 4 1 σ < c 1 (31)

首先选择合适的参数 c 2 之后,根据式子(29)选择 c 3 ,根据式子(30)选择 c 4 ,最后选择满足(31)的 c 1

则可以找出符合要求的正向量c。由于步长的选择需要满足原始条件 α ¯ < 2 n l ,结合(28)和(30)将式子进行整理得到步长的最终取值范围:

0 α ¯ < min { c 2 λ ( η ¯ c 4 + c 2 ) γ c 1 + w 2 c 2 + w 2 c 3 + w 2 η ¯ c 4 , c 4 τ c 2 c 1 + w 4 c 2 + w 4 c 3 + η ¯ w 4 c 4 , 1 n l } (32)

根据(26)可以求得最大动量参数 η ¯ 的取值范围如下

0 η ¯ < min { ( 1 λ ) c 2 α ¯ ( γ c 1 + w 2 c 2 + w 2 c 3 ) λ c 4 + α ¯ w 2 c 4 , c 4 τ c 2 a ¯ ( c 1 + w 4 c 2 + w 4 c 3 ) λ c 4 + a ¯ w 4 c 4 , α ¯ ( n μ c 3 w 3 c 2 ) Δ α ( v c 1 + w 3 c 2 + w 3 c 3 ) n μ c 3 + α ¯ w 3 c 4 + w 3 Δ α c 4 } . (33)

当步长和参数选取满足约束时,我们有 ρ ( J ( α , η ) ) < 1

引理3.9 [15] 假设所选步长满足(32),则对于所有 k 0 ,下列不等式均成立:

J ( α , η ) k Γ 1 θ 1 k 0 < θ 1 < 1 , 0 < Γ 1 < , H r Γ 2 θ 2 k 0 < θ 1 < 1 , 0 < Γ 1 < , J ( α , η ) k r 1 H r Γ θ k 0 r k 1 ,

其中 θ = max { θ 1 , θ 2 } Γ = Γ 1 Γ 2 / θ

定理3.2 假定假设1~2成立,当步长和动量项满足定理3.1时,由所提出的算法生成的序列 { x k } 线性收敛于全局最优解 s * ,即存在常数 p > 0 使得:

x k s * 2 p ( θ + ξ ) k

其中 θ = max { θ 1 , θ 2 } 取自引理3.9, ξ 是满足 0 < ξ + θ < 1 的足够小的正常数.

证明 利用数学归纳法对 t k + 1 J ( α , η ) t k + H k s k 进行不断递归,整理后可得到

t k + 1 J ( α , η ) t 0 + r = 0 k 1 J ( α , η ) k r 1 H r s r (34)

对(34)两边同时取范数并利用引理3.9我们有

t k J ( α , η ) t 0 + r = 0 k 1 J ( α , η ) k r 1 H r s r Γ ω k ( t 0 + j = 0 k 1 s r ) (35)

进一步,利用三角不等式和假设3对 s r 进行定界

s k F ( V x k ) F ( s * ) + F ( s * ) l x k V x k 1 + l V x k s * + F ( s * ) 2 l t k + F ( s * ) (36)

将(36)代入(35)可得下式成立:

t k ( t 0 + 2 l r = 0 k 1 t r + k F ( s * ) ) Γ θ k (37)

k 0 ,定义 a k r = 0 k 1 t r b k = 0 c k = l Γ θ k d k θ k ( Γ 2 t 0 + k Γ F ( s * ) ) 那么(37)可重写为:

t k = a k + 1 a k c k a k + 1 + d k , k > 0

根据引理3.9我们可知 a k 收敛且有界,则对于任意 0 < ω < ξ < 1 ,可得

lim k t k ( θ + ξ ) k c k a k + 1 + d k ( θ + ξ ) k = 0

因此存在 p > 0 使得下式成立

t k p ( θ + ξ ) k , k 0

由此,我们可得到以下结果

x k s * x k V x k + V x k s * 2 p ( θ + ξ ) k

即得到定理3.2的结果,证明结束。

4. 数值实验

我们考虑有向图上的分布式逻辑回归问题:

s ˜ * = arg min x ¯ R p δ 2 s ˜ 2 + i = 1 n j = 1 m i ln [ 1 + exp ( y i j c i j T s ˜ ) ]

其中 ( c i j , y i j ) R p × { 1 , + 1 } c i j 为节点i的第j个数据样本特征向量,其相应的标签用 y i j 表示,n个节点共同处理 N = i = 1 n m i 个样本,其中 m i 对应节点i所需要处理的样本数。若任意节点所需要处理的样本数相同,则上述问题便转化为分布式无约束优化问题:

f i ( s ˜ ) = δ 2 n s ˜ 2 + j = 1 m i ln [ 1 + exp ( y i j c i j T s ˜ ) ]

其中正则项 δ 2n s ˜ 2 是用以规避数据过拟合。

实验中的初始强连通有向网络由十个节点随机生成,应用规则 R = I 1 2 d max i n L R 生成行随机矩阵,其中 d max i n 为最大入度, L R 是有关于矩阵R的拉普拉斯矩阵。类似地, C = I 1 2 d max o u t L C 用以列随机矩阵的生成。此外,对于所有的分布式算法,我们使用 { r ( x ) } k 0 来刻画残差序列,其中 r ( k ) = x ¯ k x ¯ * x ¯ 0 x ¯ *

根据定理3.1和3.2可看出ARNH的收敛速率与步长和参数有关,对于动量参数对收敛速率的影响,我们设定步长 α = 0.004 ,参数 b = 130 ,动量参数的选取为 η [ 0 , 0.5 ] ,算法在不同动量参数下第300次迭代时的残差变化曲线见图1,从中可以看出最优动量参数为0.3。

Figure 1. Performance of ARNH algorithm with different momentum parameters η

图1. 不同参数 η 下ARNH算法性能

实验2测试参数b对算法性能的影响,选取异构步长 α = 0.004 ,动量参数 η = 0.3 ,将带有不同参数b的算法进行性能比较,从实验结果图2可以观察到ARSD在 b = 130 时达到最佳收敛。

Figure 2. Performance of ARNH algorithm with different parameters b

图2. 不同参数b下ARNH算法性能

实验3设定所提出算法的非协作步长 α i [ 0.0035 , 0.0045 ] ,动量参数 η i [ 0.3 , 0.35 ] ,参数 b = 130 ,并ARNH与前沿算法进行比较,所有相关算法的参数已调至最优可获得最佳性能表现,由图3可以看出ARNH相较与现有的分布式一阶算法有较快的收敛速度。

Figure 3. Performance comparison of different algorithms

图3. 不同算法的性能比较

5. 总结

本文提出了一种基于行随机优化的分布式同步动量加速算法,称为ARNH。该算法利用Push-Sum技术消除网络不平衡性,并运用双加速机制提高算法收敛速率。若目标函数强凸且具有Lipschitz连续梯度,本文证明当所选步长和动量参数满足取值范围,ARNH能更快地线性收敛到全局最优解。最后,数值实验验证了理论分析的正确性以及算法的高效性。

参考文献

[1] Meng, M. and Li, X. (2020) Distributed Nonlinear Estimation Over Unbalanced Directed Networks. IEEE Transactions on Signal Processing, 68, 6212-6223.
https://doi.org/10.1109/TSP.2020.3033389
[2] Forero, P.A., Cano, A. and Giannakis, G.B. (2010) Consensus-Based Distributed Support Vector Machines. Journal of Machine Learning Research, 11, 1663-1707.
https://doi.org/10.1145/1791212.1791218
[3] Raja, H. and Bajwa, W.U. (2016) Cloud K-SVD: A Collaborative Dictionary Learning Algorithm for Big, Distributed Data. IEEE Transactions on Signal Processing, 64, 173-188.
https://doi.org/10.1109/TSP.2015.2472372
[4] Lorenzo, P.D. and Sayed, A.H. (2016) Sparse Distrib-uted Learning Based on Diffusion Adaptation. IEEE Transactions on Signal Processing, 61, 1419-1433.
https://doi.org/10.1109/TSP.2012.2232663
[5] Wu, D., Yang, T., Stoorvogel, A.A. and Stoustrup, J. (2017) Dis-tributed Optimal Coordination for Distributed Energy Resources in Power Systems. IEEE Transactions on Automation Science and Engineering, 14, 414-424.
https://doi.org/10.1109/TASE.2016.2627006
[6] Safavi, S., Khan, U.A., Kar, S. and Moura, J.M.F. (2018) Dis-tributed Localization: A Linear Theory. Proceedings of the IEEE, 106, 1204-1223.
https://doi.org/10.1109/JPROC.2018.2823638
[7] Mateos, G., Bazerque, J.A. and Giannakis, G.B. (2010) Dis-tributed Sparse Linear Regression. IEEE Transactions on Signal Processing, 58, 5262-5276.
https://doi.org/10.1109/TSP.2010.2055862
[8] Nedić, A. and Ozdaglar, A. (2009) Distributed Subgradient Methods for Multi-Agent Optimization. IEEE Transactions on Automatic Control, 54, 48-61.
https://doi.org/10.1109/TAC.2008.2009515
[9] Shi, W., Ling, Q., Wu, G. and Yin, W. (2015) EXTRA: An Exact First-Order Algorithm for Decentralized Consensus Optimization. SIAM Journal on Optimization, 25, 944-966.
https://doi.org/10.1137/14096668X
[10] Qu, G. and Li, N. (2017) Harnessing Smoothness to Accelerate Distrib-uted Optimization. IEEE Transactions on Control of Network Systems, 5, 1245-1260.
https://doi.org/10.1109/TCNS.2017.2698261
[11] Jakovetić, D. (2019) A Unification and Generalization of Exact Distributed First-Order Methods. IEEE Transactions on Signal and Information Processing over Networks, 5, 31-46.
https://doi.org/10.1109/TSIPN.2018.2846183
[12] Xi, C., Wu, Q. and Khan, U.A. (2017) On the Distributed Op-timization over Directed Networks. Neurocomputing, 267, 508-515.
https://doi.org/10.1016/j.neucom.2017.06.038
[13] Kempe, D., Dobra, A. and Gehrke, J. (2003) Gossip-Based Computation of Aggregate Information. 44th Annual IEEE Symposium on Foundations of Computer Science, Cambridge, 11-14 October 2003, 482-491.
https://doi.org/10.1109/SFCS.2003.1238221
[14] Xi, C. and Khan, U.A. (2017) DEXTRA: A Fast Algorithm for Optimization over Directed Graphs. IEEE Transactions on Signal Processing, 62, 4980-4993.
https://doi.org/10.1109/TAC.2017.2672698
[15] Nedić, A., Olshevsky, A. and Shi, A. (2017) Achieving Geomet-ric Convergence for Distributed Optimization over Time-Varying Graphs. SIAM Journal on Optimization, 27, 2597-2633.
https://doi.org/10.1137/16M1084316
[16] Pu, S., Shi, W., Xu, J. and Nedić, A. (2018) Push-Pull Gradient Meth-ods for Distributed Optimization in Networks. IEEE Transactions on Automatic Control, 66, 1-16.
https://doi.org/10.1109/TAC.2020.2972824
[17] Xin, R. and Khan, U.A. (2018) A Linear Algorithm for Optimiza-tion over Directed Graphs with Geometric Convergence. IEEE Control Systems Letters, 2, 315-320.
https://doi.org/10.1109/LCSYS.2018.2834316
[18] Xi, C., Mai, V.S. and Abed, E.H. (2018) Linear Convergence in Optimization over Directed Graphs with Row-Stochastic Matrices. IEEE Transactions on Automatic Control, 63, 3558-3565.
https://doi.org/10.1109/TAC.2018.2797164
[19] Mai, V.S. and Abed, E.H. (2016) Distributed Opti-mization over Weighted Directed Graphs Using Row Stochastic Matrix. 2016 American Control Conference (ACC), Boston, 6-8 July 2016, 7165-7170.
[20] Xin, R., Xi, C. and Khan, U.A. (2019) FROST—Fast Row-Stochastic Opti-mization with Uncoordinated Step-Sizes. EURASIP Journal on Advances in Signal Processing, 2019, Article No. 1.
https://doi.org/10.1186/s13634-018-0596-y
[21] Xin, R., Jakovetić, D. and Khan, U.A. (2019) Distributed Nesterov Gradient Methods over Arbitrary Graphs. IEEE Signal Processing Letters, 26, 1247-1251.
https://doi.org/10.1109/LSP.2019.2925537
[22] Lu, Q., Liao, X., Li, H. and Huang, T. (2021) A Nesterov-Like Gradient Tracking Algorithm for Distributed Optimization over Directed Networks. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 51, 6258-6270.
https://doi.org/10.1109/TSMC.2019.2960770
[23] Li, H., Wang, J. and Wang, Z. (2019) Row-Stochastic Matrices Based Distributed Optimization Algorithm with Uncoordinated Step-Sizes. 2019 6th International Conference on Infor-mation, Cybernetics, and Computational Social Systems (ICCSS), Chongqing, 27-30 September 2019, 124-131.
https://doi.org/10.1109/ICCSS48103.2019.9115478
[24] Ghaderyan, D., Aybat, N.S., Aguiar, A.P. and Pereira, F.M.L. (2021) A Fast Row-Stochastic Decentralized Optimization Method over Directed Graphs.
[25] Polyak, B. (1964) Some Methods of Speeding up the Convergence of Iteration Methods. USSR Computational Mathematics and Mathe-matical Physics, 4, 1-17.
https://doi.org/10.1016/0041-5553(64)90137-5
[26] Nesterov, Y. (2013) Introductory Lectures on Convex Optimization: A Basic Course. Springer Science & Business Media, Berlin, 87.