1. 引言
传统的集中式学习通常将数据集中存储在中心服务器上,并在该服务器上完成模型训练。然而,这种训练方式往往伴随着严重的数据隐私风险。与之相比,联邦学习[1] [2]在多个设备或节点上对分布式数据集进行模型训练,即实现跨地域分布异构设备的协同模型训练,且在全局模型训练过程中,无需将本地数据传输至中心服务器。因此,联邦学习能够在保护数据隐私[3]的前提下,利用分布式数据进行高效的模型训练,现已成为大规模机器学习领域的重要研究方向。联邦学习通常解决的是以下优化问题:
(1)
其中
是第
个客户端在本地数据集
上的损失函数。
在联邦学习系统中,由于本地数据集的规模越来越大且服务器和边缘设备之间的带宽有限,联邦学习面临着通信成本的问题,所以实现通信效率、隐私保护和模型性能三者之间的最优平衡是联邦学习的一个关键目标。
为了解决联邦通信成本问题,通常有两种解决方法:第一种是在本地进行多次更新,例如联邦平均算法(FedAvg) [4],随机控制平均算法(SCAFFOLD) [5];第二种是对本地通信信息进行压缩,例如分布式压缩梯度算法(DCGD) [6],带压缩的联邦平均算法(FedCOM) [7],基于方差缩减和梯度追踪的FedCOM算法[8]。
由于自适应的方法广泛应用于联邦学习当中,例如,FEDADAM算法[9]和FedExp算法[10]。本文受外推自适应步长的启发将其推广到了压缩联邦学习当中,并提出了外推压缩联邦学习算法(ExpFedCom)。
(外推法步长)
2. ExpFedCom算法
首先给出无偏压缩算子的定义:
定义1 如果一个随机映射
是
压缩算子,若对任意
,满足:
若模型未压缩,即
,则
。
考虑基于压缩的外推自适应步长:
其中K是本地更新次数。提出的这一新步长通过比较客户端本地更新与全局平均更新的差异,来度量模型更新的“有效性”。如果客户端的更新方向高度一致,平均更新的范数会接近于单个更新的均值,比值较小,说明更新是有效的;反之,如果本地更新存在明显分歧,则平均更新的合力较弱,比值增大,提示更新效果不足。此外这一新步长不依赖于特定参数(例如李普希茨常数或压缩系数),还有效节省了调节最优步长的时间。我们将提出的外推自适应步长与压缩联邦平均框架相结合,提出外推压缩联邦平均算法(ExpFedCom),见算法1。
算法1:外推压缩联邦平均算法(ExpFedCom) |
输入:服务器初始化全局模型
和本地步长
|
1:for
do |
2: 客户端
并行如下步骤 |
3: 初始化本地模型
|
4: for
do |
5: 计算梯度信息
|
6: 更新本地模型
|
7: end for |
8: 将压缩信息
传输给服务器 |
9: 服务器聚合
|
10: 计算外推步长
|
11: 服务器更新全局模型
|
12:end for |
在算法中,我们在提出的新步长中引入了
,这可以抑制过大的步长的扩张,使得算法在面对高度
异质的数据和压缩时更稳定,同时仍能保留自适应调节的特性。在步长分母中引入
是为了防止分母为0的情况。将步长与1比较取最大,是为了避免步长过小,而导致收敛过慢或更新停滞,这也使得步长有下界。注意到,当
取常数步长时,ExpFedCom算法可以退化为FedCOM算法[7]。
3. 收敛性分析
假设x*是问题(1)的全局最优解且满足
以及对任意
,
。文章出现的E记为对所有随机变量取期望。本节通过一些引理,在凸以及强凸情况下对ExpFedCom算法做出了收敛性分析。
3.1. 凸情况分析
引理1 假设对任意
,
是L-光滑的,则对任意
和
有
证明:对任意
,有
其中第一个不等于利用了
是L-光滑的,第二个不等式利用了
。令
则有
其中第三个不等于利用了均值不等式,证毕。
引理2 假设对任意
,
是L-光滑的,则对任意
和
有
证明:对任意
,有
对
取微分,有
所以
结合
的定义,有
其中第四个等式和最后一个不等式利用了定义1。结合引理1,则有
其中最后一个不等式利用了
。又因为
,且下述不等式成立
所以有
证毕。
引理3 假设对任意
,
是L-光滑的,则对任意
有
证明:对任意
,根据均值不等式有
结合
是L-光滑的,有
证毕。
引理4 假设对任意
,
是L-光滑的,则对任意
和
有
证明:对任意
,根据均值不等式有
其中第一个不等式利用了均值不等式,第二个不等式利用了下述等式关系:
结合引理3有
其中最后一个不等式利用了
。因此
证毕。
定理1 假设对任意
,
是光滑的且凸的,则对任意
和
有
其中设
,
是从
中以
概率选取。
证明:对任意
,有
结合引理2,有
其中第二个不等式利用了定义1,最后一个不等式利用了均值不等式。因此
其中第二个不等式利用了
是L-光滑的,第三个不等式利用了
是凸的。结合引理3有
结合引理4有
取
,则有
其中最后一个不等式利用了
。因此有
对任意
,设
且,
是从
中以
概率选取,则有
证毕。
3.2. 强凸情况分析
定理2 假设对任意
,
是L-光滑的且
-强凸的,则对任意
和
有
证明:根据定理1证明,当
,有
其中第二个不等式利用了
的强凸性,最后一个不等式利用了
,证毕。
3.3. 非凸情况分析
假设1 假设梯度方差有界,即对任意
,存在
使得下式成立
引理5 假设对任意
,
是L-光滑的,假设梯度方差有界,则对任意
和
有
证明:利用均值不等式,有
其中第二个不等式利用了
是L-光滑的,最后一个不等式利用了均值不等式。再根据下述等式关系:
则有
其中最后两个不等式利用了均值不等式。结合假设1梯度方差有界,则有
其中第二个不等式利用了
是L-光滑的。注意到
取
,则有
因此有
证毕。
定理3 假设对任意
,
是L-光滑的,假设梯度方差有界,则对任意
和
,有
其中设
,
是从
中以
概率选取。
证明:根据
是L-光滑的,有
其中最后一个不等式利用了引理2。结合定义1,有
利用均值不等式,有

其中最后一个不等式利用了假设1梯度方差有界。结合引理5,则有
利用
,则有
取
,则有
因此有
对任意
,设
且,
是从
中以
概率选取,则有
证毕。
综合上述三小节收敛性分析,我们可以得到以下三个结论:
(1) 在凸条件下,如果
,那么ExpFedCom可以在
通信轮数内找到一个点
,使得
。
(2) 在强凸条件下,如果
,那么ExpFedCom可以在
通信轮数内找到一个点
,使得
。
(3) 在非凸条件下,如果
以及
,那么ExpFedCom可以在
通信轮数内找到一个点
,使得
。
综合上述三小节收敛性分析,我们可以得到以下三个结论(表1):
Table 1. Communication complexity comparison of algorithms
表1. 算法通信复杂度比较
算法 |
凸 |
强凸 |
非凸 |
FedAvg |
|
|
|
FedCOM |
|
|
|
Ours (ExpFedCom) |
|
|
|
4. 数值实验
我们分别在MNIST数据集上对MLP模型[7]和在EMNIST数据集上对CNN模型进行了训练。对于每个实验,我们都分别进行100回合的通信。对于MNIST数据集,每回合我们从200个客户端中随机均匀抽取100个客户端进行通信。对于EMNIST数据集,每回合我们从200个客户端中随机均匀抽取20个客户端进行通信。压缩方式与文献[7]方法一致,采取无偏量化的方式。本地损失函数采用交叉熵损失函数。每个算法选择理论上得到的最佳步长,最终实验结果如下(图1~4):
Figure 1. The communication rounds versus loss and accuracy on the MNIST dataset
图1. MNIST数据集下的通信轮数与损失和精度实验图
Figure 2. The communication bits versus loss and accuracy on the MNIST dataset
图2. MNIST数据集下的通信比特数与损失和精度实验图
Figure 3. The communication rounds versus loss and accuracy on the EMNIST dataset
图3. EMNIST数据集下的通信轮数与损失和精度实验图
Figure 4. The communication bits versus loss and accuracy on the EMNIST dataset
图4. EMNIST数据集下的通信比特数与损失和精度实验图
5. 讨论
在本工作中,我们在联邦学习优化的标准假设下对所提出的算法进行了理论分析。值得注意的是,真实数据往往呈现高度非独立同分布(Non-IID)的特性,客户端之间存在显著的异质性。此外,深度神经网络本质上是非凸的,这使得我们的收敛性结论在应用到实际任务时存在一定局限。尽管存在这些差异,我们的实验结果表明,所提出的算法在现实条件下依旧取得了较好的性能,同时显著节省了通信成本,并优于一些主流基线方法。
尽管如此,我们承认,在实践中,数据异质性、客户端部分参与以及模型的非凸性等因素可能导致收敛速度变慢或出现残余误差邻域。我们认为,尽管我们的理论发现源于理想化的设定,它们仍然为算法设计提供了宝贵的见解和指导。未来的工作值得去开发一个更通用的分析框架,以更好地兼顾理论严谨性与实际适用性,从而为联邦学习的探索和发展提供更强的保证。
6. 总结
基于外推的自适应步长应用于压缩联邦学习当中表现出了良好的性质,并且通过数值实验可以看到ExpFedCom较不带压缩或者不带自适应步长的方法展现出了较好的优势。ExpFedCom既支持通信压缩又实现了在凸、强凸以及非凸条件下的快速收敛,这大大提高了通信效率,节省了通信成本,具有广泛的应用价值。