基于Wasserstein距离作为GAN的优化目标提高其训练稳定性的理论研究

doi:10.12677/aam.2025.145286

期刊菜单

基于Wasserstein距离作为GAN的优化目标提高其训练稳定性的理论研究
A Theoretical Study of Improving the Training Stability of GAN Based on Wasserstein Distance as Optimization Objective

DOI: 10.12677/aam.2025.145286, PDF, HTML, XML,
作者: 张惠玲：上海理工大学理学院，上海
关键词: GANs训练稳定性；Wasserstein距离；1-Lipschitz连续；权重裁剪；梯度惩罚；GANs Training Stability； Wasserstein Distance； 1-Lipschitz Continuity； Weight Clipping； Gradient Punishment

摘要: 生成对抗网络(Generative adversarial Nets，以下简称GANs)因其在图像生成等领域的成功应用而备受关注。然而，其训练的不稳定性一直是一个难以解决的问题，训练过程常常受到模式崩溃、梯度消失和优化不稳定的困扰。一般提高GANs训练稳定性的方法有替代损失函数、梯度惩罚、谱归一化、批量归一化和架构改进等方法。但是这些研究大多缺乏理论基础，未给出相对完善的理论证明，本论文的目标是深入理解基于Wasserstein距离训练GANs的不稳定性，提供较为完整的理论证明。并探讨了进一步改进WGAN训练稳定性的策略，如梯度惩罚(WGAN-GP)，以提高WGAN训练的稳定性和泛化能力。本文的主要研究内容如下：第一部分：分析了WGAN通过最小化Wasserstein距离(简称W距离)代替传统的Jensen-divergence (简称JS散度)，避免了梯度消失问题。其关键优势在于采用了1-Lipschitz连续的判别器，确保了在训练过程中生成器能够从判别器获得有效梯度。其次，证明了W距离相较于其他距离或者散度对于概率分布序列具有良好的连续性和收敛性。第二部分：通过引入W距离替代原来两个分布之间的JS散度，从理论上改善了GANs训练的稳定性。然而，WGAN的实现仍面临挑战，如权重裁剪导致的容量利用不足和梯度消失问题。为此，基于W距离，Gulrajani等人提出了梯度惩罚(WGAN-GP)来满足Lipschitz约束，以进一步提高训练稳定性。但是大多文献直接给出梯度惩罚常数为1，并未给出具体证明，在本文中给出了证明。

Abstract: Generative adversarial networks (GANs) have attracted much attention due to their successful applications in fields such as image generation. However, the instability of their training has always been a difficult problem to solve, and the training process is often plagued by mode collapse, gradient vanishing, and optimization instability. General methods to improve the stability of GANs training include alternative loss functions, gradient penalties, spectral normalization, batch normalization, and architectural improvements. However, most of these studies lack a theoretical basis and do not provide a relatively complete theoretical proof. The goal of this paper is to deeply understand the instability of GANs training based on Wasserstein distance and provide a relatively complete theoretical proof. It also explores strategies to further improve the stability of WGAN training, such as gradient penalty (WGAN-GP), to improve the stability and generalization ability of WGAN training. The main research contents of this paper are as follows: Part I: WGAN is analyzed to avoid the gradient vanishing problem by minimizing the Wasserstein distance (W distance for short) instead of the traditional Jensen-divergence (JS divergence for short). Its key advantage is the use of 1-Lipschitz continuous discriminator, which ensures that the generator can obtain effective gradients from the discriminator during training. Secondly, it is proved that W distance has good continuity and convergence for probability distribution sequences compared with other distances or divergences. Part II: By introducing W distance to replace the JS divergence between the original two distributions, the stability of GANs training is theoretically improved. However, the implementation of WGAN still faces challenges, such as insufficient capacity utilization and gradient vanishing problems caused by weight clipping. To this end, based on W distance, Gulrajani et al. proposed a gradient penalty (WGAN-GP) to meet the Lipschitz constraint to further improve training stability. However, most literature directly gives the gradient penalty constant as 1, without giving a specific proof, which is given in this article.

文章引用：张惠玲. 基于Wasserstein距离作为GAN的优化目标提高其训练稳定性的理论研究[J]. 应用数学进展, 2025, 14(5): 601-613. https://doi.org/10.12677/aam.2025.145286

1. 研究背景

生成对抗网络(GANs) [1]自2014年提出以来，在图像生成[2] [3]、数据增强、风格迁移、超分辨率重建等领域取得了显著成果。然而，尽管GANs在生成高质量数据方面表现优异，但其训练过程却极不稳定，面临诸多挑战，包括模式崩溃、梯度消失或爆炸、训练震荡以及难以收敛等问题[4]-[6]。这些问题严重影响了GANs在实际应用中的可靠性和推广性。

为了解决训练稳定性问题，研究者们提出了多种改进方法，如改进损失函数、引入正则化技术(梯度惩罚[7]、谱归一化SN-GAN [8])、调整网络结构(自注意力机制Self-Attention [9] GAN、StyleGAN [9])等。然而，GANs训练稳定性的理论分析和实践优化仍然是一个开放性问题，值得进一步深入研究。

2. 标准GANs的原理及结构

GANs是一类强大的生成模型，通过两个神经网络(生成器和鉴别器)之间的博弈过程进行训练，训练过程被建模为一个Min-Max问题，生成器(Generator)捕获数据分布、生成逼真的数据，以欺骗鉴别器，鉴别器(Discriminator)估计样本是来自真实分布还是生成分布的概率，通过彼此博弈，直到鉴别器输出概率稳定为0.5，最终达到纳什平衡。

生成器(G)的核心是先从一个简单的先验 $z ~ p (z)$ 中采样(例如均匀分布或者高斯分布)，然后映射到样本空间 $g_{θ} (z)$ ，有时最后会添加噪音。 $g_{θ}$ 是一个由 $θ$ 参数化的神经网络。

鉴别器(D)接收生成器生成的样本或者真实数据样本，并且区分两者，输出一个概率值。样本来自真实数据输出1，来自生成数据输出0。

GANs整体训练目标：

$\min_{G} \max_{D} V (D, G) = E_{x ~ ℙ_{r}} [\log D (x)] + E_{z ~ ℙ_{g}} [\log (1 - D (z))]$ (2.1)

经典的GANs训练过程可以分为两步，首先固定生成器，训练鉴别器：

使

$L (D, g_{θ}) = E_{x ~ ℙ_{r}} [\log D (x)] + E_{z ~ ℙ_{g}} [\log (1 - D (z))]$ (2.2)

达到最大。

关于D对 $L (D, g_{θ})$ 进行求导，在理论上[1]鉴别器可以收敛到最优状态为：

$D^{*} (x) = \frac{P_{r} (x)}{P_{r} (x) + P_{g} (x)}$ (2.3)

其次，当鉴别器达到最优时，生成器的优化目标则为：

$\begin{matrix} L (D^{*}, g_{θ}) = \int_{x ~ ℙ_{r}} P_{r} (x) \log D^{*} (x) d x + \int_{z ~ ℙ_{g}} P_{g} (x) \log (1 - D^{*} (g_{θ} (z))) d z \\ = \int_{x} [P_{r} (x) \log D^{*} (x) + P_{g} (x) \log (1 - D^{*} (x))] d x \\ = \int_{x} [(\log 2 - \log 2) P_{r} (x) + P_{r} (x) \log \frac{P_{r} (x)}{P_{r} (x) + P_{g} (x)} \\ + (\log 2 - \log 2) P_{g} (x) + P_{g} (x) \log \frac{P_{g} (x)}{P_{r} (x) + P_{g} (x)}] d x \\ = - \log 2 \int_{x} (P_{r} (x) + P_{g} (x)) d x + \int_{x} [P_{r} (x) (\log 2 + \log \frac{P_{r} (x)}{P_{r} (x) + P_{g} (x)}) \\ + P_{g} (x) (\log 2 + \log \frac{P_{g} (x)}{P_{r} (x) + P_{g} (x)})] d x \\ = - 2 \log 2 + \int_{x} [P_{r} (x) \log \frac{2 P_{r} (x)}{P_{r} (x) + P_{g} (x)} + P_{g} (x) \log \frac{2 P_{g} (x)}{P_{r} (x) + P_{g} (x)}] d x \\ = - 2 \log 2 + K L (ℙ_{r} (x) ∥ \frac{ℙ_{r} (x) + ℙ_{g} (x)}{2}) + K L (ℙ_{g} (x) ∥ \frac{ℙ_{r} (x) + ℙ_{g} (x)}{2}) \\ = - 2 \log 2 + 2 J S D (ℙ_{r} (x) ∥ ℙ_{g} (x)) \end{matrix}$ (2.4)

通过以上分析可得，当鉴别器达到最优时，整个GANs的目标(2.1)就变为了最小化真实分布和生成分布的JS散度。因此，理论上，期望首先将鉴别器训练得尽可能接近最优值，然后关于 $θ$ 进行梯度下降，交替进行这两步。然而，在实践中，随着鉴别器训练得越来越好，生成器更新会变得越来越糟。这个问题主要是由损失函数饱和引起的。

3. WGAN稳定性的理论证明

本章主要证明WGAN通过最小化Wassertein距离替代JS散度作为GANs训练的目标函数，避免了梯度消失的问题。WGAN的关键优势在于它采用了1-Lipschitz连续的判别器(critic)，这确保了在训练过程中，生成器始终能够从判别器那里获得有效的梯度。这一改进使得GANs的训练变得更加稳定，并且由于WGAN的目标函数使得生成器不会专注于某些模式，而是更均匀地逼近真实分布，因此显著减少模式崩溃问题。

3.1. 问题描述

为了解决JS散度在训练中带来的问题，Arjovsky等人[4] [5]引入了Wassertein-1距离作为衡量两个分布之间差异的指标。并采用Kantorovich-Rubinstein对偶性将其转化为一个可解的优化问题，其中对偶形式要求判别器(critic)是1-Lipschitz函数，这相当于在函数判别器上加了一个平滑约束，使其不会变化太快。

3.2. Wasserstein距离的理论优越性

对比多种概率分布之间的距离衡量指标，包括TV距离、KL散度、JS散度和W距离。W距离比其他距离或者散度具有更好的理论性质，提供有意义的梯度，可以正确衡量两个分布之间的距离。衡量分布之间的距离或者散度的不同指标最根本的区别在于它们对概率分布序列收敛的影响。

下面将具体说明W距离具有的优良性质：

首先通过一个示例说明概率分布序列如何在W距离下收敛，而在其他距离和散度下却不收敛。

Figure 1. Function graphs of W distance and JS divergence with respect to $θ$

图1. W距离和JS散度关于 $θ$ 的函数图像

例3.1 设 $ℤ ~ U [0, 1]$ 是单位区间上的均匀分布。 $ℙ_{0}$ 是二维空间 $(0, ℤ) \in ℝ^{2}$ 上的分布(x轴是0，y轴是随机变量 $ℤ$ )，在通过原点的垂直直线上均匀分布。令 $g_{θ} (z) = (θ, z)$ ，其中 $θ$ 是单个实参数。在这种情况下，有：

 $W (ℙ_{0}, ℙ_{θ}) = | θ |$ ；

 $J S (ℙ_{0}, ℙ_{θ}) = {\begin{cases} \log 2, θ \neq 0 \\ 0, θ = 0 \end{cases}$ ；

 $K L (ℙ_{0} ∥ ℙ_{θ}) = K L (ℙ_{θ} ∥ ℙ_{0}) = {\begin{cases} + \infty, θ \neq 0 \\ 0, θ = 0 \end{cases}$ ；

 $δ (ℙ_{0}, ℙ_{θ}) = {\begin{cases} 1, θ \neq 0 \\ 0, θ = 0 \end{cases}$ 。

当 $θ_{t} \to 0$ 时，分布序列 ${(ℙ_{θ_{t}})}_{t \in N}$ 在W距离下收敛，但在JS散度、KL散度、逆KL散度和TV距离下均不收敛。如图1所示。

由以上示例可以看出，可以通过对W距离进行梯度下降来学习低维流形上的概率分布。而对于其他距离和散度，这是无法实现的，因为由此产生的损失函数是不连续的。

那么接下来我们考虑在简单的假设下，W距离对于分布 $ℙ_{g}$ 和 $ℙ_{r}$ 是否也是 $θ$ 上的连续损失函数：

定理3.1 令 $ℙ_{r}$ 为 $χ$ 上的固定分布。令 $z$ 为另一个空间 $Z$ 上的随机变量(例如高斯变量)。令 $ℙ_{g}$ 表示 $g_{θ} (z)$ 的分布，其中 $g : (z, θ) \in Z \times ℝ^{d} \mapsto g_{θ} (z) \in X$ 。则，

1) 如果 $g$ 关于 $θ$ 连续，则 $W (ℙ_{r}, ℙ_{g})$ 也关于 $θ$ 连续。

2) 如果 $g$ 局部服从Lipschitz函数且满足上述假设1)的规律性，则 $W (ℙ_{r}, ℙ_{g})$ 在各处连续，且几乎在各处可微。

3) 对于Jensen-Shannon散度 $J S (ℙ_{r}, ℙ_{g})$ 和所有KL散度，陈述1)~2)都是错误的。

证明以下将逐条证明。

1) 令 $θ$ 和 $θ^{'}$ 为 $ℝ^{d}$ 中的两个参数向量。首先可以约束 $W (ℙ_{g_{θ}}, ℙ_{g_{θ^{'}}})$ ，由此再证明定理。证明的主要元素是耦合 $γ$ 的使用，即联合 $(g_{θ} (z), g_{θ^{'}} (z))$ 的分布，显然有 $γ \in \prod (ℙ_{g_{θ}}, ℙ_{g_{θ^{'}}})$ 。

根据W距离的定义，有

$\begin{matrix} W (ℙ_{g_{θ}}, ℙ_{g_{θ^{'}}}) \leq \int_{χ \times χ} ‖ x - y ‖ d γ \\ = E_{(x, y) ~ γ} [‖ x - y ‖] \\ = E_{z} [‖ g_{θ} (z) - g_{θ^{'}} (z) ‖] \end{matrix}$ (3.1)

如果 $g$ 关于 $θ$ 连续，则 $g_{θ} {(z)}_{θ \to θ^{'}} \to g_{θ^{'}} (z)$ ，故作为 $z$ 的函数逐点有 $‖ g_{θ} (z) - g_{θ^{'}} (z) ‖ \to 0$ 。由于 $χ$ 是紧集，那么其中任意两个元素的距离由固定常数M均匀地限制，因此对于所有的 $θ$ 和 $z$ ，有 $‖ g_{θ} (z) - g_{θ^{'}} (z) ‖ \leq M$ 。通过有界收敛定理，有

$W (ℙ_{g_{θ}}, ℙ_{g_{θ^{'}}}) \leq E_{z} [‖ g_{θ} (z) - g_{θ^{'}} (z) ‖] \to_{θ \to θ^{'}} 0$ . (3.2)

最后，可以得出：

$| W (ℙ_{r}, ℙ_{g_{θ}}) - W (ℙ_{r}, ℙ_{g_{θ^{'}}}) | \leq W (ℙ_{g_{θ}}, ℙ_{g_{θ^{'}}}) \to_{θ \to θ^{'}} 0$ (3.3)

即证明了 $W (ℙ_{r}, ℙ_{g_{θ}})$ 关于 $θ$ 的连续性。

2) 令 $g$ 服从局部Lipschitz，那么对于给定的 $(θ, z)$ 对，存在一个常数 $L (θ, z)$ 和一个开集U，使得 $(θ, z) \in U$ ，这样对于任意 $(θ^{'}, z^{'})$ ，都有

$‖ g_{θ} (z) - g_{θ^{'}} (z^{'}) ‖ \leq L (θ, z) (‖ θ - θ^{'} ‖ + ‖ z - z^{'} ‖)$ (3.4)

当 $(θ^{'}, z^{'}) \in U$ 时，对两边取期望并且令 $z = z^{'}$ ，可以得到

$E_{z} ‖ g_{θ} (z) - g_{θ^{'}} (z^{'}) ‖ \leq E_{z} [L (θ, z)] ‖ θ - θ^{'} ‖$ (3.5)

因此我们可以定义 $U_{θ} = {θ^{'} | (θ^{'}, z) \in U}$ 。由于U是开集，故 $U_{θ}$ 也是开集。因此，根据假设1)，可以定义 $L (θ) = E_{z} [L (θ, z)]$ ，并且可以得到：

$| W (ℙ_{r}, ℙ_{g_{θ}}) - W (ℙ_{r}, ℙ_{g_{θ^{'}}}) | \leq W (ℙ_{g_{θ}}, ℙ_{g_{θ^{'}}}) \leq E_{z} ‖ g_{θ} (z) - g_{θ^{'}} (z) ‖ \leq L (θ) ‖ θ - θ^{'} ‖$ (3.6)

故，对于任意 $θ^{'} \in U_{θ}$ ， $W (ℙ_{r}, ℙ_{g})$ 也服从局部Lipschitz。显然 $W (ℙ_{r}, ℙ_{g})$ 处处连续，并且根据Radamacher’s theorem它也几乎处处可微。

3) 对于JS散度和KL散度有：

$J S (ℙ_{0}, ℙ_{θ}) = {\begin{array}{l} \log 2 & θ \neq 0 \\ 0 & θ = 0 \end{array}$

$K L (ℙ_{0} ∥ ℙ_{θ}) = K L (ℙ_{θ} ∥ ℙ_{0}) = {\begin{array}{l} + \infty, & θ \neq 0 \\ 0, & θ = 0 \end{array}$

当 $θ \to 0$ 时，JS散度和KL散度均不连续。

证毕。由以上证明可知，W距离在分布 $ℙ_{g}$ 和 $ℙ_{r}$ 下仍是关于 $θ$ 的连续函数。因此，通过最小化W距离进行学习对于神经网络来说是有意义的。

推论1 假设 $g_{θ}$ 为任意由 $θ$ 参数化的前馈神经网络， $p (z)$ 为 $z$ 上的先验，满足 $E_{z ~ p (z)} [‖ z ‖] < \infty$ (例如高斯、均匀等)。则假设1)得到满足，因此 $W (ℙ_{r}, ℙ_{g})$ 处处连续，且几乎处处可微。

证明从光滑非线性情况着手，因为 $g$ 是关于 $(θ, z)$ 的一阶连续可微函数 $C^{1}$ ，那么对于任意固定的 $(θ, z)$ ，有 $L (θ, z) \leq ‖ \nabla_{θ, z} g_{θ} (z) ‖ + ε$ 是所有 $ε > 0$ 可接受的局部Lipschitz常数。因此，我们只需证明：

$E_{z ~ p (z)} [‖ \nabla_{θ, z} g_{θ} (z) ‖] < \infty$ (3.7)

若H是前馈神经网络的层数，有

$\nabla_{θ, z} g_{θ} (z) = \prod_{k = 1}^{H} W_{k} D_{k}$ (3.8)

其中， $W_{k}$ 是权重矩阵， $D_{k}$ 是非线性的对角雅可比矩阵。

令 $f_{i : j}$ 是从 $i$ 层到 $j$ 层的激活函数，因此有：

$\nabla_{W_{k}} g_{θ} (z) = ((\prod_{i = k + 1}^{H} W_{i} D_{i}) D_{k}) f_{1 : k - 1} (z)$ (3.9)

如果 $L$ 是非线性的Lipschitz常数，那么有 $‖ D_{i} ‖ \leq L$ 和 $‖ f_{1 : k - 1} (z) ‖ \leq ‖ z ‖ L^{k - 1} \prod_{i = 1}^{k - 1} W_{i}$ ，把它们整合到一起

$\begin{matrix} ‖ \nabla_{z, θ} g_{θ} (z) ‖ \leq ‖ \prod_{i = 1}^{H} W_{i} D_{i} ‖ + \sum_{k = 1}^{H} ‖ ((\prod_{i = k + 1}^{H} W_{i} D_{i}) D_{k}) f_{i : k - 1} (z) ‖ \\ \leq L^{H} \prod_{i = 1}^{H} ‖ W_{i} ‖ + \sum_{k = 1}^{H} ‖ z ‖ L^{H} (\prod_{i = 1}^{k - 1} ‖ W_{i} ‖) (\prod_{i = k + 1}^{H} ‖ W_{i} ‖) \end{matrix}$ (3.10)

令 $C_{1} (θ) = L^{H} \prod_{i = 1}^{H} ‖ W_{i} ‖$ 和 $C_{2} (θ) = \sum_{k = 1}^{H} L^{H} (\prod_{i = 1}^{k - 1} ‖ W_{i} ‖) (\prod_{i = k + 1}^{H} ‖ W_{i} ‖)$ ，

则有：

$E_{z ~ p (z)} [‖ \nabla_{z, θ} g_{θ} (z) ‖] = C_{1} (θ) + C_{2} (θ) E_{z ~ p (z)} [‖ z ‖] < \infty$ (3.11)

证毕。以上定理和推论都表明W距离是比JS散度更加合理的成本函数。接下来进一步证明W距离相较于TV距离、KL散度和JS散度具有最弱的拓扑结构强度。

定理3.2 设 $ℙ$ 为紧空间 $χ$ 上的分布， ${(ℙ_{n})}_{n \in N}$ 为 $χ$ 上的分布序列。然后，考虑当 $n \to \infty$ 时的所有极限，

1) 以下语句是等效的

$δ (ℙ_{n}, ℙ) \to 0$ ，其中 $δ$ 为总变差距离(TV距离)；

$J S (ℙ_{n}, ℙ) \to 0$ ，其中 $J S$ 为JS散度。

2) 以下语句是等效的

$W (ℙ_{n}, ℙ) \to 0;$

$(ℙ_{n} \overset{D}{\to} ℙ) \to 0$ ，其中 $\overset{D}{\to}$ 表示随机变量依分布收敛。

3) $K L (ℙ_{n} | | ℙ) \to 0$ 或者 $K L (ℙ | | ℙ_{n}) \to 0$ 意味着陈述1)。

4) 1)中的陈述蕴涵2)中的陈述。

证明以下将逐条证明。

1) 首先证明 $δ (ℙ_{n}, ℙ) \to 0$ $\Rightarrow$ $J S (ℙ_{n}, ℙ) \to 0$ 。

令 $ℙ_{m} = \frac{1}{2} ℙ_{n} + \frac{1}{2} ℙ$ ( $ℙ_{m}$ 取决于 $n$ )是混合分布，根据TV距离定义可以证明 $δ (ℙ_{m}, ℙ_{n}) \leq δ (ℙ_{n}, ℙ)$ ，且当 $δ (ℙ_{n}, ℙ) \to 0$ 时，有 $δ (ℙ_{m}, ℙ_{n}) \to 0$ 。

取 $f_{n} = \frac{d ℙ_{n}}{d ℙ_{m}}$ 为 $ℙ_{m}$ 和 $ℙ_{n}$ 之间的Radon-Nykodim导数，通过构造对于每一个Borel集A有 $ℙ_{n} (A) \leq 2 ℙ_{m} (A)$ ，若 $A = {f_{n} > 3}$ ，可以得到：

$ℙ_{n} (A) = \int_{A} f_{n} d ℙ_{m} \geq 3 ℙ_{m} (A)$ (3.12)

于是由 $3 ℙ_{m} (A) \leq ℙ_{n} (A) \leq 2 ℙ_{m} (A)$ ，可得： $ℙ_{m} (A) = 0$ 。

可以通过任意大于2的常数得到上述结果，在此我们取常数3。

取固定的 $ε > 0$ ，和 $A_{n} = {f_{n} > 1 + ε}$ ，于是有：

$ℙ_{n} (A_{n}) = \int_{A_{n}} f_{n} d ℙ_{m} \geq (1 + ε) ℙ_{m} (A_{n})$ (3.13)

又

$\begin{matrix} ε ℙ_{m} (A_{n}) \leq ℙ_{n} (A_{n}) - ℙ_{m} (A_{n}) \\ \leq | ℙ_{n} (A_{n}) - ℙ_{m} (A_{n}) | \\ \leq δ (ℙ_{m}, ℙ_{n}) \\ \leq δ (ℙ_{n}, ℙ) \end{matrix}$ (3.14)

故

$ℙ_{m} (A_{n}) \leq \frac{1}{ε} δ (ℙ_{n}, ℙ)$ (3.15)

此外，

$\begin{matrix} ℙ_{n} (A_{n}) \leq ℙ_{m} (A_{n}) + | ℙ_{n} (A_{n}) - ℙ_{m} (A_{n}) | \\ \leq \frac{1}{ε} δ (ℙ_{n}, ℙ) + δ (ℙ_{n}, ℙ_{m}) \\ \leq \frac{1}{ε} δ (ℙ_{n}, ℙ) + δ (ℙ_{n}, ℙ) \\ \leq (\frac{1}{ε} + 1) δ (ℙ_{n}, ℙ) \end{matrix}$ (3.16)

于是根据上述不等式可以得出：

$\begin{matrix} K L (ℙ_{n} ∥ ℙ_{m}) = \int \log (f_{n}) d ℙ_{n} \\ \leq \log (1 + ε) + \int_{A_{n}} \log (f_{n}) d ℙ_{n} \\ \leq \log (1 + ε) + \log 3 ℙ_{n} (A_{n}) \\ \leq \log (1 + ε) + \log 3 (\frac{1}{ε} + 1) δ (ℙ_{n}, ℙ) \end{matrix}$ (3.17)

对于任意的 $ε > 0$ ，对不等式两边取上极限，可得

$0 \leq \lim \sup K L (ℙ_{n} ∥ ℙ_{m}) \leq \log (1 + ε) + 0$ (3.18)

即 $K L (ℙ_{n} ∥ ℙ_{m}) \to 0$ 。

同理，我们可以定义 $g_{n} = \frac{d ℙ}{d ℙ_{m}}$ ，且令 $B = {g_{n} > 3}$ ，于是有 $3 ℙ_{m} (B) \leq ℙ (B) \leq 2 ℙ_{m} (B)$ ，从而有 $ℙ_{m} (B) = 0$ 。进一步令 $B_{n} = {g_{n} > 1 + ε}$ 有：

$ℙ (B_{n}) = \int_{B_{n}} g_{n} d ℙ_{m} \geq (1 + ε) ℙ_{m} (B_{n})$ (3.19)

于是有：

$ℙ_{m} (B_{n}) \leq \frac{1}{ε} δ (ℙ, ℙ_{m})$ (3.20)

又

$\begin{matrix} ℙ (B_{n}) \leq ℙ_{m} (B_{n}) + | ℙ (B_{n}) - ℙ_{m} (B_{n}) | \\ \leq \frac{1}{ε} δ (ℙ, ℙ_{m}) + δ (ℙ, ℙ_{m}) \\ \leq (\frac{1}{ε} + 1) δ (ℙ, ℙ_{m}) \end{matrix}$ (3.21)

故且当 $δ (ℙ, ℙ_{m}) \to 0$ 时， $ℙ (B_{n}) \to 0$ 。

根据上述可得：

$\begin{matrix} K L (ℙ ∥ ℙ_{m}) = \int \log (g_{n}) d ℙ \\ \leq \log (1 + ε) + \int_{B_{n}} \log (g_{n}) d ℙ \\ \leq \log (1 + ε) + \log 3 ℙ (B_{n}) \\ \leq \log (1 + ε) + \log 3 (\frac{1}{ε} + 1) δ (ℙ, ℙ_{m}) \end{matrix}$ (3.22)

对两边取上极限得 $0 \leq \lim \sup K L (ℙ ∥ ℙ_{m}) \leq \log (1 + ε)$ ，即 $K L (ℙ ∥ ℙ_{m}) \to 0$ 。

最后，

$J S (ℙ_{n}, ℙ) = \frac{1}{2} K L (ℙ_{n} ∥ ℙ_{m}) + \frac{1}{2} K L (ℙ ∥ ℙ_{m}) \to 0$ (3.23)

即证得 $δ (ℙ_{n}, ℙ) \to 0$ $\Rightarrow$ $J S (ℙ_{n}, ℙ) \to 0$ 。

接下来证明 $J S (ℙ_{n}, ℙ) \to 0$ $\Rightarrow$ $δ (ℙ_{n}, ℙ) \to 0$ 。

根据三角不等和Pinsker不等式有

$\begin{matrix} δ (ℙ_{n}, ℙ) \leq δ (ℙ_{n}, ℙ_{m}) + δ (ℙ, ℙ_{m}) \\ \leq \sqrt{\frac{1}{2} K L (ℙ_{n} ∥ ℙ_{m})} + \sqrt{\frac{1}{2} K L (ℙ ∥ ℙ_{m})} \\ \leq 2 \sqrt{J S (ℙ_{n}, ℙ)} \end{matrix}$ (3.24)

即当 $J S (ℙ_{n}, ℙ) \to 0$ 时，有 $δ (ℙ_{n}, ℙ) \to 0$ 。

2) 根据W距离的拓扑性知，如果 $W (ℙ_{n}, ℙ) \to 0$ ，则 $ℙ_{n}$ 在弱拓扑意义下收敛到 $ℙ$ 。

3) 根据Pinsker不等式可得：

$\begin{array}{l} δ (ℙ_{n}, ℙ) \leq \sqrt{\frac{1}{2} K L (ℙ_{n} ∥ ℙ)} \to 0 \\ δ (ℙ, ℙ_{n}) \leq \sqrt{\frac{1}{2} K L (ℙ ∥ ℙ_{n})} \to 0 \end{array}$ (3.25)

故 $K L (ℙ_{n} | | ℙ) \to 0$ 或者 $K L (ℙ | | ℙ_{n}) \to 0$ 可以推出陈述1)。

4) TV距离诱导是一种强拓扑，意味着当 $δ (ℙ_{n}, ℙ) \to 0$ 时，则 $ℙ_{n}$ 几乎处处收敛到 $ℙ$ 。而W距离诱导了一种比TV距离弱的拓扑结构，如果 $W (ℙ_{n}, ℙ) \to 0$ ，则 $ℙ_{n}$ 在弱拓扑意义下收敛到 $ℙ$ ，适用于支撑集不同的分布。即如果 $ℙ_{n} \to ℙ$ 在TV距离下收敛，则在W距离下也一定收敛。

由以上定理3.1、定理3.2和推论1表明分布 $ℙ_{r}$ 和 $ℙ_{g}$ 在W距离的定义下可以具有良好的连续性、可微性以及收敛性。故在学习低维流形支持的分布时，TV距离、KL散度和JS散度都不是合理的损失函数，然而W距离具有良好的性质，使用W距离更为合理。

3.3. Wassertein WGAN (WGAN)

在上一部分我们证明了W距离具有良好的理论性质，故选择W距离作为衡量分布 $ℙ_{g}$ 和 $ℙ_{r}$ 之间的差异的指标更为合理，但是直接计算W距离的代价太大，因此利用Kantorovich-Rubinstein对偶性，将Wasserstein距离的计算转化为一个可解的优化问题：

$W (ℙ_{r}, ℙ_{g}) = \sup_{{‖ f ‖}_{L} \leq 1} E_{x ~ ℙ_{r}} [f (x)] - E_{x ~ ℙ_{g}} [f (x)]$ (3.26)

其中， $‖ f ‖ \leq 1$ 表示函数 $f (x)$ 满足1-Lipschitz连续。式(3.26)这个形式是WGAN的关键，可以利用神经网络来拟合这个 $f$ ，即该对偶形式将最优化问题变成了寻找最佳Lipschitz函数 $f$ 的问题。

引入模型：

WGAN中生成器为 $G_{θ} (z)$ ，把噪声 $z ~ ℙ_{z}$ 映射到生成样本 $g_{θ} (z) ~ ℙ_{g}$ 。

基于对偶形式，将Wasserstein距离写为：

$W (ℙ_{r}, ℙ_{g}) = \sup_{‖ f ‖ \leq 1} E_{x ~ ℙ_{r}} [f_{ω} (x)] - E_{z ~ ℙ_{g}} [f_{ω} (g_{θ} (z))]$ (3.27)

其中， $f$ 是判别器网络 $f_{ω}$ 的输出，训练 $f_{ω}$ 以最大化式(3.33)，即估计Wasserstein距离。同时训练 $g_{θ} (z)$ 来最小化式(3.27)。于是，得到WGAN的最终min-max目标函数为：

$\min_{θ} \max_{ω \in W} E_{x ~ ℙ_{r}} [f_{ω} (x)] - E_{z ~ ℙ_{g}} [f_{ω} (g_{θ} (z))]$ (3.28)

其中， $θ$ 是生成器G的参数， $ω$ 是判别器的参数(神经网络的权重)， $W$ 是满足1-Lipschitz条件的判别器参数集合， $f_{ω} (x)$ 是判别器的输出。

Kantorovich-Rubinstein对偶要求 $f$ 是1-Lipschitz函数。为了保证这一点，可以训练一个参数化的神经网络，使其权重 $ω$ (神经网络参数)位于紧空间 $W$ 中。为了使参数 $ω$ 位于紧空间中，可以每次梯度更新后将权重限制在一个固定的阈值范围内。即采用权重裁剪的方式来近似这个约束： $ω \leftarrow clip (ω, - c, c)$ 。

本章小结

通过引入Wassertein距离，WGAN在理论上和实践中都显著改善了传统GANs训练稳定性和生成质量，这一改进为生成模型的研究和应用开辟了新的方向，具有重要的理论意义和实际价值。

W距离是连续且可微的(1-Lipschitz函数)，这意味着可以训练判别器直到达到最优。因为W距离处处可微，所以对判别器训练得越多，得到的Wassertein梯度就越可靠。

其次，训练判别器直到达到最优，没有发生模式崩溃问题是因为，WGAN的目标函数使得生成器不会集中在少数几个模式上，而是更全面地学习整个数据分布。而传统GANs，最优生成器是鉴别器赋予最高值的点的增量之和，主要专注于个别模式。

综上，通过引入Wassertein距离，WGAN有效缓解了GANs训练中出现的梯度消失问题和模式崩溃问题，使训练变得更加稳定，生成高质量样本。

4. WGAN-GP的梯度惩罚常数

4.1. 问题描述

在标准WGAN中为了对判别器实施Lipschitz约束，使其保证连续性，对判别器的权重矩阵进行了权重裁剪。但是权重裁剪会导致两大问题：弱化模型建模能力，以及梯度爆炸和消失。为了改进以上问题，Gulrajani等人[7]提出了在目标函数中加入梯度惩罚的替代方法，但是大部分关于加入惩罚项的GANs训练文献都专注于实验验证，缺乏理论解释，本章将对其进行数学推导。

4.2. WGAN-GP和Lipschitz约束

为了解决权重裁剪强约束带来的不良行为，现在提出一种实施Lipschitz约束的替代方法。当且仅当可微函数的梯度在任何地方都不超过1时，它才是1-Lipschtiz的，因此直接约束判别器相对于其输入的梯度范数，对随机样本的梯度范数施加惩罚。

具体而言，在原始目标函数中引入以下正则项：

$L_{G P} = λ Ε_{\hat{x} ~ ℙ_{\hat{g}}} [{({‖ \nabla_{\hat{x}} D (\hat{x}) ‖}_{2} - 1)}^{2}]$ (4.1)

其中， $x$ 是从真实样本 $x ~ ℙ_{r}$ 和生成样本 $\tilde{x} ~ ℙ_{g}$ 之间随机线性插值得到的样本点，即：

$\hat{x} = ε x + (1 - ε) \tilde{x}$ ， (4.2)

其中， $ε ~ U [0.1]$ ， $λ$ 是惩罚系数。

接下来，将会具体证明梯度惩罚系数为什么取1。

定理4.1 令 $ℙ_{r}$ 、 $ℙ_{g}$ 为紧空间 $χ$ 上的两个分布，则存在一个1-Lipschitz函数 $f^{*}$ 是 $\max_{{‖ f ‖}_{L \leq 1}} E_{y ~ ℙ_{r}} [f (x)] - E_{y ~ ℙ_{g}} [f (x)]$ 的最优解。 $π (x, y)$ 是 $ℙ_{r}$ 和 $ℙ_{g}$ 之间的最优耦合， $Π (ℙ_{r}, ℙ_{g})$ 是联合分布 $π (x, y)$ 的集合。那么，如果 $f^{*}$ 可微， $π (x = y) = 0$ ， $x_{t} = t x + (1 - t) y$ ， $0 \leq t \leq 1$ ，则有：

$ℙ_{(x, y) ~ π} [\nabla f^{*} (x_{t}) = \frac{y - x_{t}}{‖ y - x_{t} ‖}] = 1$ 。 (4.3)

证明因为 $χ$ 是紧空间，由[10]知 $\max_{{‖ f ‖}_{L \leq 1}} E_{y ~ P_{r}} [f (x)] - E_{x ~ P_{g}} [f (x)]$ 存在最优解 $f^{*}$ ，且 $π (x, y)$ 是最优耦合，有

$ℙ_{(x, y) ~ π} [f^{*} (y) - f^{*} (x) = ‖ y - x ‖] = 1$ (4.4)

令 $(x, y)$ 满足 $f^{*} (y) - f^{*} (x) = ‖ y - x ‖$ ，假设 $x \neq y$ ，这在分布 $π (x, y)$ 下发生的概率为1。令 $φ (t) = f^{*} (x_{t}) - f^{*} (x)$ ，首先需要证明：

$φ (t) = ‖ x_{t} - x ‖ = t ‖ y - x ‖$ . (4.5)

令 $t$ 、 $t^{'} \in [0, 1]$ ，于是有：

$| φ (t) - φ (t^{'}) | = | f^{*} (x_{t}) - f^{*} (x_{t^{'}}) | \leq ‖ x_{t} - x_{t^{'}} ‖ = | t - t^{'} | ‖ y - x ‖$ (4.6)

因此， $φ$ 满足 $‖ y - x ‖$ -Lipschitz，从而有：

$\begin{matrix} φ (1) - φ (0) = (φ (1) - φ (t)) + (φ (t) - φ (0)) \\ \leq (1 - t) ‖ y - x ‖ + t ‖ y - x ‖ \\ = ‖ y - x ‖ \end{matrix}$ (4.7)

但又因为

$φ (1) - φ (0) = f^{*} (y) - f^{*} (x) = ‖ y - x ‖$ , (4.8)

故不等式(4.7)变为等式。

特别地， $φ (t) - φ (0) = t ‖ y - x ‖$ ，又因为 $φ (0) = f^{*} (x) - f^{*} (x)$ ，

故

$φ (t) = t ‖ y - x ‖$ . (4.9)

引入变量v，令

$ν = \frac{y - x_{t}}{‖ y - x_{t} ‖} = \frac{y - ((1 - t) x + t y)}{‖ y - ((1 - t) x + t y) ‖} = \frac{y - x}{‖ y - x ‖}$ (4.10)

根据 $f^{*} (x_{t}) - f^{*} (x) = φ (t) = t ‖ y - x ‖$ ，可得

$f^{*} (x_{t}) = f^{*} (x) + t ‖ y - x ‖$ , (4.11)

接下来，我们对 $f^{*} (x_{t})$ 求偏导：

$\begin{matrix} \frac{\partial}{\partial ν} f^{*} (x_{t}) = \lim_{h \to 0} \frac{f^{*} (x_{t} + h ν) - f^{*} (x_{t})}{h} \\ = \lim_{h \to 0} \frac{f^{*} ((1 - t) x + t y + h \frac{y - x}{‖ y - x ‖}) - f^{*} (x_{t})}{h} \\ = \lim_{h \to 0} \frac{f^{*} (x + t (y - x) + h \frac{y - x}{‖ y - x ‖}) - f^{*} (x_{t})}{h} \\ = \lim_{h \to 0} \frac{f^{*} (x_{t + \frac{h}{‖ y - x ‖}}) - f^{*} (x_{t})}{h} \\ = \lim_{h \to 0} \frac{f^{*} (x) + (t + \frac{h}{‖ y - x ‖}) ‖ y - x ‖ - (f^{*} (x) + t ‖ y - x ‖)}{h} \\ = \lim_{h \to 0} \frac{h}{h} = 1 \end{matrix}$ (4.12)

如果 $f^{*}$ 在 $x_{t}$ 可微，由于 $f^{*}$ 是1-Lipschitz函数，所以 $‖ \nabla f^{*} (x_{t}) ‖ \leq 1$ 。

根据简单的Pythagoras和单位向量 $v$ ，有

$\begin{matrix} 1 \leq {‖ \nabla f^{*} (x) ‖}^{2} \\ = {〈 ν, f^{*} (x_{t}) 〉}^{2} + {‖ \nabla f^{*} (x_{t}) - 〈 ν, f^{*} (x_{t}) 〉 ν ‖}^{2} \\ = {| \frac{\partial}{\partial ν} f^{*} (x_{t}) |}^{2} + {‖ \nabla f^{*} (x_{t}) - ν \frac{\partial}{\partial ν} f^{*} (x_{t}) ‖}^{2} \\ = 1 + {‖ \nabla f^{*} (x_{t}) - ν ‖}^{2} \leq 1 \end{matrix}$ (4.13)

由以上不等式结果可得

$1 = 1 + {‖ \nabla f^{*} (x_{t}) - ν ‖}^{2}$ , (4.14)

于是有 ${‖ \nabla f^{*} (x_{t}) - ν ‖}^{2} = 0$ 和 $\nabla f^{*} (x_{t}) = ν$ 。进而有：

$\nabla f^{*} (x_{t}) = \frac{y - x_{t}}{‖ y - x_{t} ‖}$ (4.15)

故最终得出在联合分布 $π (x, y)$ 下 $ℙ_{(x, y) ~ π} [\nabla f^{*} (x_{t}) = \frac{y - x_{t}}{‖ y - x_{t} ‖}] = 1$ 。

由以上证明可得，最优判别器包含连接 $ℙ_{r}$ 和 $ℙ_{g}$ 耦合点的梯度范数为1的直线。故通过对这些插值样本计算判别器输出关于输入的梯度，如果梯度模长偏离1，就会产生惩罚。

Figure 2. Distribution diagram of discriminator weight under weight clipping and gradient penalty

图2. 权重裁剪和梯度惩罚下判别器权重分布图

图2展示了原始WGAN强制对判别器的权重进行裁剪，压制了其表达能力，使权重朝向两个极端值靠近。而梯度惩罚则呈现出标准高斯形状，分布更自然，使网络能更好训练。

本章小结

梯度惩罚是一种修改判别器目标函数的方法，通过在目标函数中加入梯度惩罚项来避免梯度消失或者梯度爆炸的问题。这种方法相对于权重裁剪更平滑、更具鲁棒性，能够有效提升训练的稳定性和生成图像的质量。同时，由于梯度惩罚不限制网络权重的具体取值，使得可以使用更深、更复杂的网络结构，从而增强模型的表达能力。

5. 研究总结

本论文围绕生成对抗网络(GAN)训练过程中的不稳定性问题，展开了系统的理论分析。首先，从传统GAN的目标函数出发，揭示了其在使用标准损失函数时所面临的梯度消失问题。

其次，针对这一问题，论文对基于Wasserstein距离作为GANs训练的目标函数，系统地证明了其连续性、可微性与收敛性，使得生成器在判别器达到最优时仍然能够获得有效梯度，显著提升训练的稳定性和收敛性。进而在分析WGAN训练策略的基础上，对于引入梯度惩罚以取代传统的权重裁剪，从数学上严格推导了其满足Lipschitz约束的理论依据。

参考文献

[1]	Goodfellow, I., Pouget-Abadie, J., Mirza, M., et al. (2014) Generative Adversarial Nets. Advance in Neural Information Processing Systems, 27, 2672-2680.
[2]	Karras, T., Aila, T., Laine, S. and Lehtinen, J. (2017) Progressive Growing of GANs for Improved Quality, Stability, and Variation. Proceeding of the Advance in Neural Information Processing Systems, Long Beach, 4-9 December 2017, 1-26.
[3]	Brock, A., Donahue, J. and Simonyan, K. (2018) Large Scale GAN Training for High Fidelity Natural Image Synthesis. Proceeding of the Advance in Neural Information Processing Systems, Montréal, 3-8 December 2018, 1-35.
[4]	Arjovsky, M. and Bottou, L. (2017) Towards Principled Methods for Training Generative Adversarial Networks. International Conference on Learning Representations, Toulon, 24-26 April 2017, 1-10.
[5]	Arjovsky, M., Chintala, S. and Bottou, L. (2017) Wassertein Generative Adversarial Networks. International Conference on Machine Learning, Sydney, 6-11 August 2017, 214-223.
[6]	Mescheder, L., Geiger, A. and Nowozin, S. (2017) Which Training Methods for GANs Do Actually Converge. Proceeding of the Advance in Neural Information Processing Systems, Long Beach, 4-9 December 2017, 3481-3490.
[7]	Gulrajani, I., Ahmed, F., Arjovsky, M., et al. (2017) Improved Training of Wasserstein GANs. Advance in Neural Information Processing Systems, 30, 1-11.
[8]	Miyato, T., Kataoka, T., Koyama, M. and Yoshida, Y. (2018) Spectral Normalization for Generative Adversarial Networks. Proceeding of the Advance in Neural Information Processing Systems, Montréal, 3-8 December 2018, 1-26.
[9]	Zhang, H., Goodfellow, I., Metaxas, D. and Odena, A. (2019) Self-Attention Generative Adversarial Networks. Proceedings of the 36th International Conference on Machine Learning, California, 9-15 June 2019, 7354-7363.
[10]	Maddison, C.J., Mnih, A. and The, Y.W. (2016) The Concrete Distribution: A Continuous Relaxation of Discrete Random Variables. International Conference on Machine Learning, New York, 19-24 June 2016, 2951-2960.

为你推荐

友情链接