1. 引言
图像配准是通过全局或局部的空间几何变换把两张或多张图像中相似的部分匹配在一起的技术。待配准的图像可能是在不同的时间、不同的角度或使用不同的传感器对同一对象进行拍摄得到的,也可能是对不同对象的相似部分进行拍摄得到的。图像配准是图像处理中的一个基础而重要的问题,在众多领域中得到了广泛的应用。例如,遥感领域、医学图像领域等。
在本文中,将要发生形变的图像被称为移动图像,用
来表示;形变的目标图像被称为固定图像,用
来表示。图像配准任务即找到一个几何变换
,使得形变后的移动图像
与固定图像f在某种度量的意义下尽量接近。当
是一个线性映射时,对应的图像配准被称为线性图像配准;而当
是一个非线性映射时,对应的图像配准则被称为非线性图像配准。当
可以被一组参数进行显式表示时,对应的图像配准被称为参数化图像配准;而当
被某个微分方程所隐式表示时,对应的图像配准被称为非参数图像配准。参数化图像配准的一些工作有 [1] [2] [3],非参数图像配准的一些工作有 [4] [5]。所有图像配准任务可以被分为传统方法和基于学习的方法两大类。传统方法较为依赖人类智能,需要人根据自己对图像配准问题的认识设计图像配准任务中每个环节的算法 [6];而基于学习的方法则把图像配准任务中的部分环节或全部环节交给机器,让机器通过算法自行从数据中发现模式。近年来,随着计算机算力的提升,基于学习的方法,尤其是深度学习方法在图像配准领域有着越来越多的应用,得到了研究者的广泛关注。
U型卷积神经网络在图像配准任务中有着十分成功的应用 [7] [8],这主要得益于它的结构的多尺度特性。这种多尺度特性对于图像配准来说是十分必要的,因为仅仅在大尺度上配准图像可能会忽略细节,而只在小尺度上配准图像可能会使配准陷入局部最优。为了更好挖掘网络结构的多尺度正则性在图像配准任务中的作用,本文改进了一个图像去噪领域的经典工作——自引导网络(self-guided network, SGN) [9],并将其应用在图像配准任务中。和以U型卷积神经网络为基础网络的图像配准模型相比,本文改进的网络在手写体数字数据集的类内图像配准任务上取得了更好的结果。
2. 模型
本文工作的主要框架如图1所示。该框架是一个无监督神经网络图像配准的经典范式,在 [7] [8] 等文

Figure 1. The framework of MSGN based image registration
图1. 使用MSGN进行图像配准的框架
献中被广泛使用。改进后的自引导网络被称为MSGN (modified SGN),在这里被用于从固定图像f和移动图像m组成的图像对中预测形变场u。形变场u和恒等变换
的和即为所求几何变换
。形变场u被一组参数
表示,训练神经网络MSGN的目的是找到一组最优的参数
,使得在给定的数据集
上平均相似性损失和平均正则化损失的加权和达到最小:
(1)
其中
,
。相似性损失使用的是平方距离,两幅图像越相近,相似性损失越小:
(2)
正则化损失在本文中有四种形式,它们是形变场梯度的L1正则,形变场梯度的L2正则,形变场梯度的βTV正则以及文献 [10] 提出的形变场梯度的MTV正则。这四种正则项的表达式分别为:
(3)
(4)
(5)
(6)
文献 [9] 中用作图像去噪的SGN如图2所示。其中
是输入图像,
和
是一些卷积层生成的特征图像。SGN使用了一种图像的像素重排操作一次性生成数个空间分辨率依次减半的输入图像。像素重排操作最早见于文献 [11],其中重排编码shuffle/2和重排解码shuffle × 2被用来降低和增加图像的空间分辨率,如图3所示。这样一种自顶向下的、高层特征逐渐汇入低层以引导低层卷积核进行学习的自引导机制有助于使网络更加有效地整合图像多尺度信息。SGN原本被用于图像去噪任务,因此需要对其进行一些修改,才能让它更好地处理图像配准任务。本文提出的模型MSGN其结构如图4所示。改进主要有如下三点:第一,起始部分的编码重排操作被替换为了带步长的卷积层。卷积核的大小逐级增大,步长也逐级增大。第二,SGN每一级的基础卷积核数目是逐级倍增的,若level 0中所有卷积层的卷积核数目为n,则level 1至level 3中所有卷积层的卷积核数目为
和
。本文将它们设定为四个可以自由确定的超参数
和
。最后,在MSGN中,最外层的跳跃链接被删除。删除最外层的跳跃链接的原因是:在图像去噪任务中,SGN的输出是去除噪声后的干净图像,跳跃链接的存在迫使网络学习噪声图像和干净图像的差,也就是噪声模式。但是在配准任务中,网络需要给出多尺度特征图像,并在这个多尺度特征图像后再次使用数个卷积层回归出图像重采样使用的坐标从而组成采样网格。配准网络的输入和输出并非处在相似的空间中,因此强迫网络学习输入和输出之间的某种残差是无意义的。

Figure 2. The framework of self-guided network
图2. 自引导网络SGN的网络框架示意图

Figure 4. The framework of modified self-guided network
图4. MSGN的网络框架示意图
3. 实验
3.1. 实验设置
本文在手写体数字数据集MNIST上进行了多组实验,以对比我们所提出的MSGN与文献 [7] 中经典的U型卷积神经网络(图表中记为UNet)在该数据集上配准的性能。MNIST是机器学习领域一个经典的数据集,由60,000张训练图像和10,000张测试图像组成,图像大小均为28 × 28。训练集中数字0到9的图像数量分别为5923,6742,5958,6131,5842,5421,5918,6265,5851,5949张;测试集中数字0到9的图像数量分别为5923,6742,5958,6131,5842,5421,5918,6265,5851,5949张。每张图像都有一个one-hot标签作为分类的监督信息,但由于本文使用MNIST研究的是图像配准任务,因此这些标签只在最开始用于划分数字类别以使配准在类内进行,在后续的训练中并不会使用这些标签。
实验中所有的数字图像都被零填充成32 × 32大小,并把训练集中5918张数字6的图像随机两两配对用于训练神经网络。使用单一数字6训练好的神经网络将会在测试集所有的数字类别上进行测试。我们使用峰值信噪比PSNR与Dice系数来评估实验结果,同时也会将数字对与形变场进行可视化,在此基础上做更多说明。Dice系数的定义如下:
(7)
其中
是两个矩阵,取值位于
,是表示图像分割结果的矩阵。MNIST数据集较为简单,初始的分割结果由二值化给出。
在式(1)中,正则项平衡参数
对配准结果影响较大。按照惯常的做法,需要对其进行线搜索以确定最优配准模型。本文将在
这10个点上独立地训练每个模型,并找出其中最优的一个。每个模型均使用大小为32的batch进行训练,使用Adam优化器,初始学习率为1e−4,训练集被重复使用250次。U型卷积神经网络和MSGN训练时的
-PSNR曲线如图5所示,可见正则项超参数
的最优值均为0.1左右。本文使用了PyTorch版VoxelMorph作为基础配准框架,使用了PyTorch Lightning训练神经网络。

Figure 5. Relationship of PSNR and regularity hyperparameter
图5. PSNR和正则项超参数
的关系
3.2. 实验结果
表1显示了当正则项平衡参数
取0.1时U型卷积神经网络和本文提出的MSGN的配准结果。可以看出,在每个数字类别以及每种正则项下,本文提出模型都具有更佳的平均PSNR和平均Dice系数。此外对于MSGN来说,形变场梯度的L1正则在所有数字类别上的结果都是四种正则项中最好的。而对于U型卷积神经网络来说,形变场梯度的L1正则在大部分数字类别上取得最好结果,除了在数字0上形变场梯度的βTV正则取得了最优结果,在数字3上形变场梯度的MTV正则取得了最优结果,在数字7和9上形变场梯度的L2正则取得了最优结果。对于U型卷积神经网络来说,Dice系数的结果并不总是和PSNR呈正相关关系。值得注意的是,在数字6上学得的两种网络模型均具有一定的泛化能力,可以处理所有其他类别的手写体数字配准问题。图6显示了MSGN在几种不同的数字上的配准可视化结果。可以看出,四种正则项的作用均被网络捕捉到,形变场梯度的L2正则为形变场带来了全局光滑性,形变场梯度的L1正则为形变场带来了分片常值性以及稀疏性,形变场梯度的βTV正则为形变场带来了分片光滑性,而形变场梯度的MTV正则则介于L1和L2两种正则项的效果中间。

Table 1. Comparison between UNet based and MSGN based registration networks
表1. U型卷积神经网络和本文提出模型MSGN的实验结果比较
(a) (b) (c)图是形变场梯度的L2正则;(d) (e) (f)图是形变场梯度的L1正则;(g) (h) (i)图是形变场梯度的βTV正则;(j) (k) (l)图是形变场梯度的MTV正则。其中
均为
Figure 6. Best results of MSGN with 4 different types of regularity
图6. MSGN在四种正则项上的最优结果
4. 结论
本文分析了U型卷积神经网络在配准任务中得到成功应用的原因之一在于它的多尺度结构特性,这种特性正是配准任务所需要的。本文指出图像去噪领域的经典网络——自引导网络由于充分发掘了网络结构的多尺度特性,所以非常适合用于处理图像配准任务。通过对自引导网络进行了一些使其适用于图像配准任务的改进,我们在手写体数字的类内图像配准任务中取得了超过经典的U型卷积神经网络的配准结果。