1. 引言
现如今,已经证明了深度学习模型在许多应用中是有效的 [1] [2] [3] [4] [5]。通常,基于深度学习的分类模型的性能取决于捕获特征的能力 [6] [7] [8]。在测试样本上使用深度学习模型时,会输出每个标签的概率,然后选择具有概率最大值的标签作为最终结果。
有时,当样本具有属于不同标签的特征时,错误结果的概率可能高于正确结果的概率。为了捕获更多特征以获得更高的精度,模型的结构可能会变得更大,而这会受到许多因素的限制,例如消失梯度问题 [9] [10] [11]。因此,应该设计另一种方法来提高深度学习模型在实际应用中的性能。
与深度学习模型不同,人类不仅可以通过目标的特征,而且还可以通过目标的分布等因素对目标进行分类。如图1展示了这种例子,可以很容易地发现,该样本中的对象同时具有马和鹿的特征,这可能会增加分类的难度,但如果可以知道在这种环境中没有鹿(或马)时,就可以很容易地对其进行分类。

Figure 1. The introduction of problem. A sample that may be deer or horse
图1. 问题示例:一个可能是鹿或马的样本
这种信息可以通过生活经验或他人的建议获得,这是人类的一种特殊能力,可以用来提高环境中分类的准确性。
本文建立了基于用户指导的深度学习分类系统DLC-UG,以提高分类的准确性,本文的贡献可以总结如下:1) 系统使用户能够引导深度学习模型在环境中提高分类准确性。通过系统,用户体验可以很容易地应用到深度学习模型中,以获得更高的精度。2) 系统提高了深度学习模型在新环境中的鲁棒性。标签的分布在不同的环境中可能会有所不同,在这个系统中,用户只需要在相应的环境中更新标签的分布,这比模型迁移或重新训练的成本更低。
论文在CIFAR-10 [12] [13] [14]、CIFAR-100 [15] [16] [17] 和Mini-ImageNet [18] [19] [20] 的样本上验证了本文方法和现有方法,所有这些评估都证明了本文系统的有效性。
论文分为以下几个部分:第一节介绍了背景和本文的贡献,第二节介绍了现有的方法及其存在的问题,第三节介绍了本文系统和相关分析,实验安排在第四节,第五节做出了结论和未来的工作规划。
2. 相关工作
VoVNet-57:VoVNet [21] 的组成首先是一个stem块,由3个卷积层组成,之后是4级OSA模块,输出步幅32。OSA模块用于最小化MAC,MAC由5个具有相同输入/输出通道的卷积层组成。VoVNet-57在第四和第五阶段包含更多的OSA模块,因此模型更大,常用于目标检测。
VGG16:是用于图像识别的VGG模型 [22] 的变体。图像通过一堆卷积层,滤波器使用一个非常小的3 × 3的感受野,卷积步长固定为1像素,五个最大化池层位于卷积层之后,步幅为2,三个完全连接层紧跟一组卷积层之后,最后一层是softmax层,所有隐藏层都配备了(ReLU)非线性函数。
ResNeSt:特点是由Split-Attention块构成 [23],它有四个版本,从ResNeSt50到ResNeSt269,结构变得越来越复杂,当训练样本越来越多时,可以获得更高的精度。由于测试样本的大小和计算资源的耗费,本文实验使用了ResNeSt50。
RepVGG:是在VGG网络的基础上进行了改进 [24]。主要改进包括:1) 在VGG网络的Block块中增加了Identity和残差分支,相当于将ResNet网络的精华应用于VGG网络;2) 在模型推理阶段,通过OP融合策略将所有网络层转换为3 × 3卷积层,便于部署和加速模型。
ResNet:在ILSVRC 2015分类任务中获得了第一名 [25]。它允许将原始输入信息直接转移到输出,从而简化了神经网络学习的目标和难度。使用ResNet主干模型可以在多个任务中实现最先进的性能,即:图像分类、对象检测、实例分割和语义分割等。
DenseNet:是一个具有紧密连接的卷积神经网络 [26]。在这个网络中,任意两层之间都有一个直接的连接,也就是说,每一层的输入是之前所有层的输出的并集,由该层学习的特征图将直接传输到所有后续层作为输入。
这些模型在现实中都得到了广泛的应用,这也证明了它们的有效性。为了提高模型的准确性,必须增加训练样本的数量,这在现实应用中是一项艰巨的工作,此外,模型的结构必须足够大,并使用一些特殊的调整技术才能实现,而人类在环境中对分布标签(样本的种类)的经验可以用来提高准确率。
3. 系统框架
首先,先做一些定义。令
为样本,
为样本的标签,
为
的真实标签 [27] [28],可以得到
。标签可用于计算,通常设置为数字 [29] [30],例如,如果有10个样本需要分类,则标签的范围为0到9,同时,M为一个经过训练的模型。
3.1. 整体框架介绍
如图2介绍了系统的整体框架,本文将其命名为DLC-UG (基于用户指导的深度学习分类系统)。首先,系统在训练集上训练深度学习模型,然后在输入样本上运行训练模型,得到相应的输出,即标签的概率,接着,用户可以通过输入环境中标签的分布来引导系统,对于一个测试集,用户只需输入一次标签的分布,最后,系统在用户输入和标签概率之间进行选择性的结合,以提高准确性,当有验证集时,系统还可以进一步的优化。
3.2. 根据标签分布进行用户指导
在本文中,用户通过输入标签的分布来引导系统,因此,用户输入和标签的实际分布之间可能存在误差,标签的用户输入分布可以定义如下:
(1)
其中,
是用户输入分布,
是真实分布,
代表这两种分布之间的误差,在一般情况下,正确预测标签的分布对用户来说是很艰难的,即
。
3.3. 训练模型得出概率
令
是训练模型M在样本
上得到标签
的概率,通常,一个经过训练的深度学习模型通过以下公式选择最可能的结果:
(2)
正如图3的例子所示:

Figure 3. Process example of predicting results through tag probability
图3. 通过标签概率预测结果的过程示例
3.4. 通过后验分布优化
正如上面介绍的,用户输入是不完全准确的,当存在验证集时,可以使用验证集上的后验分布进一步优化输入分布。首先,定义
是标签
在验证集上的后验分布,接着使用
按照下面的公式来优化输入分布
:
(3)
其中,
表示权重,且满足
,通过选择
的值,可以使经过训练的模型在验证集上达到最高的精度的方法,本文将这种优化方法命名为DLC-UG-opt。
3.5. 选择性结合
本小节将在用户输入分布和标签概率之间进行选择性结合,需要建立了两条选择规则,如下所示:
(4)
其中,
,在所有的最终结果中,Select1重新考虑了那些概率小于
的结果,然后注意这些结果的相应样本,在每个样本上,可以得到模型输出的标签的概率,然后选择概率大于
的标签作为最终结果的潜在集合。
是决定是否重新考虑结果的阈值,
这个参数意味着只能选择一部分标签作为可能的最终结果,这是为了避免标签概率
通过结合被选为了最终的结果。
可以使用图3中的例子来解释这个过程,在这个图中,经过训练的模型输出
作为样本的最终结果,因为该标签在所有标签中的概率最大。如果提前设定
,可以得到
,然后根据Select1重新考虑这个样本的结果,Select2选择概率大于预设值
的那些标签,这样,系统就会选择并重新考虑
、
作为最终结果的潜在集合。
3.6. 本文方法
接下来,可以根据论文的系统执行以下方法:对于最终结果
,可以通过以下公式重新考虑输出:
(5)
当使用这种方法时,我们可以设置参数的默认值如
,用户输入分布的影响由参数
控制,当存在验证集时,我们还可以优化该参数。
下面是论文系统比现有系统性能更好的原因。第一个原因:样本
上可能存在以下关系:
(6)
这意味着经过训练的模型预测出了错误的结果,在这种情况下,有
。特别的,当
时,有
,这表示正确结果可能是其他的。例如,在图4中,
,同时
,在这种情况下,如果存在以下关系:
(7)
就可以使用用户输入来获得最终结果。例如,我们可以很容易地在图4中选择
是鹿。第二个原因,在深度学习模型中,捕获的特征在分类中起着重要作用,捕获特征的数量取决于层的结构 [31] [32],深度学习的训练过程是选择能够代表样本的特征,然后,获得标签的概率也是基于这些特征。所以,当存在以下关系时,标签
比标签
更有可能是正确的结果:
(8)
因此,在重新考虑结果时,选择具有高概率的标签是合理的。

Figure 4. The result of the model is 4 (horse), and the correct result 7 can be obtained through the distribution of labels
图4. 模型得出的结果是4 (马),而通过标签的分布,可以得到正确结果7
4. 实验结果
论文在一些真实数据集上评估了所提出的方法和现有的方法。首先,在训练集上对已有的深度学习模型进行训练,生成训练模型,在默认设置下训练所有深度学习模型(不改变结构或调整超参数),在训练这些模型时,将迭代次数epoch [33] [34] 设置为10。接着,根据样本分布从数据集中选取测试样本,以模拟环境中的真实分布,然后在这些样本上评估本文的方法和现有的方法,当随机化这些参数时,实验评估1000次并计算平均值。
4.1. 在CIFAR-10上的评估结果
CIFAR-10 [12] [13] [14] 有50,000个训练样本和10,000个测试样本,属于10个标签。每个样本都是一个带有三个通道的RGB图像:红色、绿色和蓝色。实验使用训练集中的50,000个训练样本来训练模型,另外还有10000个测试样本,根据不同的样本分布从这10,000个样本中选择样本,以模拟环境中的真实分布。
实验使用三种样本分布来评估这些方法,Zero20表示20%的标签上没有样本,然后以同样的方式定义Zero40 (有40%的标签是零样本)和Zero80 (有80%的标签是零样本),要分配零样本的标签是随机选择的。图5显示了这些分布的示例,在这些情况下,测试集的样本数量少于10,000个。例如,Zero20案例中大约有8000个样本。

Figure 5. Examples of Zero20, Zero40, and Zero80 on CIFAR-10
图5. 在CIFAR-10上的Zero20、Zero40和Zero80示例
在这些情况下,假设用户输入是正确的,这意味着
(公式(1)所述)。如表1所示,与现有方法相比,本文的方法可以将准确度至少提高1.29%,最多提高24.34%。
4.2. 在CIFAR-100上的评估结果
该数据集与CIFAR-10类似,只是它有100个类,每个类包含600个图像:包括500个训练图像和100个测试图像 [15] [16] [17]。实验使用训练集中的50,000个训练样本来训练模型,另外还有10,000个样本。根据不同的样本分布从这10,000个样本中选择样本,以模拟环境中的真实分布。
在这些情况下,假设用户输入是正确的,即
,分布Zero20、Zero40和Zero80的含义与4.1小节描述相同。如表2所示,与现有方法相比,论文提出的方法可以将准确度至少提高2.55%,最多提高23.75%。

Table 1. Experimental results on CIFAR-10
表1. CIFAR-10上的实验结果

Table 2. Experimental results on CIFAR-100
表2. CIFAR-100上的实验结果
4.3. 在Mini-ImageNet上的评估结果
Mini-ImageNet [18] [19] [20] 数据集常用于小样本学习评估。由于使用了ImageNet中的图像,它类型比较复杂,但与在完整的ImageNet数据集上运行相比,需要的资源和基础设施更少。数据集共有100个类别,每个类别有600个样本和8484幅彩色图像。实验使用训练集中的48,000个训练样本来训练模型,另外还有12,000个测试样本,根据不同的样本分布从这12,000个样本中选择样本,以模拟环境中的真实分布。
在这些情况下,我们假设用户输入是正确的,这意味着
。分布Zero20、Zero40和Zero80的含义与4.1小节描述相同。如表3所示,与现有方法相比,论文的方法可以将准确度至少提高1.86%,最多提高22.60%。

Table 3. Experimental results on Mini-ImageNet
表3. Mini-ImageNet上的实验结果
4.4. 两个数据集上的随机情况
在本小节中,实验随机将示例分布分配给CIFAR-100和Mini-ImageNet,具体来说,实验随机选择标签并设置随机分布来评估这些方法。然后,本文将提出的方法与这些数据集上现有的方法进行了比较,如图6所示,
是将随机值乘以分布的函数,如果随机值小于0,则用0代替这个值,然后可以通过这个函数生成样本的分布。例如,如果对象标签的原始样本数为100,且
,则有大约90个用于评估的该标签样本,图6显示了
和
的示例。

Figure 6. The example random distributions, (a)
; (b)
图6. 随机分布示例,(a)
;(b)
如表4所示,论文的方法比现有的最佳方法平均提高了约0.54% (在
情况下)和8.61% (在
情况下)的平均准确率。
4.5. 在两个数据集上均错误的情况
在本小节中,实验假设用户输入不正确,即
,定义
意味着在分布中加入了一个随机误差,例如,当标签的分布如图6所示介于0和0.01之间时,
意味着向分布中添加了一个随机误差
。当使用本文的优化方法DLC-UG-opt时,随机将验证集中的样本数设置在200到500之间。

Table 4. Random distribution results on CIFAR-100 and Mini-ImageNet
表4. CIFAR-100和Mini-ImageNet上的随机分布结果
如表5所示,与现有方法相比,DLC-UG方法平均可提高约7.80% (当
时)的平均精度,3.30% (当
时)和1.53% (当
时)的平均精度。本文的方法DLC-UG-opt比现有方法平均提高了8.10% (
)、7.03% (
)和5.92% (
)。这些结果表明,当标签的输入分布存在误差时,论文提出的方法也可以具有更高的精度。与本文的方法DLC-UG相比,优化方法DLC-UG-opt可以减少误差的影响,从而获得更高的精度。

Table 5. Experimental results on CIFAR-100 and Mini-ImageNet when user input error
表5. 用户输入错误时在CIFAR-100和Mini-ImageNet上的实验结果
4.6. 结果分析
论文已经在不同分布的真实数据集上对提出的方法进行了评估,这些模型的精确度从低(<50%)到高(>90%)的结果都证明了本文的系统在这些情况下的有效性。在某些情况下,也可以通过另一种方式获得分布,例如,当地居民的建议类似于“这个地区没有马”,可以用来从候选集中消除错误的标签。本文的系统可以有效地利用用户的体验来提高准确性,使用这一方法的另一个优点是,应用中不需要对模型进行重新训练,也不需要将模型迁移到各种环境中来加强鲁棒性,本文中的系统实现了这种对基于深度学习的分类的鲁棒性。
5. 总结
本文提出了一个新的系统,它可以提高基于深度学习模型的分类任务的准确性,这个系统使用模型输出的样本的概率,使该概率有条件地与用户输入的标签分布相结合,以获得更高的精度,所提出的系统可以有效提高环境中深度学习分类模型的鲁棒性。在未来的工作中,我们将研究标签的概率和分布之间的深度结合,例如,可以使用多个模型的概率 [35] 和用户输入的概率相结合,这能够包含对象特征的更多信息,这些信息可以正确表示经过训练的模型从样本中捕获到的内容。
NOTES
*通讯作者。