1. 引言
作为对视频的一种高级语义理解,全域视频描述自动生成技术有着广泛的应用,例如为海量视频数据进行自动打标、分类管理,为视障人士提供描述视频服务(DVS)等。视频自然语言描述生成技术是人工智能领域中复杂度较高的任务,自2012年以来受到了计算机视觉和自然语言处理领域的极大关注 [1] [2]。
随着深度学习模型的发展,很多优秀的方法被提出,如Venugopalan [3] 等人设计的使用循环神经网络(RNN)来训练图像和描述语句之间的双向映射关系,深度学习模型已成功应用于视频描述自动生成技术 [4]。然而,即使是目前最优的模型生成的描述语句也存在不通顺、内容不符等问题,如何提高描述语句准确率仍然是一项困难的工作。除此之外,由于任务的复杂性,生成全域视频内容中文描述语句鲜有研究,难度更高。
2. 技术现状
视频的自然语言描述生成技术受到了图像描述生成技术 [5] 的启发,早期主要研究简单视频场景下固定动作的语言描述 [6],随着深度学习技术的发展,逐渐扩展为全域短视频中复杂和未知行为的描述生成 [7] [8]。
深度学习方法大多遵循编码器–解码器架构,Xu等人 [9] 将基础CNNs转换为多个完全CNNs (FCN),以形成用于生成全域短视频描述的多维度网络。Pasunuru等人 [10] 提出了一种新的多任务学习模型,该模型基于注意机制在编码器和解码器之间共享参数。王金金等人 [11] 提出了基于扩张卷积的注意力机制视频描述模型,采用Inception-v4对视频特征进行编码,并在MSVD数据集上取得了之前的最佳结果。然而,以上模型缺乏对图像特征以外的其它重要视频特征的研究,结果的准确性有待提高。
一些关于全域视频描述自动生成的研究 [12] [13] [14] 考虑了其它模态的视频信息,如音频特征、C3D特征等。然而,它们在编解码阶段使用的是基础LSTM模型,没有充分利用多模态信息,导致结果差强人意。除此之外,以上所有的方法都是针对视频英文描述生成技术,而未扩展到其它语言。
针对上述问题,文本提出了一种通用高效的端到端短视频描述自动生成模型,主要优化如下:1) 利用包括RGB图像、光流、C3D以及音频特征在内的多模态特征来提高视频的表征能力。2) 提出了一种新的语言模型,该模型集成了由三层LSTM计算单元组成的多个双向编码器和基于注意机制的多模态解码器。3) 模型适用于生成包括英文、中文在内的多语言视频描述,并给出了实验过程与结果。
3. 视频中文描述自动生成技术
完整的模型框架见图1,整个模型由两部分组成,即多模态特征提取和自然语言生成,语言生成模型又由编码器和解码器组成。首先,将视频转换为并行多通道输入,并通过不同模型提取视频的不同模态特征。每个特征由序列向量表示,输入到由三层LSTM计算单元组成的双向编码器中。LSTM的前两层(深色矩形)分别计算正向和反向特征序列的隐藏状态向量,第三层(浅色矩形)融合这两个方向的输出。最后,将每个模态特征的隐藏状态向量输入到解码器中,解码阶段由基于多模态融合的注意机制和一层LSTM组成,以生成序列描述语言。该模型在MSVD数据集上取得了目前最优的实验结果,可以表明这些优化方法的有效性。

Figure 1. Automatic generation model of video Chinese description based on multimodal attention mechanism
图1. 基于多模态注意机制的视频中文描述自动生成模型
下面将分别介绍多模态特征提取、双向编码器以及基于注意机制的解码器三个算法的详细步骤。
3.1. 多模态特征提取
特征提取模型将视频作为多通道输入,并通过不同的模型得到不同模态的视频表示,然后将这些特征分别输入到后续的双向编码器中。
图像特征:这是视频分析中最基本的特征,主要从深度卷积神经网络中提取。本文使用ImageNet数据集预训练ResNet152 [15],并提取最后1000维向量作为视频中每帧的RGB图像特征。
光流特征:该特征包含两个视频帧之间的动态信息,使用UCF-101数据集预训练ResNet152,可以从视频的光流图像中提取特征,将不同方向的光流特征进行组合,便得到了包含2000维向量的视频帧的光流特征。
C3D特征:光流特征只具有连续两帧之间的运动信息,而C3D特征 [16] 包含了更长时间序列连续帧上的动作信息。使用在Sport-1M数据集预训练深度三维卷积神经网络模型,并提取最后4096维向量作为视频的C3D特征。
音频特征:之前的研究中几乎没有针对该类特征的探讨,然而音频包含了与上述特征完全不同的活动物体的潜在信息,因此本文引入MFCC对该特征进行表示,最终音频特征由68维向量组成。
3.2. 双向编码器
自然语言生成模型由两个部分组成,即编码器和解码器。如图2所示,编码器由三层LSTM计算单元组成,前两层分别计算输入特征序列
的正向
和反向
隐藏状态序列表示,见公式(1)和(2)。然后通过第三层拼接两个方向输出获得
。
(1)
(2)
以光流特征为例,假设一段视频的光流特征向量为
,其中
是2000维的向量,n是光流帧数量,则经过正反向编码后的融合向量为
,其中
是4000维的向量,n保持不变。其它模态特征的正反向编码方法与之相同,便可得到四种模态特征的编码向量表示,记为
到
,分别输入到后续解码器中。
3.3. 基于多模态注意机制的解码器
自然语言生成模型的第二个部分是基于注意机制的解码器,它将多种模态特征的隐藏状态向量作为输入,如
,并输出由汉字构成的中文序列,即
。
解码器的模型结构如图3所示,注意机制使得模型能够在考虑当前上下文的情况下关注特定时间或空间区域的隐藏状态,以便更准确地预测下一个词。本文使用多模态注意机制接收来自并行编码器的多个隐藏状态向量,然后将特征融合向量
依次输入到最后一层LSTM中,以生成序列文字,以下是计算过程的详细信息。
多模态注意机制定义了整个输入序列中隐藏状态的注意力权重,对于第i个输出,每个模态特征由所有隐藏状态的加权和表示,见公式(3),其中
是第i个输出字和第j (
)个模态特征的第l个隐藏状态之间的注意力权重。然后根据公式(4)将这些加权和组合成一个向量,即为特征融合,其中
表示第j个模态特征的权重矩阵。在融合阶段,使用公式(5)作为激活函数,其中
是偏置值。
(3)
(4)
(5)

Figure 3. Decoder based on multimodal attention mechanism
图3. 基于多模态注意机制的解码器
使用公式(6)计算输出的概率分布,并通过公式(7)生成序列单词
,其中V表示从数据集的句子中生成的词典。
标记指示LSTM开始生成单词,
标记指示终止句子生成。
(6)
(7)
4. 实验
4.1. 数据集
MSVD数据集是微软提供的视频描述生成比赛官方数据集,取自YouTube,时长在8 s到25 s之间,它包含了1970段全域视频,对应8万5千条英文描述。为了添加音频特征,本文从YouTube网站上收集了总共1600段MSVD的现有视频,用于剪切音频信息。此外,MSVD数据集还提供了347段全域短视频的398条中文描述语句,但这些数据量对于中文模型的评估而言有些不足,因此本文对MSVD进行扩充,将英文描述翻译为中文,共构建了1600段视频的近6万条中文描述语句。
4.2. 评估指标与参数设置
METEOR最初用于评估机器翻译结果,它也同样适用于视频描述生成模型,METEOR通过WordNet同义词精确比较标记匹配、词干标记、语义相似性匹配和释义匹配,保证了高可靠性。
双向编码器中LSTM的步长依据历史研究结果设置为80,这个步长可在内存消耗与特征提取之间取得良好的平衡。在超出80帧的视频中采用平均间隔提取法,如果帧的总长度小于80,则用零填充空白。最后,每种模态特征由矩阵
表示。
对于训练集和测试集的数量,有1300段视频用于训练,300段用于测试。除此之外,为了与其它模型方法进行对比,验证提出模型的有效性,文本还训练了全域短视频英文描述自动生成模型,除音频信息外,有1570段用于训练,400段用于测试。随机选择1200段音频用于训练,其余400段用于测试,模型的所有训练参数如权重和偏置被随机初始化。
4.3. 实验结果与分析
表1给出了在基于多模态注意机制的全域视频描述生成模型上使用不同模态特征组合的比较结果,实验在MSVD中文测试集上进行。显然,所有模态特征的融合获得了最佳结果(METEOR: 20.5%)。

Table 1. Experimental results of multimodal feature combination
表1. 多模态特征组合实验结果
上述结果表明,与光流特征和C3D特征(结果分别为18.2%和17.9%)相比,音频特征在与静态RGB图像特征融合时发挥了更为重要的作用,两者融合结果达到了18.5%,这证明了在视频分析中使用音频信息的必要性。此外,三种特征的结合结果明显优于任意两种模态特征的结合结果,例如将RGB图像、光流和C3D特征作为整体输入的结果为19.4%,这明显高于仅将RGB图像与光流或C3D结合得到的结果,这证明了输出质量与模态特征数量呈正相关。
本文针对中文描述生成模型的实验结果见表2。原始数据集只有347段包含中文描述的短视频,我们将数据集扩展到600段,并使用其中的100段作为测试数据,评估每段视频包含的描述语句数量对于结果的影响。当每段视频有更多描述时,METEOR值从10.5%增加到12.2%,然而再继续增加描述语句会导致过度拟合问题,使得结果下降到10.9%。继续扩展数据集至1300段训练视频和300段测试视频,每段视频有五条描述语句,可以发现结果有明显的提升。最后,我们继续追加描述语句,结果从19.3%上升到20.5%,得到了MSVD数据集中文描述生成的最佳实验结果。
为了验证本文提出的模型优化方法对于提升全域视频描述生成结果的影响,在英文MSVD数据集上进行了模型训练与测试,并与近年来比较突出的其它研究成果进行了分析对比,结果见表3。LSTM-YTcoco [2] 使用具有卷积和递归结构的统一深度神经网络将视频直接翻译成句子,S2VT [3] 第一次提出了包含RGB图像和光流特征的端到端视频描述生成网络模型,这两种方法都没有对编解码器做任何优化。Joint-BiLSTM [17] 中的BiLSTM模型深入捕捉视频中的全局时间信息,而BLSTM [18] 设计了基于软注意机制的卷积神经网络和双向循环神经网络的组合。多任务模型 [19] 在无监督视频预测和隐含生成任务的编码器和解码器之间共享参数,取得了不小的提升,扩张卷积模型 [11] 是之前最优的结果,采用Inception-v4对视频特征进行编码,然后将编码后的视觉特征和词特征输入到基于扩张卷积的注意力机制中,但它们都没有考虑多模态视频特征。与其它先进方法相比,本文提出的基于多模态注意机制的全域视频描述生成技术获得了最佳结果(41.76%),实验证明了该方法的有效性和优越性。

Table 2. Experimental results of video Chinese description generation
表2. 视频中文描述生成实验结果

Table 3. Comparison with other models
表3. 与其它模型的比较
5. 结束语
本文提出的基于多模态注意机制的全域视频描述生成技术可以有效地从不同长度的视频中提取多模态特征,此外,基于多模态注意机制的双向语言模型使网络能够在整段视频中捕获更多的时间和行为信息。MSVD数据集上的结果表明,本文提出的方法优于以往最先进的模型。除此之外,本文在MSVD数据集基础上扩展构建了视频中文描述生成数据集,其实验结果可以为今后的中文视频处理分析研究提供完整而详细的参考。并且本文提出的多模态视频特征提取模型可用于其它视频分析任务,如行为和对象识别等。
针对多语言描述生成任务后续还有很多可以继续研究优化的地方,如构建海量视频描述标注数据、视频其它模态特征的抽象与提取、中文自然语言模型的改进等等。