1. 引言
社会关系是多个个体之间的紧密联系,并构成我们社会的基本结构。从图像或视频中识别社交关系可以使机器更好地理解人类的行为或情感。然而,与基于图像的社会关系识别相比,基于视频的场景是一个重要但前沿的话题,常常被社会团体所忽视。它具有许多潜在的应用,例如帮助人们在手机中查找家庭视频 [1],或者向商店中的顾客群推荐合适的产品 [2]。
现有的社会关系识别研究主要集中在基于图像的条件下,算法主要识别单个图像中人与人之间的社会关系。为了区分不同的社会关系,研究了人和语境对象的外观和面部属性。尽管在视频或电影中发现了社交网络 [3] [4],社区,角色 [5] [6] 和群组行为 [7],但从视频片段中明确认识到社会关系的吸引力却远远不足注意。最近的方法仅将基于视频的社交关系识别视为一般的视频分类任务,该任务将RGB帧,光流或视频音频作为输入,并将视频片段分类为预定类型 [8]。但是,这种模型显然过于简化,从而忽略了人的外观,人与语义对象之间的交互以及带有上下文对象的场景。如何解读场景中的众多特征,视频中的社会关系识别面临着独特的挑战。首先,与社会社区发现相比,在不同的场景中,社会关系更加细化和模糊。模型必须通过视觉内容来区分非常相似的社会关系,例如朋友和同事,即使对于人类来说,这也可能非常困难。此外,与基于图像的社会关系识别相反,人和语境对象可能出现在任意视频帧中,甚至出现在单独的视频帧中。这使得人和语境对象在连续帧中变化极大。因此,基于图像的方法不能直接用于基于视频的场景。此外,视频还提供了人和语义对象的时域特征。对人的动态变化与社会关系之间的潜在关联进行建模仍然具有很大的挑战性。
为此,我们提出了一个多尺度图推理模型(MSGRM)来解决视频中的社会关系理解问题。在特征提取阶段,利用特征提取网络提取场景的时空特征和语义对象特征。然后在多尺度图推理阶段,利用不同的感受野来学习长期和短期信息,以探索场景中人和语义对象之间的交互。此外,利用注意机制,通过测量每个节点的重要性,自适应地选择某一视频场景中最重要的节点进行识别。这样,MSGRM极大地提高了从视频中获取社会关系的能力。本文主要贡献如下:
1) 本文提出了一种多尺度图推理模型(MSGRM)来识别视频中的社会关系,在端到端的处理过程中,该方法可以准确地捕捉场景中角色的时空信息和交互信息。
2) 为了捕捉视频中的长期和短期时间线索,本文提出了一种基于多尺度时间感受野的MSGCN进行社会关系推理,以捕捉视频中的长期和短期线索。
3) 我们将该方法应用于SRIV数据集,并与一些优秀的研究工作进行了比较,取得了较好的识别效果。
2. 相关工作
视频中的社会关系识别。在过去的十年中,社会学和计算机视觉的跨学科研究一直是热门领域。主要的研究主题包括社交网络发现 [3] [4]、关键角色检测 [5] [6]、多人跟踪 [9] [10] 和群体行为识别 [7]。近年来,基于视觉内容的社会关系识别引起了研究者的关注 [11] [12] [13] [14],现有的方法主要集中在静态图像上。例如,Zhang等提出通过卷积神经网络(CNN)从人脸图像中学习社会关系特征 [12]。Sun等提出了一种基于社会领域理论的社会关系数据集 [15],并采用CNN从一组语义属性中识别社会关系 [13]。Li等提出了一种用于社交关系识别的双视模型,其中第一眼聚焦感兴趣的人,第二眼应用注意力机制发现上下文线索 [11]。Wang等人提出用图来表示图像中的人和物体,并用门控图神经网络 [14] 进行社会关系推理。而对于基于视频的数据,社交关系识别仅被视为视频分类任务。例如,Lv等利用时间分段网络 [16],利用视频的RGB帧、光流和音频对视频进行分类 [8]。他们还建立了一个视频社会关系(SRIV)数据集,其中包含约3000个带有多标签注释的视频片段。但是,该方法只考虑全局和粗糙特征,而忽略了视频中的人、对象和场景。因此,我们将视频中的人与对象的时空特征特征嵌入图模型,并在此基础上进行社会关系推理。
计算机视觉中的图模型。在计算机视觉领域,像素,区域,概念和先验知识可以表示为图形,以针对不同任务(例如目标检测 [17],图像分割 [18],图像搜索 [19] 等)和对它们的关系进行建模。近年来,机器学习的研究人员研究了通过端到端可训练网络在图中进行消息传播,如图卷积网络(GCN) [20] [21] 和门控图神经网络(GGNN) [22]。最近,这些模型已被用于计算机视觉任务 [14] [23] [24] [25]。例如,Liang等提出了一个“图形长短期记忆网络”在基于超像素的图形中传播信息,并用于语义对象解析 [24]。Qi等提出了一种3D图神经网络在3D点云上建立一个k近邻图,并预测RGBD数据每个像素的语义类别 [25]。Wang等提出用视频中的人物和对象将视频表示为时空图,并采用GCN来学习视频级特征以进行动作识别 [26]。受以上研究的启发,我们建议将视频中人和物体之间的相互作用用图形来表示,并通过我们提出的多尺度图推理模型网络来进行社会关系识别。
注意力模型。人在观看某物时,总是关注感兴趣的视觉信息。一些研究发现,视觉注意力被信息含量最高的区域 [27] [28] 所吸引。在深度学习领域,注意力机制已应用于视频描述 [29],图像和动作分类 [30] [31] 以及文本中的实体歧义消除 [26],以学习数据的更多关键部分。一方面,基于CNN的注意力模型已经被提出并应用于不同的领域,这些方法比没有注意力模型取得了更优异的成绩。例如,Yu等人 [32] 引入了注视编码注意网络(GEAN),该网络可以利用注视跟踪信息为视频字幕提供时空关注。Zhu等 [30] 提出了一种空间正则化网络,利用注意力机制学习不同标签的更多相关区域。另一方面,注意机制也被应用于序列学习模型中。如Pei等人 [33] 提出了不同的注意力GRU模型,可以学习顺序数据的注意得分。然而,这些注意模型忽略了语义对象与特定视频时空特征之间的相关性。因此,在我们的社会关系识别模型中,提出了一种时空注意力机制,从视频中自适应地选择最有区别性的对象来理解社会关系。
3. 多尺度图推理模型
我们的多尺度图推理模型的总体架构主要包含两部分,第一部分是从原始数据提取语义对象以构建图。该框架将一个视频帧作为输入,为了建模人和物体的时空特征和探究人和物体间的交互信息,我们构建了一个人—物图和上下文对象的共存,并用LSTM和ResNet [34] 来提取人和物体的时空特征。第二个部分采用MSGCN来进行关系推理,在每个图中进行消息传播。在MSGCN中,我们探索多尺度的时间感受野来学习不同时间范围的相互作用。并利用注意力机制来探究场景中的语义对象对社会关系识别的重要性。图1给出了所提出模型的总体图解。

Figure 1. Multi-scale graph reasoning model structure
图1. 多尺度图推理模型框架
3.1. 特征提取模块
时空特征提取。为了从视频中学习时间特征,我们遵循 [35] 采用LSTM单元对输入视频中采样的L个关键帧
进行处理,来生成具有时间社会关系的特征序列,表示为
。然后,将这些时空特征展平并连接起来以形成单个特征向量。
语义对象特征提取。使用预先训练的检测器捕获整个视频中的语义对象区域,并从相应的语义对象中提取特征,我们使用Faster R-CNN [36] 检测器从采样的视频帧中检测视频中的人和物体对象
和
,该检测器是在COCO [37] 数据集上训练的。COCO数据集是一种用于目标检测的大型数据集,涵盖了我们日常生活中经常出现的80个目标类别,用于从视频中收集语义对象。Faster R-CNN使用区域建议网络(RPN)处理输入关键帧I,生成一组具有高评分语义对象的区域建议。将检测到的置信度高于阈值ε的上下文区域
作为语义对象,其中C表示检测到的类别。为了平衡准确性和效率,我们通过置信度得分将每个视频帧固定为N个人和M个目标对象。每个边界框的外观特征由VGG [38] 网络来提取的。这些边界框被用作构建人-物图模型的节点,而每个结点的特征将在图卷积中用于社会关系推理。
3.2. 人–物图模型
图形模型可以有效地表示空间视觉内容中对象的时间、空间、概念或者相似性关系 [19] [23],为了捕获视频中不同人之间的交互和探究人物和上下文对象之间的互动,我们构建一个人–物图模型
来表示人际之间的交互和人与上下文对象之间的共存,其中
是我们场景中的人和目标对象节点,用不同的颜色表示,E表示节点之间的关系边。
对于建模人与人之间的交互,我们通过估计视频帧及其相邻帧中人的距离来构建图模型。对于人际之间的邻接矩阵
,如果人节点
和
是属于同一帧的,我们直接设置
。如果人节点
和
属于相邻帧,我们设置
(1)
其中
是人节点
和
之间的余弦距离,τ是我们设置的超参数。
同样,场景中的上下文对象是社交关系识别的重要信息,为了捕获视频中人物和上下文对象之间的互动。我们通过估计人物和上下文对象在视频帧中的共存来构建图模型。对于人和物之间的邻接矩阵
,如果
和
来自同一帧,则设置
,否则设置
,公式如下:
(2)
其中
表示
和
来自同一个视频帧。为了方便我们更加直观的进行图推理,我们把人际交互图和人物共存图整合在一个图上,如图2所示。

Figure 2. People-objects graph model structure
图2. 人–物图模型结构
3.3. 多尺度卷积网络
图卷积网络(GCN)通过在图中从节点到其邻居进行消息传播来进行关系推理 [20]。因此,我们可以在人–物图模型中应用GCN来实现视频帧中的社会关系推理。给定一个有N人个节点的图,其中每个节点都有一个d长度的特征向量,一个图卷积层的运算可以表示为
(3)
其中
是人–物关系图的邻接矩阵,
是
的度矩阵,
是第
的输出结果,
为可学习参数矩阵,
是一个类似ReLU的非线性激活函数。特别说明,在我们的社会关系推理模型中,上式中的邻接矩阵为我们在3.2节中定义的
和
。邻接矩阵的索引是按照视频中节点的时间顺序排列的,通过这个顺序,时间信息被隐式地嵌入到构建的图中。初始特征矩阵可表示为
,其中
和
是从视频中人和物体对象节点中提取的特征向量。GCNs的最终输出是图中节点的更新特征,这些特征可以聚合成视频级的特征向量用于社会关系预测。
GCN在一幅图中的所有节点上以及视频的整个时间范围上执行操作,这意味着GCN可以在时间域捕获全局视图。然而,社会关系识别的关键因素(如一个人的特定行为)可能出现在被不重要信息淹没的局部时间位置。因此,我们设计了一个多尺度图卷积网络(MSGCN),通过不同的时间感受野来学习长期和短期信息。如图3所示为我们的多尺度卷积网络的一个块结构,每个块包含具有不同感受野的多个平行分支。Scale 1是标准GCN,它在整个相邻矩阵上执行图卷积并覆盖图中的所有节点。Scale 2给出了具有较小时间感受野的图卷积的示例,而Scale k是更一般的说明。对于每个Scale,所有滑动窗口的激活都汇总到一个特征矩阵中,该特征矩阵的形状与标准GCN的输出相同。通过沿着相邻矩阵的对角线滑动感受野,模型可以学习从视频的开始到结束的短期特征。最后,对多个尺度的输出进行平均池化合并,以生成下一个MSGCN层的特征矩阵X(l+1)。经过多次交互后,节点消息已经通过图进行传播,我们可以得到每个节点最终的状态为
(4)

Figure 3. Graph convolution block with multi-scale receptive field
图3. 具有多尺度感受野的图卷积块
3.4. 注意力机制
计算每个节点的特征后,我们可以直接将它们通过MSGCN聚合起来进行关系识别。然而,在不同的视频场景中,语义对象对区分关系的贡献并不相同。为了解决这一问题,我们引入了一种新的注意力机制,根据图形结构和视频特征自适应地推理出最相关的上下文对象。对于每一个社会关系和邻居对象对,该机制将它们的场景外观特征作为输入,并计算出这个对象对关系的重要性。我们首先将每个图中对象节点的外观特征和视频时空特征结合成一个向量
(5)
其中
是一个权重矩阵,
表示按矩阵元素相乘。
然后,我们通过sigmoid函数来计算每一个对象节点的注意力系数
,
(6)
其中
是一个权重矩阵,根据节点j对节点i的重要性的不同,可将每个特征转换为可用的表达性更强的特征,
是一个偏置项。
对于关系
,我们将其自人物节点的特征与上下文对象节点的加权特征向量连接起来作为其最终特征,
(7)
然后由最后一层fc层对特征向量进行处理,生成关系得分:
(8)
表示视频场景具有社会关系
的可能性。对所有关系节点重复此过程,计算得分向量
。
整个网络通过交叉熵损失与地面真实标签
一起训练,
(9)
其中s是预测的类别概率。
4. 实验
4.1. 数据集
SRIV数据集:本文使用的数据集来自于电影和电视剧,名为SRIV [8]。SRIV是第一个从视频中识别社会关系的视频数据集。它包含3124个带有多标签的视频,大约25个小时,这些视频来自69部电视剧和电影。数据集包含Sub-Relation和Obj-Relation类,其中包括16个子类,如表1所示。
4.2. 实验细节和评价标准
在特征提取模块,从视频中随机采样的关键帧L的数量设置为128。类似于 [11],我们利用广泛使用的ResNet-101 [34] 提取关键帧的特征,得出的特征向量为2048维。对于语义对象区域,我们使用VGG-16 [38] 提取特征,从而得到4096维的特征向量。通常用于指导目标检测的阈值为0.5,而此处语义对象检测的结果将很大程度影响人–物关系图中的特征交互,所以我们的阈值ε提高为0.7,以获取更加准确的检测对象。在整个训练期间,除了MSGCN外,我们模型的所有组件使用SGD优化,MSGCN使用ADAM优化。对于SRIV数据集,学习率lr从0.01开始,每20个epochs乘以0.1,直到训练完80个epochs。
本文采用四个评价标准来评价我们所提出的方法的性能。

Table 1. The statistics of the number for each class on SRIV
表1. SRIV上每种类别的统计数量
F1_micro和F1_macro这两个评估基于是
分数的标签评估,第i类的
表示为
(10)
其中TP(i)、FP(i)、FP(i)、FN(i)分别为第i类的正阳性、假阳性、真阴性、假阳性的个数,因此,
和
的计算公式如下
(11)
(12)
其中C为类别数。
Accuracy 我们采用了Zhang等 [12] 提出的平衡精度,与以往的accuracy计算有所区别,我们充分考虑了样本数据中的不平衡性,使得最终的预测更符合实际结果,具体计算公式如下:
(13)
其中Np和Nn为阳性阴性样本数。
Subset Accuracy 由于我们的sub-relation类为主观感知的,分类标准更加严格细致,要求预测的标签集与样本真实标签集完全匹配,避免标签集中相似的标签干扰最终的预测,其具体公式如下:
(14)
4.3. 消融实验
这里我们探究了我们对尺度图模型中不同模块的效果,实验结果如表2所示。从结果中我们发现,MSGRM的整体准确率要高于GCN,这表明多尺度感受野能够从长期和短期范围捕捉到有用的特征。此外,在有Attention模块辅助下的实验结果要高于没有Attention模块的结果,这说明注意力模块可以关注与社会关系识别相关的关键帧。

Table 2. The effect of different feature module
表2. 不同功能模块的效果
4.4. 与当前主流方法对比
为了验证所提出的多尺度图推理模型框架的有效性,我们在SRIV数据集上与几种最先进的方法进行了比较,实验结果如表3、表4所示。具体方法如下:

Table 3. Performance of different methods on sub-relation class
表3. Sub-relation类上不同方法的性能

Table 4. Performance of different methods on Obj-relation class
表4. Obj-relation类上不同方法的性能
C3D [39]:提出了一种基于3D卷积的网络结构,该网络结构在视频特征提取中具有良好的性能。
LSTM [39]:基本的LSTM模型是一种流行的序列建模技术,具有各种改进。
TSN [16]:TSN是一种典型的双流CNN网络,在许多视频分类数据集上都取得了最先进的性能。
Multi-stream [8]:使用代表社会关系的多个特征来提高识别性能。
STMV [35]:基于多视角(即RGB,光流和面部)的融合模型,使用多个注意力单元来学习时空信息以进行社会关系理解。
TSM [41]:将语义对象提取、上下文交互和注意机制相结合的模型。
ASRN [42]:一种端到端的可训练模型,融合了多角度特征,如图像、运动、身体、人脸。
MSGRM (Ours):这是我们所提出的多尺度图推理模型,它采用MSGCN学习场景中人物的多尺度动态,并融合了场景的时空注意力,实现社会关系推理。
表3和4显示了我们的模型与最先进的方法比较的结果。我们的MSGRM达到了比较领先的性能。这是因为通过不同尺度的图模型,学习了场景中不同感受野的信息,提取了视频中的关键序列特征,最后融合我们的时空注意力,促进了我们的社会关系识别。C3D、LSTM和TSN的性能很差,这表明这些方法虽然可以更好地描述视频的其他一些特征,但却无法提取社会关系的正确表示。Multi-stream和STMV都只关注视频的时空特征,因此很难获得更好的性能。TSM和ASRN因为融合了场景中的各个角度的特征,这些特征很大程度上能表示场景的社会关系,所以性能有很大提升。
4.5. 实例可视化
注意力机制能为我们的多尺度图推理模型推理出最相关的上下文语义对象,如图4给出一些实例。图中左边为我们的原始采样帧,中间为我们的注意力机制生成的一系列热图,右边为我们的热图所对象的语义对象边界框。特征图显示了我们的注意力机制能过准确的捕获场景中重要的语义对象,因此能够进行有效的人–物特征交互,以提升社会关系识别的准确性。

Figure 4. Scene attention visualization example
图4. 场景注意力可视化实例
5. 结束语
在这项工作中,我们提出了一个多尺度图推理模型来解决视频中的社会关系识别问题,并引入特征提取模块以丰富视频中的时空特征表示。具体来说,我们的模型利用MSGCN来探索视频中人物与场景语义之间的交互,并通过不同的时间感受野来学习长期和短期信息。最后融合一种注意力机制,该机制测量场景中每个节点的重要性,以自适应地选择最重要的对象以提高社会关系的性能。在数据集SRIV上进行的大量实验证明,我们提出的多尺度图推理模型取得了优秀的表现。