1. 引言
我国自21世纪进入老龄化社会以来,社会生育率逐年下降。随着社会福利、医疗技术和卫生水平的提升,老年人的平均寿命在不断延长。这也加剧了老龄化社会的问题,年轻人忙于工作和学业,不能随时照看老人。养老系统目前存在人力短缺的情况,科技的发展给养老问题带来了新的解决思路。异常行为识别技术可以监护老年人的日常生活 [1] ,一旦识别出老年人有异常行为,例如出现摔倒、发病等异常情况 [2] ,立即发出警报,提醒监护人员快速采取有效措施,避免不必要的伤害 [3] 。因此,老年人异常行为识别成为当前研究热点。
老年人异常行为识别根据关键技术不同,可分为三类 [4] :基于穿戴式设备 [5] 、基于环境传感器 [6] [7] [8] 和基于计算机视觉 [9] [10] 。前两种存在影响老年人正常生活、设备条件要求高的问题,基于计算机视觉的老年人异常行为识别不会影响老年人的正常生活,并且对环境和设备要求较低,不用另外安装传感器等设备。但是基于计算机视觉的老年人异常行为识别领域存在相关公开数据集稀缺的情况。由于视频涉及隐私、收集成本高等原因,无法像其他行为识别一样用大量的数据训练模型。此外,由于对异常行为的界定及判别方法与场景因素紧密相关 [11] ,因此需要收集针对老年人日常生活场景相关的异常行为数据,才能更好的识别。目前的老年人异常行为识别技术大多是基于统计模型的方法,即人体序列的排列组合情况及各个时间点信息进行训练和分类。常见的方法有模板匹配法、距离分类法、状态空间法和状态统计法 [12] ,但是这些方法都是建立在大量数据基础上,针对识别数据稀缺的异常行为类别的情况表现不佳。小样本学习旨在解决样本量小的识别任务,它的提出基于对人类学习思维的模仿 [13] ,主要通过训练模型识别事物的异同来将其归类 [14] ,用在老年人异常行为领域,可以提高识别效率。针对以上问题,本文首先收集老年人异常行为数据,建立需要关注的老年人异常行为数据集,其次引入小样本学习来对老年人异常行为进行识别。
2. 相关工作
2.1. 老年人异常行为数据集
老年人身体状况与年轻人有较大差异,需要重点关注的行为类别也与平时的行为识别数据集所包含的不同。目前,针对家居场景下的老年人异常行为的数据集还未发现。相关公开数据集有,但相关系数较小。例如跌倒检测数据集、异常行为数据集。跌倒检测数据集包括 the UR fall detection dataset (URFD) [15] 、the fall detection dataset (FDD) [16] 等,但是只包含跌倒一个动作。异常行为数据集如UMN (University of Minnesota)数据库 [17] ,所包含的动作类与老年人无关。
2.2. 老年人异常行为识别
老年人异常行为识别受到计算机视觉领域研究人员的关注和探索。利用老人房间内的摄像头采集的视频数据,从图像序列中提取行为特征,实现对行为的分类并判断是否有异常行为发生。而在研究中收集各种可能异常的数据或者大量带标签的异常实例是极困难的。针对这种情况,无监督设置假设只有正常的训练数据,Luo [18] 等人提出了一种基于时间相干稀疏编码的方法,该方法可以映射到堆叠的RNN框架;弱监督设置可以访问带有视频级标签的视频。Hui Lv [19] 等人针对异常检测中的噪声干扰和定位引导缺失提出了一种弱监督异常定位方法,提出的一种高阶上下文编码模型,不仅可以提取语义表示,还可以测量动态变化,从而有效地利用时间上下文。相对无监督学习及弱监督学习,对于老年人异常行为存在的数据少、个性化强等特点,本文采用小样本学习方法进行识别。
3. 本文方法
3.1. 问题定义
在小样本动作识别中,需要分类的视频称为查询视频,小样本学习的一个任务就是将一个不带标签的查询视频划分为几个类中的具体类别,每个类都由少量在训练中未见过的有标签的样本组成,称为支持集。每个任务视为一个N-way K-shot分类问题。N-way K-shot是指支持集包含N个类别,每个类别包含K个有标签的支持集样本。每个任务的数据由支持集S和查询集Q组成,大多数文献中,
是一个F = 8均匀采样的帧样本集合。S = {Sc},
,是包含N个类的支持集,第c类第i个视频表示为
。为了方便比较,N设置为5,K设置为5。
3.2. 异常行为识别网络
TRX [20] 是一种先进的小样本行为识别方法,在支持集中的查询和视频之间寻找时间对应的帧元组。它使用ResNet [21] 网络作为嵌入网络提取特征,该网络所包含的Residual Network结构,能使网络的学习能力随着网络深度的增加而增加;使用CrossTransformers [22] 注意机制来构建类原型来观察所有支持视频的相关子序列,而不是使用类平均值或单个最佳匹配。TRX结合Resnet50和CrossTransformers实现了高效的小样本行为识别,但是TRX中的CrossTransformers对于时间的建模仅限于采样帧的重排,而没有提取帧维度上新的语义信息,本文在TRX的基础上进行改进,引入通道注意力 [23] 学习帧维度上的时间语义信息,以及patch级富集模块学习patch级空间信息。
本文使用Resnet50作为嵌入网络,结合patch级特征富集模块和通道注意力模块提取空间和时间信息进行老年人异常行为的识别。具体模型及流程如图1,将稀疏采样的视频帧
输入嵌入网络后,经过patch级富集模块获取不同patch级的空间上下文信息,输出patch级空间特征,提升帧中的动作相关场景人物等上下文的聚合。patch级富集模块包含两个不同patch大小的提取器,分别提取不同patch级特征I12*D、I22*D,然后将其堆叠展平得到
。将Mi进行空间平均得到Z以聚合patch级信息。随后将patch级富集特征输入通道注意力模块,分别经过平均池化和最大池化,进行视频级特征压缩,提取通道注意力权重。再利用一个双层MLP
对中间特征进行细化,公式如下
(1)
最后使用CrossTransformers注意机制来构建类原型,它通过时间建模观察所有支持视频的相关子序列,以此输出异常行为预测结果。
4. 实验结果与分析
4.1. 数据集
本文针对老年人需要关注异常行为类别,确定了12个需要关注的老年人异常行为类别。并收集了相关的视频数据。其中包括打喷嚏/咳嗽、走路摇晃、摔倒、头痛、胸痛、背痛、颈部疼痛、恶心/呕吐、给自己扇风、打哈欠、伸展身体、擦鼻子。数据主要来源于 [24] [15] 。所有视频都是室内场景。每个异常行为类别的视频数量均在900~1000范围内。图2显示了其中异常行为的例子,a是摔倒,b是胸痛。

Figure 3. TRX training accuracy line chart
图3. TRX训练准确率折线图

Figure 4. RAAE training accuracy line chart
图4. RAAE模型训练准确率折线图
4.2. 实验设置
本文采用小样本学习的episodes训练策略来训练模型。在5-way 5-shot的基准上评估本文方法,并且记录了在测试集上1000个随机任务的平均结果。视频在输入网络之前先进行提取关键帧和缩放的处理。提取关键帧采用F = 8的均匀采样方式。缩放大小为256*256。模型训练时,对数据进行随机水平翻转和224*224的中心裁剪的数据增广处理。测试时,只有中心裁剪。使用学习率为0.0001的SGD优化器,训练至少15,000个任务。实验环境为:在一个NVIDIA RTX A40GPU上训练。
4.3. 实验结果
首先通过9个异常行为类别的数据来对原始的TRX模型进行训练,训练了16,000个episodes,然后用1000个测试样本集对网络模型的识别率进行了验证。最终的准确率变化曲线如图3所示。
TRX模型准确率的折线图显示,随着训练过程中episodes数的不断增加,准确率整体呈现不断上升的趋势,在14,000个episodes时准确率为55%并不再上升。episodes数在0~10,000之间准确率上升的速度较快,在10,000~14,000个episodes之间准确率上升曲线变得平缓。最终TRX的测试准确率为55.7%。
使用相同的训练设置和数据对改进之后的RAAE模型进行训练和测试,最终的准确率折线图如图4所示。
根据图4模型训练准确率折线图可以看出,随着episodes个数的不断增加,异常行为识别训练准确率不断上升,准确率折线图形似指数曲线。在5000个episodes之前训练准确率上升比较快,从约20%上升到约60%,5000个episodes之后,训练准确率上升趋势逐渐趋于平稳。15000个episodes之后,训练准确率基本平稳,不再上升。最终的训练准确率为80%,此时的测试准确率达到了60.4%。与TRX相比,准确率有了进一步的提高。此外,观察两图,RAAE训练准确率变化更平缓,波动更小,这说明本文模型更稳定,训练前期准确率的快速增长也说明RAAE模型学习效率更高,能在短时间内学习更多特征。

Table 1. Comparison table of detection accuracy of different models
表1. 不同模型检测准确率对比表
TRX与RAAE之间的测试准确率对比如表1所示,可以看出,本文模型RAAE对TRX的识别率进行的改进非常有效,这都归功于RAAE对于空间信息和帧间信息的利用,使其得到了4.7%的提升。
5. 结束语
针对老年人异常行为数据稀缺的现状,本文先是收集了老年人异常行为相关数据集,其中包括头痛、胸痛、摔倒等亟需关注的老年人异常行为。随后介绍了TRX模型,针对TRX中时间建模中没有产生新的时间语义信息的问题,提出了使用通道注意力模块学习帧间时间语义信息的方法,并且结合patch级富集模块学习patch级空间信息,设计了老年人异常行为识别网络RAAE。实验结果表明,本文模型RAAE对老人异常行为识别的准确率高达60.4%,准确率相对TRX得到了明显的提升,能有效的识别老年人异常行为。