1. 引言
在移动机器人、机器视觉等研究领域,视觉场景的三维空间中物体的平移和深度运动是最基本的二种运动模式。从动态变化和视觉杂乱的环境中快速、稳健地提取物体(目标)深度运动的强度和方向信息,是移动机器人、自动驾驶等视觉系统跟踪目标和避障避碰的关键,也是计算机视觉技术的难点。自然界中昆虫复眼视觉运动感知的高适应性和高可靠性是一种自然特性,当今,模拟复眼视神经过程已成为研究设计人工运动感知视觉系统的重要模型范式 [1] - [6],也为物体深度运动及方向检测与估计提供了一种非线性信号处理的新思路。
近几十年来,随着对蝗虫视叶神经纤维网中小叶巨型运动检测器(lobula giant movement detector, LGMD)系统能够在复杂环境中对突现的视觉刺激做出反应的研究进展,LGMD一类神经元对于检测物体运动以及碰撞显著性响应的神经计算机理越来越清晰,许多学者提出了一些阐明LGMD神经元活动过程的人工神经网络计算模型 [3] [7] [8] [9] [10] [11]。如,Rind等基于蝗虫视觉系统中LGMD神经元的功能特性提出了一种碰撞检测模型。Blanchard等评估了昆虫LGMD系统在现实环境中的行为,扩展了基于LGMD的神经网络模型,并对障碍物检测的健壮性进行了仿真验证。Fu和Yue等基于蝗虫视叶系统存在两个不同的LGMD1和LGMD2的昆虫生理学发现,提出了一种基于LGMD2的碰撞识别模型,并在微型移动机器人上做了实时测试验证。Fu和Rind等基于果蝇将运动信息分开、在并行的ON和OFF通路上处理的视觉机理,以及蝗虫视觉神经生理学新发现,提出了一种新的碰撞检测神经网络模型,类似于LGMD2神经元的碰撞选择性,通过建立不对称处理的ON/OFF通路,即相对于OFF通路在ON通路中设置更强的侧抑制,使得该模型对较暗的物体有特定的选择性反应。Jayachandran等开发了一种纳米级碰撞检测器芯片,能够模拟LGMD神经元系统的逃逸反应。与灵长类动物的视觉系统建模相比,昆虫视觉过程使用相对简单的结构和少量神经元的简约计算范式,具有轻量级计算和低功率的特点,上述的这些人工LGMD神经网络模型,已在移动机器人、自动驾驶等领域得到初步的碰撞检测试验验证。但是,已有的基于LGMD神经元的碰撞检测模型,仅对逐渐靠近的运动物体有显著性响应,而对远离的物体无响应,即不能够同时检测物体运动的远离和靠近。本文研究物体深度运动的远离和靠近二种典型类型的方向检测与估计,探索研究独立于背景建模、先验信息以及不依赖于大量可信样本数据训练隐式模型的仿生检测算法,采用物体运动的缩放变量计算与基于LGMD的改进型碰撞检测模型相结合的策略,提出一种基于LGMD建模的物体深度运动方向估计方法(简称LGMD-ED),以弥补现有的人工LGMD神经网络模型在对于物体深度运动方向检测与估计方面的不足。
本文其余部分的内容组织如下:第2节介绍了所提出的LGMD-ED模型以及计算公式,第3节介绍了仿真实验设计以及分析说明了实验测试结果。第4节对本文进行总结。
2. LGMD-ED建模
昆虫复眼由若干小眼(ommatidium)成簇排列而成,场景光场被不同小眼中的R1~R8视网膜细胞(也称感光细胞)所感受,并产生各像点物像的光电转换响应,来自不同小眼的各像点物像在复眼视网膜上镶嵌聚集,形成整个视野。感光细胞发送传像信号通向脑两侧的薄板(lamina),与下游髓质(medulla)、小叶(lobula)和小叶板(lobula plate)神经节层连续依次相连,最后到达中央脑(central brain)的各个脑结构 [1] [12]。形成复眼视觉信息加工处理的神经通路。由薄板、髓质、小叶和小叶板组成的多层神经纤维网结构,称为视叶(optic lobe),视叶是把复眼的感光部和蝇脑联系起来的复杂神经网络。复眼光学系统和神经元线路结构遵循神经叠加原理,视叶的每层神经纤维网是对应于每个小眼六角形晶格的柱状组件重复排列。视叶的柱状组织结构是从果蝇视野中每一个像素所对应的薄板层的每一个柱状组件开始,直接接受来自小眼视网膜细胞的投射,形成一个单一的柱状视觉单元,即所谓薄板弹药筒(laminar cartridges)结构形式。薄板单极细胞(lamina monopolar cells, LMCs)将运动视觉信息分解成两条平行的ON和OFF通道,分别向下游层髓质传递。每个弹药筒的输出将信号投射到第二层髓质神经纤维网对应的柱状组件上,每个髓质组件称为髓质柱(medulla columns),这些髓质柱依次将神经分布连接到正下游的小叶和小叶板神经纤维网 [13] [14] [15] [16] [17]。
借鉴生物学近年来新的研究成果,包括,对于昆虫视觉系统中有关ON和OFF信号通道(亮色通道和暗色通道)的揭示,小叶板层LPTCs (lobula plate tangential cells)中一类STMD (small target motion detector)和FD (figure detection)神经元对于目标大小(尺寸)及边缘和纹理、运动强度和方向等选择性反应的神经计算机理,以及蝗虫的LGMD系统有选择地对接近它们的物体做出反应等,在此基础上建立基于LGMD的物体深度运动方向估计模型,LGMD-ED模型框架如图1示意。建模的基本思想是,借助帧间差分方法计算视频相邻帧之间运动物体的膨胀或收缩变化量来区分静止和运动的物体,再结合基于LGMD的改进型碰撞检测模型完成对物体深度运动方向的估计 [6] [18]。LGMD-ED建模分为连续的五个环节,包括彩色视频转换及高斯平滑处理、初级视觉滤波、物体运动的缩放变量计算、基于LGMD的碰撞检测、融合计算等环节。
1) 彩色视频转换及高斯平滑处理。考虑到昆虫复眼较低的分辨率,首先将采集的彩色视频图像转换成灰度视频图像,然后采用高斯平滑方式进行处理,模拟昆虫视网膜的视觉效果。
2) 初级视觉滤波。视网膜层的每个感光细胞P感知到外部亮度信息的变化,即像素点灰度值的变化,产生膜电位:
(1)
(2)
其中,
代表像素点坐标,
表示t时刻像素点的灰度值,
为前
帧遗留的信号影响,
为持续影响的帧数[0, 2],
为衰减系数。
模拟薄板层单极细胞LMCs,对小眼视网膜层感知的信号能够选择性地调节信号强度和频率分布,以及相近神经元彼此之间所具有的中心–周围对抗(centre-surrounding antagonism)的互抑制效应 [3] [18] [19]。通过高斯差分形式去除冗余的背景运动,提高目标运动细节的视锐度。设
表示坐标
处所对应的神经元在t时刻的输出,基于中心–周围对抗的互抑制可由下式解析:
(3)
式中,
代表中心正高斯的兴奋信号,
代表周围负高斯的抑制信号。
3) 物体运动的缩放变量计算。深度运动时,物体图像尺寸(图像边缘包围的面积)大小必定会变化,即靠近时物体图像尺寸增大,静止或远离时图像尺寸不变或减小。将深度运动的物体图像大小变化量定义为膨胀(放大)/收缩(缩小)变量,即缩放变量(zoom variable),采用帧间差分后求和后的值取绝对值方式,作为物体图像大小的缩放变化量,并依此来判断物体是否做了远离和靠近的深度运动,取绝对值是保证对于亮/暗物体均能够做出深度运动的正确判断。首先,通过帧间差分方法得到目标的运动边缘信息,设表像素点坐标,
表示t时刻的
像素点灰度值:
(4)
通过均值滤波,去除孤立噪声点,提高对运动物体边缘的提取,并以线性求和的方式计算运动物体的膨胀或收缩量,按照下式计算:
(5)
目标的缩放变化量被激活函数激活,定义为:
(6)
其中,k是比例系数,取值[0, 1],C和R分别代表矩阵的行数和列数,将
作为函数的输入x,
为模型的输出属于[−1, 1]。
4) 基于LGMD的碰撞检测。基于LGMD的改进型碰撞检测,是基于薄板单极细胞LMCs将运动视觉信息分解成两条平行的ON和OFF通道的生物学新发现 [9] [12] [14] [20],即在薄板LMCs中存在着L1、L5神经元响应亮色增强通道(ON通道)和L2、L3、L4神经元响应亮色衰减通道(OFF通道)。根据半波整流(half-wave rectifying)原理,可将经过中心–周围对抗互抑制作用后的信号
分解为ON和OFF通道信号,即,
(7)
(8)
其中,
和
分别表示亮色的增强/增加和衰减/减少。
来自ON和OFF通道的运动边缘变化信息在小叶复合体层汇聚,小叶复合体整合所有的局部兴奋产生全局膜电位,计算公式如下 [3] [8] [21]。
(9)
(10)
其中,C和R代表二维图像的行和列,
为设置的阈值,
表示小叶复合体中碰撞感知神经元的全局膜电位。最后将全局膜电位为作为输入,代入激活函数
中进行归一化。
5) 融合计算。碰撞检测模型只能检测出靠近的物体,无法区分静止和远离的物体。因此,添加缩放变量计算模块,根据物体图像尺寸大小发生的变化,用于区分静止和远离的物体。将物体运动的缩放变量计算结果和碰撞检测结果相乘可得到物体深度运动方向,即模型的归一化输出值大于0代表物体靠近,小于0代表物体远离,等于0代表无深度运动。
3. 仿真实验与分析
实验1:PPT合成动画视频的实验
借助Microsoft Office PowerPoint (PPT)合成两段动画视频作为测试样本,分别生成白色背景下黑色矩形移动目标(模拟在视野中逐渐变大)的靠近和远离(模拟在视野中逐渐变小)。合成的动画视频帧率为12帧/s,帧尺寸为1280 × 720像素,样本大小为60帧。
图2示意了LGMD-ED模型与之对应目标靠近/远离运动方向的选择性响应曲线图,横坐标代表动画视频帧数,纵坐标代表模型的归一化输出响应,模型的极性代表深度运动方向,靠近时响应值为正,远离时响应为负,目标大约在第9帧起步移动,第50帧后停止移动。模型归一化输出响应的平均值列于表1。可以看出,第10~50帧区间目标为靠近移动,归一化输出响应值平均为+0.93,接近理想值+1。第10~50帧区间目标为远离移动,模型输出平均值为−0.91,接近理想值−1,说明模型对目标靠近和目标远离二种深度运动方向的检测与估计结果与实际情况是相符合的。
(a)
(b)
Figure 2. Model selective response curve for the direction of object’s motion in depth in animated video
图2. 动画视频中目标深度运动方向的模型选择性响应曲线

Table 1. Normalized output value of LGMD-ED model (Experimental test of PPT Composite animation video)
表1. LGMD-ED模型的归一化输出值(PPT合成动画视频的实验测试)
实验2:拍摄真实场景视频的实验
使用摄像机拍摄视频测试样本,视频帧率为30帧/s,视频帧尺寸为960 × 544,视频长度为90帧。路边篮球、草地上的小花球滚动靠近和远离,以及室内玩具车(自带电池)、汽车驶近和驶离的视频代表帧分别示于图3。
(a) 篮球
(b) 小花球
(c) 玩具车
(d) 汽车
Figure 3. Video test samples from the camera
图3. 摄像机拍摄的视频测试样本
考虑到昆虫复眼较低的分辨率,首先将彩色视频转换成灰度视频、高斯平滑处理,模拟昆虫视网膜的视觉效果,然后输入给LGMD-ED模型。实验中,大约从第7、8帧时被测物体开始运动,大约在第84、85帧时运动停止。LGMD-ED模型的方向估计输出结果列于表2。可以看出,模型对靠近和远离二种深度运动方向的检测与估计结果与实际情况是相符合的。值得指出的是,在草地上滚动的小花球,背景是杂乱的,但方向估计仍然是正确的,进一步验证了LGMD-ED模型对于深度运动方向检测的有效性。另外,相比较,较大物体汽车的驶近和驶离,由于地面的糙度和长草的疏密差异原因,小花球的滚动不是匀速的,且有上下方向的小跳跃运动,可能导致物体运动的缩放变量无规律变化,使得在第9帧至85帧区间模型输出值会有波动,取平均后归一化输出平均值略低些。

Table 2. Normalized output value of LGMD-ED model (Experimental test of PPT Composite animation video)
表2. LGMD-ED模型的归一化输出值(真实场景视频的实验测试)
4. 结论
针对移动机器人、自动驾驶等应用场景中物体深度运动的远离和靠近二种典型类型的方向检测与估计,本文所提出的基于LGMD建模的物体深度运动方向估计方法(LGMD-ED),模拟和解析了从复眼视网膜向下游薄板投射感光信号,经昆虫视叶系统非线性信号处理的神经计算过程。与现有的基于LGMD的碰撞检测模型相比,LGMD-ED既能够检测估计物体的靠近,也能够检测估计物体的远离这二种典型类型的运动方向。通过PPT合成动画视频和拍摄真实场景的样本视频进行实验和测试,验证了本文所提新方法对于检测与估计物体深度运动方向的有效性。
基金项目
本文得到国家自然科学基金项目(No.51979085)的资助。
NOTES
*通讯作者。