摘要
光流信息是图像像素的运动表示,现有光流估计方法在应对图像遮挡、大位移和细节呈现等复杂情况时难以保证高精度。为了克服这些难点问题,本文建立一种新型的卷积神经网络模型,通过改进卷积形式和特征融合的方式来提高估计精度。首先,加入调整优化能力更强的可形变卷积,以便于提取相邻帧图像的大位移和细节等空间特征;然后利用基于注意力机制生成特征关联层,将相邻两帧的特征进行融合,以其作为由反卷积和上采样构成的解码部分的输入,旨在克服基于特征匹配等估计光流传统方法精度低的缺点;最后将得到的估计光流通过多网络堆栈的循环优化模型实现最终的光流估计。实验表明,本文网络模型在处理遮挡、大位移和细节呈现等方面的表现优于现有方法。
从Gibson等在1951年首先提出光流的概
以上是前人对解决光流估计难点问题作出的尝试,其中鲜有针对网络特征提取和融合部分的针对性优化,而本文认为对于光流估计方法的关键,就是寻找两幅图像之间的变化和联系,相邻帧图像特征的提取和特征的融合方式很大程度上决定了结果的优劣。因此为了加强网络的学习调整能力,针对性地解决遮挡、大位移和细节呈现等问题,本文做出的主要贡献是:(1)加入可形变卷
目前光流估计方法可分为传统方法和深度学习两大类。在传统方法中,变分法最为主流且国内研究最多。文献[
这些基于卷积神经网络的深度学习光流估计方法,对简单条件下的图像效果尚可,但是应对诸如遮挡、大位移和细节呈现等难点问题时,还有很大的优化空间。本文为了更好地解决此类难题,提出一种基于卷积神经网络的新型光流估计模型,通过对卷积形式和特征融合部分做针对性优化,让网络可以更好地学习邻帧图像间的变化和联系,其在处理遮挡、大位移和细节呈现方面的实验结果优于上述已有方法。
光流估计需要利用图像序列中运动像素的变化以及相邻帧之间的关联性来找到帧间存在的相互关系,从而计算出相邻帧之间物体的运动信息(得到光流图)。因此,本文从相邻帧特征提取和特征融合两方面入手,提出一种基于卷积神经网络的新型光流估计模型。
网络具体流程如

图1 DANet-S结构
Fig.1 DANet-S structure
卷积作为卷积神经网络的核心,其操作是在局部感受野上,将空间上和特征维度上的信息进行聚合的信息聚合体。以往基于深度学习的光流估计方法使用的卷积核多为方形卷积核,其对输入映射的固定位置进行采样,即在一个卷积层中所有的激活单元感受野都是一样的,这种卷积形式限制了网络在图像自适应优化的空间,不利于捕捉运动轮廓的细节,并且对帧之间像素大小位移的适应性差,尤其是大位移情况下需要更大的感受野来捕捉像素的运动。因此本文对网络中的卷积进行了改进,将网络的第1层卷积改为了适应调整能力更强的可形变卷积,希望通过可形变卷积可以更好地捕捉图像物体运动的细节和大位移。
如

图2 卷积结构图
Fig.2 Convolution structure
对于卷积层所输出特征映射的一点,传统的方块卷积核操作原理可以用公式表示为
(1) |
式中:代表该层的输入特征映射或者原始图像;为卷积核所覆盖在的区域;为采样的权重值;则为在所覆盖区域中的遍历。
针对可形变卷积,其增加的偏移量是卷积网络的一部分,可以通过另外一个平行的标准卷积计算得到,进而也可以通过反向传播进行学习,具体过程如

图3 可形变卷积操作
Fig.3 Deformable convolution operation
(2) |
式中即为采样点的偏移量,偏移量作为网络参数的一部分,可以通过网络训练自适应调整得到。其获得方式如下:使用一个与原始卷积平行其大小相同的卷积,其卷积核每个采样点的内部权重参数,作为原始卷积核的对应采样点的偏移量,经过网络训练后得到最优化的采样点偏移量,然后通过该偏移量调整原始卷积采样位置。通过加入这一变量,卷积核采样的位置就从固定的规则格点变成了可通过训练调整的随机位置。
由于学习到的偏移量通常为小数,而小数坐标显然无法在图像上操作,因此采用双线性插值将采样点坐标转换为整数。假设原始采样点坐标为(4,7),偏移量为0.5,对应的坐标点为(4.5,7.5),那么寻找距其最近的4个像素点为(4,7),(4,8),(5,7)和(5,8),对这4点的值进行双线性插值作为(4.5,7.5)的数值。可用公式表示为
(3) |
式中:表示距采样点最近的4个像素点,为输出特征图坐标;代表双线性插值过程。
加上该偏移量的学习之后,可变形卷积核的大小和采样点的位置可以根据当前图像的特征进行自适应的调整,这样就可以更好地获取图片中不同物体的细节,并满足不同大小的位移所需要的感受野。
卷积往往是一个特征升维的过程,特征维度高不仅计算耗时,而且容易导致过拟合,所以卷积后要进行降维。在卷积神经网络中通常使用池化的操作来对特征进行降维,由于前面特征提取部分采用的是可形变卷积,因此这里采用相对应的可形变池化。和可形变卷积相同,可形变池化在其中加入了一个偏移量,偏移量的产生过程与可形变卷积操作过程相同,其作为网络参数的一部分,可以通过网络训练自适应调整得到。偏移量获得方式如下:使用一个与原始池化操作平行独立的卷积,其卷积核每个采样点的内部权重参数,作为原始池化操作的每一个采样点的偏移量,经过网络训练后得到最优化的采样点偏移量,然后通过该偏移量调整原始池化采样点坐标。具体过程如
(4) |

图4 可形变池化操作
Fig.4 Deformable pooling operation
光流估计要寻找相邻帧图像像素的运动状态,所以有了通过前面卷积层操作提取的两个相邻帧的独立特征,还需要将两部分特征融合起来计算出两者的关联性,才能进行反卷积得到高精度的光流图像,但是简单的特征叠加或匹配难以凸显特征间的关联性。文献[
将前面所提两帧特征图叠加,得到一个特征通道数为 ,宽和高为、的融合特征。其每个通道都代表着原始帧的一部分相关信息,但是由于像素点移动的区域和运动状态的不同,各个通道包含的信息利用价值也不同,因此就需要通过网络学习训练找到“重要”的通道,并让这些通道内的信息扮演更重要的角色,与此同时抑制次要特征,避免学习过多无关信息导致光流图像失真。具体流程如

图5 关联层操作
Fig.5 Association layer operation
首先通过全局平均池化将融合的特征在空间维度上进行压缩,全局平均池化可以将中各个通道上的空间信息转化为一个数值,而这个实数具有全局的感受野,表示特征在通道上相应的全局数值分布情况,也可以一定程度上代表该通道的特征属性,这样一个多通道的特征就被转化为长度为通道数的一维向量。具体操作可用公式表示为
(5) |
式中代表融合特征中通道为的二维特征,其在全区域上累加取平均数,最终每个通道得到一个标量,个通道组合成一个长度为的一维向量。该向量后面通过全连接层和激活函数进行学习训练来表示对应通道的重要程度(权重),然后将特征U的每个通道用对应的权重进行加权,即对应通道特征中每个元素与权重分别相乘,然后得到重新标定权重的特征,即
(6) |
式中:向量首先与一个维度为的参数矩阵相乘,即一步全连接层操作,其中为一个固定值,起到减少通道数从而降低计算量的作用;然后再经过一个ReLU(Rectified linear unit)线性整流层,输出维度变化结果;后面再进行一次全连接层操作,与一个维度为的参数矩阵相乘,这里输出的向量长度就变回;最后再经过非线性激活函数,得到长度为的权重向量。
得到了代表各通道重要性的权重向量之后,将其逐通道加权到先前的融合特征上,就完成了对特征的融合重构,即
(7) |
式中:为的第个通道特征;为权重向量的第维权重;为重标定后的第维融合特征,最终融合特征表示为。
加入基于通道注意力机制的特征融合重构部分,将图像的高维映射特征重新分配权重,增强了网络的调整适应能力,有利于捕捉相邻帧间的相关性,使网络能够更好地解决大位移与遮挡问题。
将上面融合后的低分辨率的高维特征转化为光流,所采用的方法是上采样和反卷积。反卷积操作是卷积操作的逆运算,主要功能是放大特征映射,提高图像分辨率,能够让网络更好地学习输入输出关系。上采样则是负责将估计出的小分辨率光流逐步放大,使最终光流分辨率达到要求的精度。这里使用FlowNe
由于可形变卷积和关联层运算比较复杂,且单一的网络结构难以应对复杂多样的图像运动。为了优化最终结果、提升网络性能,本文在后续加入了Warp和网络堆栈的部分,其主要原理是将几个结构、特点不同的网络级联在一起形成一个网络堆栈,使各个子网络输出的光流经过多个网络循环优化再组合在一起,以起到提高光流估计精度的效果。
Warp操作是基于光流信息的原理,计算出子网络光流所描述的运动场与实际运动场之间的差距(损失量),并将这个损失量输入到下级子网络,使下级子网络能够专注于学习这个差距。具体描述为
(8) |
(9) |
设、分别为视频相邻帧,
如

图6 DANet-C结构
Fig.6 DANet-C structure diagram
本文模型在Pytorch 0.4.1框架下构建和训练,Ubuntu版本为18.04,Cuda版本为9.0,显卡型号为NVIDIA GTX1080Ti。网络以监督学习的形式学习训练,平均终点误差作为网络损失函数,来自数据集中Ground truch与估计光流插值后图像两者的对比,因此训练所采用的数据集以及策略将会很大程度上影响网络性能,而且多个网络级联虽然可以有效提高估计精度,但又有以下几个缺点:网络结构复杂庞大,训练速度慢且容易出现过拟合或不收敛的情况;多层级多支流的子网络下行分享信息,不仅导致误差的传递,还会引起损失计算混乱的问题;堆栈网络需要大量的计算成本,在内存较小的设备上容易导致空间不足。
分步训练是一种级联网络常用的训练策略,其思想是通过分批次训练大型网络分割出的各个子网络。首先训练子网络收敛并达到一定的精度要求,然后再将子网络连接后对融合模块(即级联网络最后一层)进行训练微调。由于小型网络的参数量小、所需计算成本低、反向传播和参数更新速度快,因此可以提高网络训练效率,并防止不收敛和过拟合现象发生;训练好的子网络级联后微调,可以固定已训练好的网络层,不破坏相应权重参数,所以有减少误差传递的效果。采用这种策略可以从网络训练的角度优化最终估计结果,因此本文采用分步训练的策略。下面是本文分步训练的具体细节:将数据集分为训练集和测试集,分别对几个子网络进行训练,然后连接在一起对合成模块进行微调。对于网络2,训练的初始学习率设置为=1
为了验证本文网络采用的可形变卷积和基于注意力机制的关联层是否合理有效,本文分别在Flying Chairs和Mpi Sintel两个数据集上分别进行了测试。
本文在两个光流数据集上进行试验。第1个是Flying Chairs数据集,它是一个合成数据集,由22 872个图像对和相应的光流图像组成。图像内容是3D椅子模型在随机的背景前做无规则运动,但椅子和背景只在平面上运动,缺少复杂的运动形式,是光流估计中的基础数据集。使用该数据集是为了检验本文方法应对简单运动时是否有着较高的精度和适应性。第2个是Mpi Sintel数据集,它是由1 064个从电影中采集的动画图像对组成的开源数据集,并分别对图像施加不同的处理效果,分为Clean和Final两部分,其中每对原始图像都有相对应的Ground truth。图像包含运动模糊、多帧分析和非刚性运动等多个光流估计的常见问题,是光流估计领域中最常用的数据集之一。其中包括本文方法所期望解决的遮挡、大位移和细节呈现等问题,因此使用Mpi Sintel数据集来验证本文方法解决上述复杂问题的能力。
本文选取了4个对比网络,包括FlowNet
由于Flying Chairs数据集中的图像物体运动比较简单,为了检测本文网络面对大位移、细节呈现、遮挡等复杂情况下的表现。本文又使用Mpi Sintel这一包含复杂运动的数据集对网络进行了训练和测试。
为了全面验证本文方法的优越性,不仅优于深度学习方法,更比传统变分方法优越。本文在Mpi Sintel数据集上,除上述4种深度学习方法外,又添加了当前具有代表性的变分方法,LDO
从
为了更直观地评估本文模型对具有复杂运动图像的光流估计效果,本文从Mpi Sintel数据集中选取了几个具有典型复杂运动特征的图像对进行展示。

图7 图像光流估计结果对比
Fig.7 Comparison of image optical flow estimation results
为了进一步展示本文方法在细节呈现上效果,

图8 光流图像局部放大对比
Fig.8 Magnification contrast of optical flow image local
本文构建了一个基于可形变卷积和注意力机制的光流估计模型,其通过包括可形变卷积的特征提取部分提取相邻帧的图像空间特征,然后利用基于注意力机制的特征关联层将特征融合重构,再对特征进行反卷积来估计光流,最后通过多网络堆栈对光流循环优化,实现最终的光流估计输出。通过对比本文模型与其他方法的实验结果,显示出本文方法有明显优势,主要表现在面对遮挡、大位移和图像细节呈现等复杂问题上有更高的精度和鲁棒性;证明了可形变卷积和基于注意力机制的关联层在解决此类问题中的重要作用,同时也证明了本文模型的合理性和有效性。未来的工作计划进一步优化网络模型,提升在背景分离等方面的不足,使得该模型能够适用于更多的图像运动。
参考文献
Malcolm N, Gibson J J. The perception of the visual world[J]. Philosophical Review,1951, 60(4): 594. [百度学术]
Lai H Y, Tsai Y H, Chiu W C. Bridging stereo matching and optical flow via spatio-temporal correspondence[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Los Angeles, USA: IEEE, 2019: 1890-1899. [百度学术]
Ren Z, Gallo O, Sun D, et al. A fusion approach for multi-frame optical flow estima-tion[C]//Proceedings of 2019 IEEE Winter Conference on Applications of Computer Vision (WACV). [S.l.]: IEEE, 2019: 2077-2086. [百度学术]
Liu P, King I, Lyu M R, et al. Ddflow: Learning optical flow with unlabeled data di-stillation[C]//Proceedings of the AAAI Conference on Artificial Intelligence. [S.l.]: AAAI, 2019, 33: 8770-8777. [百度学术]
Liu X, Qi C R, Guibas L J. Flownet3D: Learning scene flow in 3D point clouds[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2019: 529-537. [百度学术]
储林臻, 闫钧华, 杭谊青, 等. 基于改进光流法的旋转运动背景下对地运动目标实时检测[J]. 数据采集与处理, 2015, 30(6): 1325-1331. [百度学术]
CHU Linzhen, YAN Junhua, HANG Yiqing, et al. Real time ground moving object detection in rotational[J].Journal of Data Acquisition and Processing, 2015, 30(6): 1325-1331. [百度学术]
魏本征, 尹义龙. 基于局部特征约束的 TEM 图像分割算法[J]. 数据采集与处理, 2018, 33(3): 400-408. [百度学术]
WEI Benzheng, YIN Yilong. Local feature-constraint information based TEM image segmentation algorithm[J].Journal of Data Acquisition and Processing, 2018, 33(3): 400-408 . [百度学术]
刘赏, 董林芳. 人群运动中的视觉显著性研究[J]. 数据采集与处理, 2017, 32(5): 890-897. [百度学术]
LIU Shang, DONG Linfang. Research on visual saliency of crowd movement[J].Journal of Data Acquisition and Processing,2017, 32(5): 890-897. [百度学术]
Wang Y, Yang Y, Yang Z, et al. Occlusion aware unsupervised learning of optical flow[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2018: 4884-4893. [百度学术]
Ilg E, Cicek O, Galesso S, et al. Uncertainty estimates and multi-hypotheses networks for optical flow[C]//Proceedings of the European Conference on Computer Vision (ECCV). Munich, Germany: Springer, 2018: 652-667. [百度学术]
Ilg E, Saikia T, Keuper M, et al. Occlusions, motion and depth boundaries with a generic network for disparity, optical flow or scene flow estimation[C]//Proceedings of the European Conference on Computer Vision (ECCV). Munich, Germany: Springer, 2018: 614-630. [百度学术]
Dai J, Qi H, Xiong Y, et al. Deformable convolutional networks[C]//Proceedings of the IEEE International Conference On Computer Vision. Venice, Italy: IEEE, 2017: 764-773. [百度学术]
Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 7132-7141. [百度学术]
葛利跃, 张聪炫, 陈震, 等. 相互结构引导滤波 TV-L1 变分光流估计[J]. 电子学报, 2019, 47(3): 707-713. [百度学术]
GE Liyue, ZHANG Congxuan, CHEN Zhen, et al. Mutual-structure guided filtering based TV-L1 optical flow estimation[J].Acta Electronica Sinica, 2019, 47(3): 707-713. [百度学术]
张聪炫, 陈震, 熊帆, 等.非刚性稠密匹配大位移运动光流估计[J]. 电子学报, 2019, 47(6): 1316-1323. [百度学术]
ZHANG Congxuan, CHEN Zhen, XIONG Fan, et al. Large displacement motion optical flow estimation with non-rigid dense patch matching [J].Acta Electronica Sinica, 2019, 47(6): 1316-1323. [百度学术]
张子星, 文颖. 基于分层置信度传播的光流估计方法[J]. 计算机系统应用, 2018, 27(9): 25-32. [百度学术]
ZHANG Zixing, Wen Ying. Hierarchical belief propagation for optical flow estimation[J]. Computer Systems and Applications, 2018, 27(9): 25-32. [百度学术]
Dosovitskiy A, Fischer P, Ilg E, et al. Flownet: Learning optical flow with convolutio-nal networks[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 2758-2766. [百度学术]
Ranjan A, Black M J.Opticalflow estimation using a spatial pyramid network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 4161-4170. [百度学术]
Gadot D, Wolf L. PatchBatch: A batch augmented loss for optical flow[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 4236-4245. [百度学术]
Tran D, Bourdev L, Fergus R, et al. Deep end2end voxel2voxel prediction[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. [S.l.]: IEEE, 2016: 17-24. [百度学术]
Ahmadi A, Patras I. Unsupervised convolutional neural networks for motion estimation[C]//Proceedings of 2016 IEEE International Conference on Image Processing (ICIP). [S.l.]: IEEE, 2016: 1629-1633. [百度学术]
Jason J Y, Harley A W, Derpanis K G. Back to basics: Unsupervised learning of optical flow via brightness constancy and motion smoothness[C]//Proceedings of European Conference on Computer Vision. Cham: Springer, 2016: 3-10. [百度学术]
Teney D, Hebert M. Learning to extract motion from videos in convolutional neural networks[C]//Proceedings of Asian Conference on Computer Vision. Cham: Springer, 2016: 412-428. [百度学术]
Thewlis J, Zheng S, Torr P H S, et al. Fully-trainable deep matching[C]//Proceedings of British Machine Vision Conference (BMVC). [S.l.]: BMVC, 2016: 145.1-145.12. [百度学术]
EDDY I L G, MAYER N, SAIKIA T, et al. Flownet 2.0: Evolution of optical flow estimation with deep networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2017: 2462-2470. [百度学术]
Hui T W, Tang X, Change L C. Liteflownet: A lightweight convolutional neural network for optical flow estimation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 8981-8989. [百度学术]
张文, 谭晓阳. 基于 Attention 的弱监督多标号图像分类[J]. 数据采集与处理, 2018, 33(5): 801-808. [百度学术]
ZHANG Wen, TAN Xiaoyang.Weakly supervised multi-label classification based attention mechanism[J]. Journal of Data Acquisition and Processing, 2018, 33(5): 801-808. [百度学术]
Brox T, Malik J. Large displacement optical flow: Descriptor matching in variational motion estimation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 33(3): 500-513. [百度学术]
Weinzaepfel P, Revaud J, Harchaoui Z, et al. DeepFlow: Large displacement optical flow with deep matching[C]//Proceedings of the IEEE International Conference on Computer Vision. [S.l.]: IEEE, 2013: 1385-1392. [百度学术]
Wulff J, Black M J. Efficient sparse-to-dense optical flow estimation using a learned basis and layers[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2015: 120-130. [百度学术]