摘要
三维人体目标检测在智能安防、机器人、自动驾驶等领域具有重要的应用价值。目前基于雷达与图像数据融合的三维人体目标检测方法主要采用两阶段网络结构,分别完成目标概率较高的候选边界框的选取以及对目标候选框进行分类和边界框回归。目标候选边界框的预先选取使两阶段网络结构的检测准确率和定位精度得到提高,但相对复杂的网络结构导致运算速度受到限制,难以满足实时性要求较高的应用场景。针对以上问题,研究了一种基于改进型RetinaNet的三维人体目标实时检测方法,将主干网络与特征金字塔网络结合用于雷达点云和图像特征的提取,并将两者融合的特征锚框输入到功能网络从而输出三维边界框和目标类别信息。该方法采用单阶段网络结构直接回归目标的类别概率和位置坐标值,并且通过引入聚焦损失函数解决单阶段网络训练过程中存在的正负样本不平衡问题。在KITTI数据集上进行的实验表明,本文方法在三维人体目标检测的平均精度和耗时方面均优于对比算法,可有效实现目标检测的准确性和实时性之间的平衡。
目标检测作为计算机视觉的基础任务之一,其主要目的是在点云或图像序列中精确得出各种目标的类别和位置信
目前,在基于雷达点云与图像数据融合的三维目标检测的研究中,清华大学和百度公司的Chen
针对以上问题,本文研究并设计了一种基于改进型RetinaNet单阶段卷积神经网络的三维人体目标实时检测方法。该网络结构是在RetinaNet这一单阶段二维目标检测网络结构基础上进行改进:将主干网络与特征金字塔网络两条路径相结合,用于点云和图像的特征提取;设置一系列三维锚框并将其投影到特征图上,将投影的二维锚框裁剪为同样大小并进行融合;设计了适合三维目标检测的功能网络以输出三维边界框和类别信息。上述改进可将RetinaNet扩展为三维多传感器融合检测网络,从而提高三维人体目标检测网络的检测性能,同时保持在运算速度方面的优势。
RetinaNet模型主要由FPN结
(1)主干网络包括两条路径的子网络,分别用于点云和图像的特征提取,每条路径采用Resnet网络和FPN结构。
(2)每个锚框由长、宽、高和中心点坐标的六维数组表示,同时采用聚类方法设置锚框的大小。
(3)通过投影方法,利用三维锚框对点云和图像的特征图进行感兴趣区域(Region of interest,ROI)池化和融合。
(4)损失函数中目标分类误差采用聚焦损失函数计算,边界框偏移量回归误差采用L1损失计算,此外,增加了边界框方位回归误差。
本文所设计的三维目标检测网络结构如

图1 改进型RetinaNet网络架构
Fig.1 Improved RetinaNet network architecture
本文基于KITTI数据
本文在主干网络设计中采用Resnet网络结

图2 FPN基本架构
Fig.2 FPN basic architecture
为了提高边界框位置回归的计算效率,本文设置了一定数量的锚框(预先设定的、按一定规则密集排列的边界框),从而通过锚框偏移量确定目标边界框。对于主干网络输出的特征图,首先将三维锚框投影到其中,然后根据投影结果对特征图进行裁剪,得到大量大小相同的特征图二维锚框,从而进一步完成对点云鸟瞰图和图像特征图的ROI池化操作,最后对点云鸟瞰图和图像特征图计算均值进行特征融合。
由于锚框通常不能很好地包围目标,所以需要通过神经网络进行回归,以帮助网络输出更为准确的边界框。在2.4节中将进一步论述将这些融合特征图输入到功能网络中进行最终分类和回归的过程。
本文以KITTI数据集中的行人为检测目标,考虑到检测目标的尺寸差异不大,为了降低不必要的计算复杂度,本文设置了3种尺寸的锚框,锚框由其中心坐标和长度,宽度、高度六个参数表示。其中,和值由点云鸟瞰图中以0.5 m的间隔通过均匀采样获得,值由传感器距离地面的高度和物体高度来计算。锚框的大小通过对数据集中检测目标的标签信息进行聚类来确定。由于雷达点云稀疏会导致许多空锚,对于不包含点云的空锚,根据锚框中点云的总和是否为零来决定是否将其剔除。
为了实现雷达点云和图像的特征融合,需要对特征图进行ROI池化。因此,本文将三维锚框投影到点云鸟瞰图和图像的特征图上,然后对其进行裁剪和尺寸调整。对于三维锚框,点云鸟瞰图上投影区域的左上角和右下角可以表示为和,即
(1) |
将三维锚框投影到图像特征图上的计算过程比较复杂。由于KITTI数据集有许多坐标系,如

图3 多传感器坐标系
Fig.3 Multi‑sensor coordinate system
首先,根据锚框中心坐标、长度、宽度和高度计算出其8个顶点的坐标,k=1,…,8,然后将顶点坐标转换到图像坐标系。其中,从雷达坐标系转换到摄像机坐标系,需要乘以相应的转换矩阵。如果锚框中的顶点设置为M,转换为摄像机坐标系表示为
(2) |
式中转换矩阵由数据集提供。根据成像投影关系,将摄像机坐标系中的点转换为图像坐标系中的点,数学关系式为
(3) |
其矩阵形式为
(4) |
式中f表示摄像机的焦距。利用数学关系式(
(5) |
根据三维锚框投影区域的参数,对特征图进行裁剪,并将其大小调整为4×4,使特征图尺寸相同。采用元素平均法实现多传感器特征图的特征融
在训练阶段,通过计算锚框与真实边界框之间的交并比,对特征融合锚框进行标记,当IoU大于阈值时记录为正样本,反之为负样本。
将特征融合锚框输入到功能网络中进行目标分类和边界框回归。最终的预测边界框通过基于具有相应偏移量的三维锚框得到,与传统的边界框直接回归方法相比,该方法不仅降低了回归的难度,而且边界框定位更准确。功能网络由3个并行的全连接层组成,分别完成分类、边界框偏移量回归和方位回归3个任务。
对于N个特征融合锚框,分类信息包括目标和背景,分类网络的输出维数为2N;对于边界框偏移量回归网络,为了说明锚框和真实边界框之间的中心坐标、长度、宽度和高度的偏移量,回归结果表示为,输出维数为6N。对于边界框方位回归网络,本文采用计算边界框在点云鸟瞰图中投影角向量的方法,输出维数为2N。
为衡量网络模型的三维目标检测性能,本文设计了一个多任务损失函数。用2个平滑L1函数计算边界框偏移量和方位回归的误差,用聚焦损失函数计算目标分类误差。其中,聚焦损失函数通过减小背景样本的权重,可有效解决类别分类不平衡的问题。
(6) |
式中:i表示锚框的索引;表示预测目标类别的概率值;表示标注目标类别信息;正样本和负样本分别标记为1和0;表示边界框的预测结果;表示正样本的边界框的标注信息。等号右侧第1项Lcls表示预测类别与真实类别之间的偏差值;第2项Lreg表示预测边界框位置与真实值之间的偏差,其中Lreg表示该项仅与正样本有关,对于那些具有小于0.5的IoU记录为负样本,标记为0;第3项Lang表示边界框方位角预测值与真实值之间的偏差,其中Lang表示该项仅与正样本有关,对于负样本标记为0。和分别对上述3项进行规范化,超参数λ用于平衡3项之间的权重。
本文在KITTI数据集上对所研究的改进型RetinaNet网络进行训练和测试,将已标注标签的7 481个样本按照3∶1的比例划分为训练集和测试集。根据边界框高度、遮挡程度和截断程度,将样本分为简单、中等、困难3个等级。深度学习计算机的CPU配置为Intel Xeon E5‑2678 V3,GPU配置为2套NVIDIA GeForce RTX 2080 Ti。
图

图4 图像000199三维目标检测可视化结果
Fig.4 Visualization results of 3‑D object detection of image 000199

图5 图像000202三维目标检测可视化结果
Fig.5 Visualization results of 3‑D object detection of image 000202
为验证本文所研究的基于雷达点云和图像数据融合的三维人体目标检测性能,开展了分别以图像(主干网络只保留图像处理分支)和雷达点云(主干网络只保留雷达点云处理分支)作为数据来源对网络进行训练和测试的对比实验。三维目标检测结果用平均精度(Average precision,AP)进行评估,其中IoU阈值设置为0.5,对比结果如
采用图像与雷达点云数据融合作为数据来源,基于不同深度学习模型的三维人体目标检测结果对比如
本文研究了一种基于雷达与图像数据融合的三维人体目标实时检测方法。通过改进现有的RetinaNet,设计了用于三维目标检测的统一体系结构。由于改进型RetinaNet为单阶段卷积神经网络,不涉及区域候选网络,并且通过引入聚焦损失函数减小负样本的权重以解决正负样本不平衡的问题,有效提高了目标检测的实时性和准确性。在KITTI数据集上进行的实验表明,本文方法在行人目标检测的平均精度和时间消耗方面均优于对比算法,适用于依托巡检机器人、高清摄像头与雷达的自主巡检系统。
参考文献
CORDTS M, OMRAN M, RAMOS S, et al. The cityscapes dataset for semantic urban scene understanding[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: WA, 2016: 3213‑3223. [百度学术]
黄健, 张钢. 深度卷积神经网络的目标检测算法综述[J].计算机工程与应用,2020,56(17): 12‑23. [百度学术]
HUANG Jian, ZHANG Gang. Survey of object detection algorithms for deep convolutional neural networks[J]. Computer Engineering and Applications, 2020, 56(17): 12‑23. [百度学术]
张易, 项志宇, 乔程昱, 等. 基于三维点云鸟瞰图的高精度实时目标检测[J].机器人, 2020, 42(2): 148‑156. [百度学术]
ZHANG Yi, XIANG Zhiyu, QIAO Chengyu, et al. High‑precision real‑time object detection based on bird's eye view from 3D point clouds[J]. Robot, 2020, 42(2): 148‑156. [百度学术]
REN S, HE K, GIRSHICK R, et al. Faster R‑CNN: Towards real‑time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137‑1149. [百度学术]
DAI J, LI Y, HE K, et al. R‑FCN: Object detection via region‑based fully convolutional networks[C]//Proceedings of the 30th Conference on Neural Information Processing Systems. Red Hook, NY, USA: Curran Associates Inc, 2016: 379‑387. [百度学术]
陈娟. 城市智能汽车周围环境的时空行为预测算法研究[D]. 成都:电子科技大学,2020. [百度学术]
CHEN Juan. Research on spatial and temporal behavior prediction algorithm of the surrounding environment of urban intelligent vehicle[D]. Chengdu: University of Electronic Science and Technology, 2020. [百度学术]
CHEN X, MA H, WAN J, et al. Multi‑view 3D object detection network for autonomous driving[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). [百度学术]
[S.l.]: IEEE, 2017: 6526‑6534. [百度学术]
KU J, MOZIFIAN M, LEE J, et al. Joint 3D proposal generation and object detection from view aggregation[C]// Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Madrid, Spain: IEEE, 2017: 5750‑5757. [百度学术]
GUSTAFSSON F, LINDER‑NORÉN E. Automotive 3D object detection without target domain annotations[D]. Linköping, Sweden: Linköping University, 2018. [百度学术]
QI C, LIU W, WU C, et al. Frustum PointNets for 3D object detection from RGB‑D data[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. [百度学术]
[S.l.]: IEEE, 2018: 918‑927. [百度学术]
CAO P, CHEN H, ZHANG Y, et al. Multi‑view frustum Pointnet for object detection in autonomous driving[C]//Proceedings of 2019 IEEE International Conference on Image Processing (ICIP). [百度学术]
[S.l.]: IEEE, 2019: 3896‑3899. [百度学术]
万鹏. 基于F‑PointNet的3D点云数据目标检测[J].山东大学学报(工学版),2019,49(5): 98‑104. [百度学术]
WAN Peng. Object detection of 3D point clouds based on F‑PointNet[J].Journal of Shandong University(Engineering Science),2019,49(5): 98‑104. [百度学术]
LIN T, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Honolulu, HI, USA: IEEE, 2017: 936‑944. [百度学术]
LI M, HU Y, ZHAO N, et al. One‑stage multi‑sensor data fusion convolutional neural network for 3D object detection[J]. Sensors, 2019, 19(6): 1434. [百度学术]
周立旺, 潘天翔, 杨泽曦, 等. 多阶段优化的小目标聚焦检测[J].图学学报,2020,41(1): 93‑99. [百度学术]
ZHOU Liwang, PAN Tianxiang, YANG Zexi, et al. FocusNet: Coarse‑to‑fine small object detection network[J].Journal of Graphics, 2020,41(1): 93‑99. [百度学术]
LIN T, GOYAL P, GIRSHICK R, et al. Loss for dense object detection[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 2999‑3007. [百度学术]
GEIGER A, LENZ P, URTASUN R. Are we ready for autonomous driving? The KITTI vision benchmark suite[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR). [S.l.]: IEEE, 2012: 3354‑3361. [百度学术]
蔡强, 李晶, 郝佳云. 基于聚焦损失与残差网络的远程监督关系抽取[J].计算机工程, 2019, 45(12): 166‑170. [百度学术]
CAI Qiang, LI Jing, HAO Jiayun. Distant supervision relation extraction based on focal loss and residual networ[J]. Computer Engineering, 2019, 45(12): 166‑170. [百度学术]
王立鹏, 张智, 苏丽, 等. 基于多特征融合的自适应权重目标分类方法研究[J].华中科技大学学报(自然科学版), 2020, 48(9): 38‑43. [百度学术]
WANG Lipeng, ZHANG Zhi, SU Li, et al. Target classification with adaptive weights based on multi‑feature fusion[J]. Huazhong University of Science & Technology (Natural Science Edition), 2020, 48(9): 38‑43. [百度学术]
KU J, PON A, WALSH S, et al. Improving 3D object detection for pedestrians with virtual multi‑view synthesis orientation estimation[C]//Proceedings of 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Macau, China: IEEE, 2019: 3459‑3466. [百度学术]