摘要
车体表面损伤检测是计算机视觉中的经典问题。车体表面损伤检测的主要瓶颈在于图像中损伤实例的不同尺度影响了分割的精度与效率。本文采用单阶段语义分割网络(YOLAC
车体表面损伤检测可以用于车辆损害评估。传统车辆修复主要依赖于人工识别,在面对车辆轻微的划痕、裂缝或部分形变等车体表面的损伤时,完整检测的难度较大、效率较低。本文研究一种更为高效的车体表面损伤检测分割算法,能够大量应用到汽车车体表面美容、维修、车辆保养和车辆鉴定等涉及车体表面检测与识别方面的应用。
在物体目标图像识别领域,基于卷积神经网络的目标检测已经超越传统目标检测方法, 成为当前目标检测的主流方法。单阶段目标检测将提取和检测合二为一,直接得到物体检测的结果,提高算法的效率,如YOLO、SSD等算法。而现有的实例分割算法,如:Fast⁃RCNN、Mask⁃RCNN等采用多阶段语义分割网络提高分割精度,但在实际车体表面损伤检测过程中,由于视角、遮挡和姿态等因素导致算法可用性受限。因此设计高准确率、高效率的车体表面损伤检测分割算法具有重大意义。
近年来,随着实例分割算法的不断推出,已有诸多研究将深度学习算法迁移至车辆检测领域中。Chen
在实际场景下的车体表面损伤检测过程中,所拍摄的多数相关图像存在背景复杂、车体表面形状差异较小以及拍摄角度造成相似度高等问题,因此在进行损伤检测时,传统的模型仍存在以下两方面问题:(1)效率较低,对于实际场景下的应用带来了诸多的不便;(2)目标查准率相对较低,检测效果较差。为了解决上述问题,本文提出了一种基于YOLAC
2019年Bolya
YOLAC
YOLAC
YOLAC
(1) |
式中:Lclass、Lbox和Lmask分别为分类损失函数、预测框损失函数和掩膜生成损失函数,其中掩膜生成损失函数由通过取得目标原型Mask与相对应的原型Mask系数相乘,加入非线性激励函数后,YOLAC
(2) |
式中:pi为通过预测的Mask值;为原数据集中标注的Mask值(实际的Mask值)。生成 Mask的损失值通过非线性激励函数sigmoi
(3) |
通过激励函数sigmoid得到Mask的损失值,其sigmoid激励函数为
(4) |
sigmoid函数曲线如

图1 Sigmoid激励函数曲线
Fig.1 Sigmoid activation function curve
本文为解决车体表面的损伤检测的精度和效率问题,提出了一种改进的YOLAC

图2 基于改进YOLAC
Fig.2 Damage detection of car body surface based on improved YOLAC
在对车体表面损伤目标定位的YOLAC
EfficientNe
本算法采用EfficientNet的特性,形成适用YOLAC
(5) |
式中:代表3个阶段对应的层数;代表模型的深度系数;代表层数;代表取整函数。可以通过宽度系数计算出各模型的输入通道数,即
(6) |
式中:代表模型输入通道数; 代表模型的宽度系数; 为EfficientNet⁃B0的输入通道数320,作为一个基线系数。
通过式(
YOLAC
本算法采用交叉熵与范数、范数相结合的梯度计算方式,主要是针对当预测框与ground truth 差别过大时,梯度值不至于过大;当预测框与ground truth 差别很小时,梯度值也能够足够小。针对输入<1的部分使用范数(
计算Loss前必须先设置anchors的正、负样本标定规则,假设anchor对应的预测框与GT的重叠度IoU>0.7,标记为正样本;假设anchor对应的预测框与GT的重叠度IoU<0.3,标记为负样本;余下的样本既不属于正样本也属于负样本,负样本不参与最终训练。
(7) |
(8) |
不妨定义Mask定位的损失函数为,预测平移缩放参数为,真实平移缩放参数为,通过2个参数的比较来评估检测框定位的损失率。
(9) |
在车辆表面的掩膜分类中仍存在两个缺点:首先所有像素在评估损失函数中起着相同的作用,这可能会忽略的特殊位置信息。其次,原损失函数更适合平衡正例/负例的情况,而大多数车辆划痕的数据集可能无法满足此要求。针对上述问题,本算法采用改进的交叉熵损失函数来考虑像素空间位置的影响以及严重的不平衡正负示例的影响。改进Mask的损失率定义为
(10) |
式中:表示预测的第i个锚框是一个目标物体的概率,发现目标时为1,否则为0。为约束系数,当时,0;当时,;当时,,表示第个像素与划痕的欧氏距离,为像素与划痕距离的阈值。为正负样本的比例。
最后通过
(11) |
式中:为对应于正锚点的GT坐标;为预测边界框和GT框的损失函数。Mask的总损失率归一化由smooth_loss、binary_cross_entroy和 (平衡权重)合并得
本节介绍了车体表面损伤目标定位问题的解决方

图3 车体表面损伤目标定位过程
Fig.3 Target location process of vehicle body damage
(1) 图像输入。通过视频采集生成大小为550像素×550像素的车体表面损伤区域图像(
(2) 生成原型掩膜。通过ProtoNet对特征区域进行一系列卷积操作后生成原型掩膜(
(3) 生成原型掩膜系数。通过PedictionHeader对一系列原型掩膜生成对应掩膜系数。
(4) 原型掩膜提取。通过原型掩膜张量与掩膜系数计算出最优的原型掩膜(
(5) 目标分割。结合原型掩膜的目标定位,分割出损伤区域范围。
(6) 生成目标掩膜。在分割出的目标上生成相应的掩膜(
本实验所用数据集是利用爬虫程序从网络上爬取的车辆损伤图片,由于YOLAC
在本实验中训练周期设置为127次,每周期内迭代100步,训练步数通常根据数据集规模大小而定。采用上述改进的YOLAC
基于原算法复杂的主干网络带来的效率问题,本算法对主干网络进行了优化,并对掩膜系数生成、原型掩膜生成以及掩膜生成3个过程中的激励函数进行改进,分别进行训练。首先,在不同主干网的对比实验发现,主干网络的更换提高了整个模型对目标识别平均准确度,在实验中分别采用ResNet101/50、DarkNet53、VGG16、MobileNetV2和EfficientNet等作为模型主干网络进行训练。当主干网络设置为EfficientNet时,有效地降低了YOLAC
3.3节中分析了采用EfficientNet+FPN作为主干网络所带来的模型压缩和训练效率上的优势,但主干网络的更换也使得损失值升高。为解决这一问题,本文采用改进的损失函数降低梯度损失值,提高了检测效果和精度。改进前后的梯度损失值对比如
从
同时,与传统的主干网络相对比,损失函数的改进使得本模型对Mask的梯度损失率的优化效果更为显著,生成梯度损失走势,其对比图如

图4 Mask生成梯度损失率走势对比图
Fig.4 Comparison of trend of gradient loss rate generated by the Mask
另外,在训练中将主干网络VGG16、MobileNetV2和EfficientNet⁃B0分别与MaskIOU⁃Net生成的方法相结合,并对训练结果的mAP进行对比,比较结果见
由
从数据集中提取了1 000张图像作为测试集,将本算法与其他方法的多组对照实验结果进行比较。评估指标主要包括查准率(Precision)以及召回率(Recall),利用这两个指标来衡量模型对车体表面损伤目标定位效果,表达式为
(12) |
(13) |
式中:TP 代表被期望为正样本的,实际识别也为正样本;FP 代表期望为正样本,但实际识别为负样本。 TP取准确定位出车体表面损伤目标的图像数,FP取没有定位出车体表面损伤目标或定位出部分车体表面损伤目标的图像数,FN取完全没有定位出车体表面损伤目标,通常采用测试精度低于某个比较低阈值的图像数。
当阈值取0.80时,TP为识别率≥0.80的数量,FP为0.75≤识别率≤0.8的数量,FN为识别率<0.75的数量;当阈值取0.75时,TP为识别率≥0.75的数量,FP为0.70≤识别率≤0.75的数量,FN为识别率<0.70的数量;根据以上取值范围,对改进前后的方法进行测试,实验采用低于0.75测试精度的作为FN,

图5 不同方法测试查准率对比
Fig.5 Comparison of test accuracy of different methods
从
通过与现有的实例分割模型的实时性和准确性对比可知,本算法不仅可以获得较高的查准率,同时也降低了模型的响应延迟,保持了实时性,如

图6 不同模型实时性参数对比
Fig.6 Comparison of real-time parameters for different models
针对实际场景中车体表面损伤的目标检测效率与精度问题,本文改进YOLAC
参考文献
Chen R C. Automatic license plate recognition via sliding-window darknet-YOLO deep learning[J]. Image and Vision Computing,2019, 87: 47-56. [百度学术]
Hu B, Lai J H, Guo C C. Location-aware fine-grained vehicle type recognition using multi-task deep networks[J]. Neurocomputing,2017, 243: 60-68. [百度学术]
吴迪,蔡晓东,华娜,等.基于HOG和SVM的级别自适应车型识别算法[J].桂林电子科技大学学报,2016,36(1): 23-28. [百度学术]
Wu Di, Cai Xiaodong, Hua Na, et al. Level adaptive vehicle recognition algorithm based on HOG and SVM[J]. Journal of Guilin University of Electronic Science and Technology, 2016,36(1): 23-28. [百度学术]
Zaarane A, Slimani I, Hamdoun A, et al. Real-time vehicle detection using cross-correlation and 2D-DWT for feature extraction[J]. Journal of Electrical and Computer Engineering, 2019(1): 1-9. [百度学术]
王威,李青,孙叶青,等.基于卷积神经网络的红外热成像罐车内壁裂纹识[J].红外技术,2018,40(12): 1198-1205. [百度学术]
Wang Wei, Li Qing, Sun Yeqing, et al. Identification of cracks on the inner wall of tank car by infrared thermal imaging based on convolution neural network[J]. Infrared Technology, 2018,40 (12): 1198-1205. [百度学术]
苏欣欣,蒋行国,蔡晓东.基于局部特征的车辆二次识别方法[J].桂林电子科技大学学报,2018,38(6): 469-475. [百度学术]
Su Xinxin, Jiang Xingguo, Cai Xiaodong. Vehicle secondary recognition method based on local features[J]. Journal of Guilin University of Electronic Science and Technology, 2018,38(6): 469-475. [百度学术]
Lu S, Wang B, Wang H, et al. A real-time object detection algorithm for video[J]. Computers & Electrical Engineering, 2019, 77: 398-408. [百度学术]
叶玉婷,王文鼐.基于侧面轮廓的实时车型分类系统[J].微型机与应用,2016,35(10): 50-51,54. [百度学术]
Ye Yuting, Wang Wennai. Real-time vehicle classification system based on side profile[J]. Microcomputer and Application, 2016,35(10): 50-51,54. [百度学术]
Jamtsho Y,Riyamongkol P,Waranusast R. Real-time Bhutanese license plate localization using YOLO[J]. ICT Express, 2019, 6(2): 121-124. [百度学术]
Zhang Q, Zhuo L, Li J, et al. Vehicle color recognition using multiple-layer feature representations of lightweight convolutional neural network[J]. Signal Processing,2018, 147: 146-153. [百度学术]
Fu H, Ma H, Wang G, et al. MCFF-CNN: Multiscale comprehensive feature fusion convolutional neural network for vehicle color recognition based on residual learning[J]. Neurocomputing, 2020, 395: 178-187. [百度学术]
Huynh T C, Park J H, Jung H J, et al. Quasi-autonomous bolt-loosening detection method using vision-based deep learning and image processing[J]. Automation in Construction,2019, 105: 102844. [百度学术]
Bolya D, Zhou C, Xiao F, et al. YOLACT: Real-time instance segmentation[C]//Proceedings of the IEEE International Conference on Computer Vision. Davis, California: IEEE, 2019: 9157-9166. [百度学术]
Bolya D, Zhou C, Xiao F, et al. YOLACT++: Better real-time instance segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 99: 1. [百度学术]
Pretorius A M, Barnard E, Davel M H. ReLU and sigmoidal activation functions[C]//Proceedings of South African Forum for Artificial Intelligence Research (FAIR2019). South Africa: North-West University, 2019: 37-48. [百度学术]
Tan M, Le Q V. Efficientnet: Rethinking model scaling for convolutional neural networks[EB/OL]. (2019-05-28)[2020-09-11]. https://arXiv.org/abs/1905.11946V1. [百度学术]
Park S, Shin Y G, Ko S J. Contrast enhancement using sensitivity model-based sigmoid function[J]. IEEE Access,2019,7: 161573-161583. [百度学术]
Shaodan L, Chen F, Zhide C. A ship target location and mask generation algorithms base on mask RCNN[J]. International Journal of Computational Intelligence Systems,2019, 12(2): 1134-1143. [百度学术]
Lin K W E, Balamurali B T, Koh E, et al. Singing voice separation using a deep convolutional neural network trained by ideal binary mask and cross entropy[J]. Neural Computing and Applications,2020, 32(4): 1037-1050. [百度学术]
Zhang Q, Chang X, Bian S B. Vehicle-damage-detection segmentation algorithm based on improved mask RCNN[J]. IEEE Access,2020, 8: 6997-7004. [百度学术]
Bryan C, Russell A T, Kevin P, et al. LabelMe:A database and web-based tool for image annotation[J]. International Journal of Computer Vision,2008, 77(1/2/3): 109. [百度学术]