摘要
自然场景中文本的形状、方向和类别等变化丰富,场景文本检测仍然面临挑战。为了能够更好地将文本与非文本分隔并准确定位自然场景图像中的文本区域,本文提出一种局部与全局双重特征融合的文本检测网络,通过跳跃连接的方式实现多尺度全局特征融合,对恒等残差块进行改进实现局部细粒度特征融合,从而减少特征信息丢失,增强对文本区域特征提取力度,并采用多边形偏移文本域与文本边缘信息相结合的方式准确定位文本区域。为了评估本文方法的有效性,在现有经典数据集ICDAR2015和CTW1500上进行了多组对比实验,实验结果表明在复杂场景下该方法文本检测的性能更加卓越。
文本作为人类沟通的主要媒介之一,经常出现在自然场景图像中,例如商场商标、街道路标、车牌和票据等,文本信息对理解和解析场景内容有极其重要的作用,自然场景文本识
传统的文本检测算法多采用自底向上方式进行文本检测,大致可分为两类:基于连通区域的算法和基于滑动窗口的算法。基于连通区域的文本检测算法多从图像边缘检测开始,根据文本的低级属性(大小、颜色和形状等)形成多个连通区域,然后对连通区域进行处理、合并生成最后的文本框,较为经典的算法有Matas
近年来深度学习技术在目标检测中取得了显著成
本文在PSENet(Resnet‑50
本文提出的自然场景文本检测网络模型LAGNet如

图1 LAGNet网络模型
Fig.1 LAGNet network model
现有经典算法在对文本区域所占比例较小的场景图像中会出现大量的漏检误检情况,本文的网络模型从特征提取模块入手,对ResNet‑50的恒等残差块进行改进,尽可能地保留底层语义信息,以提高对小文本的检测性能。
在Layer 1的恒等残差块中引入密集残差块思想,如

图2 Layer 1恒等残差块结构图
Fig.2 Identity residual block structure diagram of Layer 1
Layer 2和Layer 3的恒等残差块(

图3 Layer 2和Layer 3恒等残差块结构图
Fig.3 Identity residual block structure diagram of Layer 2 and Layer 3
Layer 4的恒等残差块(

图4 Layer 4恒等残差块结构图
Fig.4 Identity residual block structure diagram of Layer 4
注: 本文采用跳跃连接的方式,将Layer 1层提取的特征经过上采样与降采样处理后,通过Add与P5到P2各层特征相融合,同时Layer 2、Layer 3和Layer 4采用同样的方式,将每一层的特征信息均传递给P5到P2,该方式实现多尺度全局特征提取与融合,提高网络特征提取性能。
现有公共数据集中,不仅存在部分紧密衔接的文本图像,而且存在一些遮挡、覆盖等文本图像。最明显的是文本占有比例严重不均衡问题,有些图像中文本占有比例较大,有些图像中文本占有比例较小。如

图5 样本示例图
Fig.5 Sample diagram
现有经典检测算法在进行文本定位时,偏向于

图6 文本区域示例图
Fig.6 Example text area diagram
为计算多边形偏移文本域,本文采用Vatti裁剪算
(1) |
式中:为面积函数,为多边形文本实例,为第个文本偏移域的缩放因子,为周长函数。
缩放因子的计算过程为
(2) |
式中:为超参数最小缩放比例;为获取多边形文本偏移域的数量,本文中。
为了更加直观地展示多边形偏移文本域的生成,如

图7 多边形偏移文本域示意图
Fig.7 Diagram of polygon offset text field
本文采用实例分割方式进行文本检测,因此可以当作二分类任务选择损失函数。目前比较受欢迎的损失函数有很多,如交叉熵损失、焦点损失、Dice系数损失等。Dice系数损失源于二分类任务,经过改进被称为Soft dice损失,改进过程中使用了目标掩码,利用目标掩码的大小归一化损失的效果,使得Soft dice损失很容易从图像中具有较小空间表示的类中学习。而本文损失函数为
(3) |
文本边界框损失主要用来对场景中文本域非文本进行区分,选择Soft dice损失作为初始损失函数(
(4) |
(5) |
式中:为预测文本框的像素点,为真实标签的像素点,为经过OHEM训练得到的掩码值。
多边形偏移文本域损失,本文也采用Soft dice损失,根据偏移文本域中的像素点进行计算,计算过程为
(6) |
像素损失采用的是图像语义分割领域常用的逐像素交叉熵损失,见
(7) |
式中为扩展像素的坐标。
为了测试LAGNet的性能,选取国际文档分析与识别大会(International conference on document analysis and recognition,ICDAR)提供的比赛数据集ICDAR2015,该数据集以英文为主,大部分场景是街区、商场和路标等,复杂的背景加上文本的多样性非常具有挑战性。该数据集共有1 500张图,1 000张训练集,500张测试集,标签是4个坐标点顺时针排布。
为了进一步测试LAGNet在弯曲文本上的性能,选取由Liu
训练模型过程中,没有预训练步骤,直接在ICDAR2015、CTW1500等数据集上从头开始训练,使用一块NVIDIA GTX 1080Ti GPU,反向传播采用的是Ada
深度学习采用Pytorch网络框架,在训练过程中,忽略数据集中的模糊标签,对输入的图片大小归一化处理为640像素×640像素。在测试阶段,参考基础网络PSENet,对于数据集ICDAR2015中的测试图片,大小归一化为2 240像素×2 240像素,最小卷积尺度设为0.4;对于数据集CTW1500中的测试图片,大小归一化为1 280像素×1 280像素,最小卷积尺度设为0.6;分类置信度设为0.9,将大于置信度的像素归为文本像素。
本文对LAGNet网络模型进行训练的时候,使用TensorboardX库对训练集准确率Accuracy与损失(Loss)进行可视化,方便观察网络模型的收敛情况。在常文本数据集ICDAR2015上的训练情况如

图8 ICDAR2015准确率与损失训练曲线图
Fig.8 ICDAR2015 accuracy and loss training curves

图9 CTW1500精确度与损失训练曲线图
Fig.9 CTW1500 accuracy and loss curves
ICDAR2015数据集是非常典型的常文本数据集,数据集中的图片背景极其复杂,包含大量的无关信息还包含多种多样的字体。如

图10 ICDAR2015部分实验结果图
Fig.10 Some experimental results of ICDAR2015
通过
CTW1500是一个典型的弯曲文本数据集,该数据集中存在大量的艺术体、模糊小文本和类似文本干扰等因素。为了验证本文所提方法在自然场景中弯曲文本检测效率,基于CTW1500,本文将LAGNet检测模型与目前经典的文本检测算法在准确率P、召回率和F值3个指标上进行评估分析,并对本文改进模块进行了消融对比实验,分析结果如

图11 CTW1500部分实验结果图
Fig.11 Some experimental results of CTW1500
通过
基于PSENet方法,本文提出自然场景文本检测网络LAGNet‑MGFF,结合FPN结构思想,实现了多尺度特征全局共享,增强了网络的鲁棒性,同时在后处理模块中将多尺度偏移文本域与文本边缘信息相结合,提高对复杂场景下文本的定位准确性。在数据集ICADAR2015和CTW1500上开展的训练与测试表明,在召回率、F值等指标上,本文的检测模型优于基础网络PSENet(Resnet‑50)等方法。
参考文献
王德青, 吾守尔·斯拉木, 许苗苗. 场景文字识别技术研究综述[J]. 计算机工程与应用, 2020, 56(18): 1-15. [百度学术]
WANG Deqing, WUSHOUER·Silamu, XU Miaomiao. Review of research on scene text recognition technology[J]. Computer Engineering and Applications, 2020, 56(18): 1-15. [百度学术]
Matas J, Chum O, Urban M, et al. Robust wide-baseline stereo from maximally stable extremal regions[J]. Image and Vision Computing, 2004, 22(10): 761-767. [百度学术]
Epshtein B, Ofek E, Wexler Y. Detecting text in natural scenes with stroke width transform[C]//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE, 2010: 2963-2970. [百度学术]
Zitnick C L, Dollár P. Edge boxes: Locating object proposals from edges[C]//Proceedings of European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014: 391-405. [百度学术]
李国和, 乔英汉, 吴卫江,等.深度学习及其在计算机视觉领域中的应用[J]. 计算机应用研究, 2019, 36(12): 3521-3529,3564. [百度学术]
Li Guohe, Qiao Yinghan, WU Weijiang, et al. Review of deep learning and its application in computer vision[J]. Application Research of Computers, 2019, 36(12): 3521-3529,3564. [百度学术]
Tian Z, Huang W, He T, et al. Detecting text in natural image with connectionist text proposal network[C]//Proceedings of European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, Cham, 2016: 56-72. [百度学术]
Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6):1137-1149. [百度学术]
Shi B, Bai X, Belongie S. Detecting oriented text in natural images by linking segments[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017: 2550-2558. [百度学术]
Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector[C]// Proceedings of the European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, Cham, 2016: 21-37. [百度学术]
Deng D, Liu H, Li X, et al. Pixellink: Detecting scene text via instance segmentation[C]// Proceedings of the AAAI Conference on Artificial Intelligence. New Orleans, Louisiana, USA: AAAI Press, 2018: 6773–6780. [百度学术]
Long S, Ruan J, Zhang W, et al. Textsnake: A flexible representation for detecting text of arbitrary shapes[C]// Proceedings of the European Conference on Computer Vision. Munich, Germany: Springer, Cham, 2018: 20-36. [百度学术]
Wang W, Xie E, Li X, et al. Shape robust text detection with progressive scale expansion network[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE, 2019: 9336-9345. [百度学术]
He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016: 770-778. [百度学术]
Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017: 2117-2125. [百度学术]
Liu Y, Jin L, Zhang S, et al. Curved scene text detection via transverse and longitudinal sequence connection[J]. Pattern Recognition, 2019, 90:337-345. [百度学术]
Vatti B R . A Generic solution to polygon clipping[J]. Communications of the ACM, 1992, 35(7):56-63. [百度学术]
Shrivastava A, Gupta A, Girshick R. Training region-based object detectors with online hard example mining[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 761-769. [百度学术]
Kingma D P, Ba J. Adam: A method for stochastic optimization[C]//Proceedings of International Conference on Learning Representations. San Diego, CA, USA, 2015:1-15. [百度学术]