图像和视频处理

  • 显示方式:
  • 简洁模式
  • 摘要模式
  • 1  基于GhostNet与注意力机制的行人检测跟踪算法
    王立辉,杨贤昭,刘惠康,黄晶晶
    2022, 37(1):108-121. DOI: 10.16337/j.1004-9037.2022.01.009
    [摘要](511) [HTML](1451) [PDF 4.40 M](2102)
    摘要:
    针对复杂场景下仅依靠传统的目标检测与跟踪算法进行跟踪时准确度低且速度慢的问题,提出一种基于GhostNet与注意力机制结合的行人检测与跟踪算法。首先,将YOLOv3的主干网络替换为GhostNet,保留多尺度预测部分,利用Ghost模块减少深度网络模型参数和计算量,在Ghost模块中融入注意力机制给予重要特征更高的权值。然后,引入目标检测的直接评价指标GIoU来指导回归任务。最后,利用Deep-Sort算法进行跟踪。在公共数据集上实验表明,改进后的模型平均精确度均值(mean Average precision,mAP)达到了92.53%,帧速率是YOLOv3模型的2.5倍;所提算法跟踪准确度优于改进前及其他算法,可以精确有效地跟踪复杂场景下的多目标行人,并具有较强的鲁棒性。
    2  基于SSD深度神经网络的航拍图像电力目标检测
    石鑫,化晨冰,张凯,王才建,王士勇
    2022, 37(1):207-216. DOI: 10.16337/j.1004-9037.2022.01.018
    [摘要](455) [HTML](855) [PDF 2.64 M](2242)
    摘要:
    为了提高农村配电网智能化设计水平,满足配电线杆路径自动规划的需求,本文利用深度神经网络对配电网规划区域航拍图像中的典型电力目标进行识别以实现可行区域的自动筛选。首先利用无人机航拍获得配电网规划区域的高分辨率图像,构建了包含11类、32 118个典型电力目标的数据集。然后通过对Faster-RCNN、YOLO、SSD(Single shot multibox detector)三种网络模型的实用对比,确定采用SSD网络进行典型电力目标的检测与识别,最终给出了配电网线杆规划的可行区域。实验表明,相比于Faster-RCNN与YOLO网络模型,SSD网络模型能够对变电站、配电室、箱变等典型电力目标进行有效的检测与识别,识别准确率为68.5%,达到了实用的要求。本文提出的智能识别方式为电力设计提供了技术支持,降低了配电网设计的人工成本并提高了效率。
    3  基于FPGA的JPEG图像数字水印系统
    陈鑫,石东,张颖
    2022, 37(1):240-246. DOI: 10.16337/j.1004-9037.2022.01.021
    [摘要](567) [HTML](525) [PDF 1.74 M](1808)
    摘要:
    设计了一种基于FPGA的JPEG压缩域数字水印系统,可在JPEG图像中实时嵌入水印信息。在对水印信息作二值化和Arnold置乱预处理后,通过改进的LSB嵌入算法将水印信息嵌入到量化后的DCT系数中,经熵编码后生成JPEG压缩文件,完成JPEG压缩域的数字水印嵌入。最后,采用FPGA开发板和上位机对本文设计进行软硬件联合测试。测试结果验证了本文提出的嵌入算法具有较好的不可见性和鲁棒性,以及较高的数据吞吐率。
    4  基于瞬态图像的非视距成像技术综述
    梁云,宋柏延
    2022, 37(1):21-34. DOI: 10.16337/j.1004-9037.2022.01.002
    [摘要](602) [HTML](1570) [PDF 3.26 M](2753)
    摘要:
    瞬态图像是一种场景对光脉冲进行响应的快速图像序列。通过对时间维度信息的捕获,瞬态图像实现了对时域中蕴藏的场景信息的有效利用,而非视距成像是瞬态图像在场景解析领域中最典型的应用。非视距成像是一种对视线范围外物体或场景进行成像的技术,近几年在国内外广受关注。本文根据不同的成像机理,对瞬态图像的不同成像方式进行分类,并根据算法原理或实现效果的不同,对比了多种基于瞬态图像的非视距成像算法。最后总结了基于瞬态图像的非视距成像技术面临的挑战,并展望了未来的发展方向。
    5  基于多尺度注意力特征与孪生判别的遥感影像变化检测及其抗噪性研究
    杜俊翰,赖健,王雪,谭琨
    2022, 37(1):35-48. DOI: 10.16337/j.1004-9037.2022.01.003
    [摘要](461) [HTML](1437) [PDF 4.94 M](2033)
    摘要:
    遥感影像在实际土地监测中其检测精度会受到影像数据中噪声的影响。为了提升变化检测方法的精度,本文提出了一种结合多尺度特征提取和注意力机制的孪生卷积神经网络的变化检测方法。首先使用含有不同膨胀率的空洞卷积和空间注意力模块组成多尺度特征提取模块;然后将同一卷积层的特征图相减获取前后两时期影像的差异特征图,并使用通道注意力机制增强特征提取效果;最后通过全连接层输出变化检测结果。将本文方法与目前已有的一些变化检测方法在未添加噪声的原始遥感影像数据和添加噪声后的遥感影像数据上进行对比分析。结果表明:(1)支持向量机这类采用单个像素光谱信息作为输入的方法受图像中噪声影响较大,以卷积神经网络为基础的方法受噪声影响较小;(2)本文提出的变化检测方法与其他方法相比检测精度较高且受噪声影响较小,获得了较好的变化检测结果。
    6  基于层级注意力增进网络的多尺寸遮挡人脸检测
    王麟阁,蒋宝军,潘铁军
    2022, 37(1):73-81. DOI: 10.16337/j.1004-9037.2022.01.006
    [摘要](474) [HTML](1332) [PDF 3.28 M](1738)
    摘要:
    在SSD(Single shot multibox detector)单阶段人脸检测模型的基础上,针对复杂局部遮挡下人脸检测精确性差的问题,提出了一种基于层级注意力增进网络的多尺寸遮挡人脸检测方法。首先,在SSD基础网络的多层初始特征图上,通过引入注意力增进机制提升人脸可见区域的响应值。然后为不同增强特征层设计不同尺寸的锚框,以提高对多尺寸遮挡人脸的分层识别效果。最后在训练时将注意力损失函数、分类损失函数和回归损失函数融合为多任务损失函数,共同优化网络参数。在WIDER FACE人脸数据集和MAFA遮挡人脸数据集上的实验表明,本文方法的检测精确性和时效性均优于目前主流遮挡人脸检测方法。
    7  一种基于幂指数拉伸的去雾算法
    李忠国,吴昊宸,付启高,席茜,吴金坤
    2022, 37(1):62-72. DOI: 10.16337/j.1004-9037.2022.01.005
    [摘要](350) [HTML](1280) [PDF 2.75 M](1703)
    摘要:
    比较同一场景无雾和有雾时图像RGB(Red-green-blue)三通道和HSV(Hue-saturation-value)三通道的变化,提出一种基于幂指数拉伸的去雾算法。首先将图像从RGB变换到HSV空间,将饱和度分量和亮度分量分别作1~3的幂指数拉伸和调整,将拉伸变换后分量生成HSV图像再变换到RGB空间,生成增强后的去雾图像。以饱和度均值、亮度指标、信息熵和对比度作为去雾评价的指标,确定最优的拉伸幂指数组合。然后使用最优幂指数完成去雾处理,同时根据图像饱和变化的阈值或时间间隔长度决定是否重新寻找最优拉伸幂指数。最后使用Python软件,借助多进程编程实现本文去雾算法。当图像分辨率为400像素×300像素时,树莓派上运行时幂指数参数寻优用时为5.077~6.160 s,单帧图像去雾用时第1帧时间长为0.308 s,其余时间为0.077~0.168 s,结果验证了本文算法的实时性。
    8  基于特征工程和支持向量机的甲烷预混火焰当量比测量
    陈长友,傅钰雯,涂沛驰,舒文,杨健晟
    2022, 37(1):194-206. DOI: 10.16337/j.1004-9037.2022.01.017
    [摘要](402) [HTML](1421) [PDF 1.35 M](1667)
    摘要:
    利用火焰颜色建模测量火焰当量比是燃烧诊断技术的一个新兴研究方向。目前的建模方法主要利用RGB(Red-green-blue)模型中蓝色/绿色特征(B/G)作为模型输入,但通过单一颜色比值简单拟合得到的颜色-当量比模型存在较大的不确定性及测量误差,因此本文提出利用多颜色模型下的多颜色特征参数作为模型输入。首先,采用数字火焰颜色分布(Digital flame colour distribution, DFCD)技术对采集甲烷燃烧预混火焰图像进行处理并获取火焰图像目标区域(Region of interest, RoI)。其次,综合分析火焰颜色特征变量构建特征工程,设计并提取火焰目标区域的不同颜色模型下的多颜色特征,共计36维火焰颜色特征,利用Spearman秩相关性分析与随机森林(Random forest, RF)算法筛选出表征燃烧当量比更深层的颜色特征,得到16维优质特征子集。最后,通过优化持向量机(Support vector machine,SVM)参数选择,并采用网格搜索方法(Grid search method, GSM)寻求最优参数优化SVM,进一步利用特征工程构建得到的特征子集训练SVM以建立预混火焰燃烧当量比软测量模型。将该算法与传统的BP神经网络和极限学习(Extreme learning machine, ELM)算法进行对比,实验结果表明,本文方法具有较好的回归预测效果,均方误差(Mean square error, MSE)低至0.023。
    9  视觉引导下的运动执行与运动想象EEG时频特征对比分析
    伍彪,覃兵,吴鑫,周璐,钱志余,李韪韬,高凡,祝桥桥
    2022, 37(1):164-172. DOI: 10.16337/j.1004-9037.2022.01.014
    [摘要](497) [HTML](1357) [PDF 2.03 M](2125)
    摘要:
    近年来基于运动想象(Motor imagery,MI)的脑-机接口(Brain-computer interface,BCI)技术迅速发展,广泛运用于各个领域。为了比较运动执行(Motor execution,ME)与MI脑电活动的差异,本文提出一种基于脑电信号(Electroencephalogram,EEG)时频域分析的方法。通过设计视觉诱导的上肢ME与MI对照实验,对被采集的10名健康被试的EEG数据进行预处理,并提取各波段特征值,最后分析ME与MI各波段功率值和同一波段功率差值。结果显示,MI过程alpha波为优势波,ME过程delta波为优势波。与MI相比,ME中alpha波呈下降趋势,delta波呈上升趋势。本研究结果表明,ME与MI的脑电活动有明显差异性,为进一步提高基于MI的BCI系统的实时性和普适性提供了理论和数据支撑。
    10  融合注意力机制的双路径孪生视觉跟踪方法
    谢江,朱艳,沈韬,曾凯,刘英莉
    2022, 37(1):94-107. DOI: 10.16337/j.1004-9037.2022.01.008
    [摘要](603) [HTML](1494) [PDF 4.01 M](1868)
    摘要:
    传统基于孪生网络的视觉跟踪方法在训练时是通过从大量视频中提取成对帧并且在线下独立进行训练而成,缺乏对模型特征的更新,并且会忽略背景信息,在背景驳杂等复杂环境下跟踪精度较低。针对上述问题,提出了一种融合注意力机制的双路径孪生网络视觉跟踪算法。该算法主要包括特征提取器部分和特征融合部分。特征提取器部分对残差网络进行改进,设计了一种双路径网络模型;通过结合残差网络对前层特征的复用性和密集连接网络对新特征的提取,将2种网络拼接后用于特征提取;同时采用膨胀卷积代替传统卷积方式,在保持一定感受视野的情况下提高了分辨率。这种双路径特征提取方式可以隐式地更新模型特征,获得更准确的图像特征信息。特征融合部分引入注意力机制,对特征图不同部分分配权重。通道域上筛选出有价值的目标图像信息,增强通道间的相互依赖;空间域上则更加关注局部重要信息,学习更丰富的上下文联系,有效地提高了目标跟踪的精度。为证明该方法的有效性,在OTB100和VOT2016数据集上进行验证,分别使用精确率(Precision)、成功率(Success rate)和平均重叠期望(Expect average overlaprate,EAO)作为评价标准。结果显示,本文算法的精确率、成功率和平均重叠期望分别为0.868、0.641和0.350;相比基准模型分别提高了5.1%、2.0%和0.9%。结果证明本文算法充分利用了不同网络的优点,在保证模型精度的同时,能够较好地适应目标外观的变化,降低相似物的干扰,取得更稳定的跟踪效果。
    11  基于优化循环生成对抗网络的医学图像合成方法
    曹国刚,刘顺堃,毛红东,张术,陈颖,戴翠霞
    2022, 37(1):155-163. DOI: 10.16337/j.1004-9037.2022.01.013
    [摘要](543) [HTML](1220) [PDF 1.56 M](2084)
    摘要:
    放射治疗计划系统需要CT图像准确计算剂量分布,但有时临床只能获得MR图像。图像合成能有效利用现有图像合成新模态图像,从而增强图像信息。针对MR图像生成CT图像问题,综合循环一致生成对抗网络不成对数据可训练合成新模态图像的特点,以及密集连接网络的特征复用和优化信息流传播的优点,提出融合密集连接的循环生成对抗网络模型,改善输入信息的消失和梯度信息稀释,合成更可信的CT图像。在18个病人的数据集上训练和验证模型,优化后的循环生成对抗网络与原方法相比,平均绝对误差降低了3.91%,结构相似性提高了1.1%,峰值信噪比提高了4.4%;与深度卷积神经网络模型和基于图谱方法比较,相对误差分别降低了0.065%和0.55%。本文利用深度学习模型优点,能根据MR图像合成更接近真实的CT图像,更好地满足放射治疗计划系统剂量计算的需求。
    12  基于难样本混淆增强特征鲁棒性的行人重识别
    郝玲,段断忠,庞健
    2022, 37(1):122-133. DOI: 10.16337/j.1004-9037.2022.01.010
    [摘要](350) [HTML](1199) [PDF 11.46 M](2236)
    摘要:
    随着深度学习的兴起,行人重识别逐渐成为计算机领域的热门话题。它通过给定的查询行人图像进行跨摄像机检索,找出与查询身份相匹配的行人。然而,由于受到不同视角下的背景、光照等因素影响,采集到的行人图像中存在大量的难样本,利用这些难样本训练得到的模型识别性能低下,缺乏鲁棒性。因此,为了提高模型对难样本的鉴别能力,设计了一种新颖的通过混淆因子合成具有难样本信息图像的方法。对于每批输入图片,通过相似性度量寻找每张图像对应的难样本,结合混淆因子合成具有难样本信息的新图像再以有监督的方式促使模型挖掘难样本信息,从而提高模型鲁棒性。大量对比实验表明,所提方法在主流数据集上达到了较高的识别率,消融实验证明了所提方法的有效性。
    13  基于通用目标检测器的大坝裂缝检测方法
    赵凡,李琳芸,魏仁杰,张志伟
    2022, 37(2):405-414. DOI: 10.16337/j.1004-9037.2022.02.013
    [摘要](430) [HTML](982) [PDF 4.23 M](2911)
    摘要:
    针对现有大坝病害检测方法只能粗略定位裂缝所在区域的问题,提出了一种基于通用目标检测器的大坝裂缝提取方法。首先,设计了一个二目标检测器,把裂缝区域和水渍区域作为两个独立的目标在图像上同时检测出来;其次,建立和同一裂缝关联的裂缝区域和水渍区域几何位置关系;最后,对裂缝框中包含的水渍框上边界进行点均匀采样,对采样点进行曲线拟合得到裂缝曲线。实验结果表明:提出的算法不仅能够准确检测裂缝框和水渍框,而且能完整地拟合出裂缝曲线,并在毫米级宽度的大坝病害检测中进行了有效验证。
    14  局部与全局双重特征融合的自然场景文本检测
    李云洪,闫君宏,胡蕾
    2022, 37(2):415-425. DOI: 10.16337/j.1004-9037.2022.02.014
    [摘要](493) [HTML](1016) [PDF 1.89 M](1776)
    摘要:
    自然场景中文本的形状、方向和类别等变化丰富,场景文本检测仍然面临挑战。为了能够更好地将文本与非文本分隔并准确定位自然场景图像中的文本区域,本文提出一种局部与全局双重特征融合的文本检测网络,通过跳跃连接的方式实现多尺度全局特征融合,对恒等残差块进行改进实现局部细粒度特征融合,从而减少特征信息丢失,增强对文本区域特征提取力度,并采用多边形偏移文本域与文本边缘信息相结合的方式准确定位文本区域。为了评估本文方法的有效性,在现有经典数据集ICDAR2015和CTW1500上进行了多组对比实验,实验结果表明在复杂场景下该方法文本检测的性能更加卓越。
    15  基于深度学习的计算机视觉研究新进展
    卢宏涛,罗沐昆
    2022, 37(2):247-278. DOI: 10.16337/j.1004-9037.2022.02.001
    [摘要](2099) [HTML](3163) [PDF 12.48 M](4762)
    摘要:
    近年来,深度学习在计算机视觉各个领域中的应用成效显著,新的深度学习方法和深度神经网络模型不断涌现,算法性能被不断刷新。本文着眼于2016年以来的一些典型网络和模型,对基于深度学习的计算机视觉研究新进展进行综述。首先总结了针对图像分类的主流深度神经网络模型,包括标准模型及轻量化模型等;然后总结了针对不同计算机视觉领域的主流方法和模型,包括目标检测、图像分割和图像超分辨率等;最后总结了深度神经网络搜索方法。
    16  基于图像插值的小样本手写数字识别研究
    宋伟,谢建平,高倩,谢良旭,许晓军
    2022, 37(2):298-307. DOI: 10.16337/j.1004-9037.2022.02.004
    [摘要](556) [HTML](762) [PDF 1.80 M](1652)
    摘要:
    人工智能方法的高性能通常需要有充足的数据来训练模型参数。如何在数据量不足的情况下提升模型的性能,即小样本学习,是人工智能领域的重要研究方向之一。本文提出了基于图像插值的小样本学习策略,并在手写数字图像识别任务中验证了该策略的可行性。系统研究了全连接神经网络和卷积神经网络对MNIST和USPS手写数字图像识别的小样本学习性能。计算结果表明,基于图像插值的数据增强方法可以显著提升神经网络在小样本数据中的特征提取能力和学习效率,且选择合适的图像插值缩放系数可以进一步优化神经网络的小样本学习性能。
    17  基于几何-语义联合约束的动态环境视觉SLAM算法
    沈晔湖,陈嘉皓,李星,蒋全胜,谢鸥,牛雪梅,朱其新
    2022, 37(3):597-608. DOI: 10.16337/j.1004-9037.2022.03.010
    [摘要](787) [HTML](397) [PDF 1.53 M](8463)
    摘要:
    传统视觉同步定位和地图构建(Simultaneous localization and mapping, SLAM)算法建立在静态环境假设的基础之上,当场景中出现动态物体时,会影响系统稳定性,造成位姿估计精度下降。现有方法大多基于概率统计和几何约束来减轻少量动态物体对视觉SLAM系统的影响,但是当场景中动态物体较多时,这些方法失效。针对这一问题,本文提出了一种将动态视觉SLAM算法与多目标跟踪算法相结合的方法。首先采用实例语义分割网络,结合几何约束,在有效地分离静态特征点和动态特征点的同时,进一步实现多目标跟踪,改善跟踪结果,并能够获得运动物体的轨迹和速度矢量信息,从而能够更好地为机器人自主导航提供决策信息。在KITTI数据集上的实验表明,该算法在动态场景中相较ORB-SLAM2算法精度提高了28%。
    18  面向学位服照片生成的虚拟试衣方法
    盛培卓,李婷玉,李天宝,宋丹,刘安安
    2022, 37(5):1145-1156. DOI: 10.16337/j.1004-9037.2022.05.019
    [摘要](553) [HTML](209) [PDF 2.98 M](1680)
    摘要:
    为了解决现有虚拟试衣方法不能适用于学位服的问题,提出一种面向学位服照片生成的虚拟试衣方法。该方法首先对由服装变形模块和虚拟试穿模块构成的基于图像的虚拟试衣网络进行训练,将人像与学位服图像通过训练后的网络生成试衣结果。随后,将生成的学位服试衣结果通过背景融合模块与特定背景进行合成。实验过程中,本文构建了一个新的学位服与长裙的数据集。从实验结果来看,本文提出的算法能够在很大程度上减少原人像中衣服对学位服试穿的影响,能够较好地完成学位服的试穿工作并生成较为理想的试穿结果。
    19  深度学习在有限视角稀疏采样光声图像重建中的应用
    孙正,候英飒
    2022, 37(5):971-983. DOI: 10.16337/j.1004-9037.2022.05.001
    [摘要](633) [HTML](302) [PDF 4.04 M](3592)
    摘要:
    光声成像(Photoacoustic imaging, PAI)是一种多物理场耦合的新型功能成像技术,高质量图像重建是提高成像精度的关键。当探测器采集的光声信号数据不完备时,若采用标准重建方法(如反投影、时间反演和延迟求和等)会导致图像质量以及成像深度的下降。迭代重建算法可在一定程度上解决此问题,但存在计算成本高、需合理选择正则化方法等缺点。近年来,深度学习已经成为医学成像领域的首选方法,其在高效率重建高质量图像方面展现出了巨大潜力。本文对深度学习在有限角度稀疏采样光声图像重建中的应用进展进行总结,对主要方法进行分类归纳,并讨论不同方法的优势和不足。
    20  一种基于格雷码置乱与分块混沌置乱的医学影像隐私保护分类方案
    陈国明,袁泽铎,龙舜,麦舒桃
    2022, 37(5):984-996. DOI: 10.16337/j.1004-9037.2022.05.004
    [摘要](490) [HTML](220) [PDF 4.70 M](1802)
    摘要:
    针对传统隐私保护机器学习方案抵抗对抗攻击能力较弱的特点,提出一种基于格雷码置乱和分块混沌置乱的医学影像加密方案(Gray + block chaotic scrambling optimized for medical image encryption,GBCS),并应用于隐私保护的分类挖掘。首先对图像进行位平面切割;然后,对图像不同位平面进行格雷码置乱后再进行分块,在分块的基础上分别进行混沌加密;最后通过深度网络对加密后的图像进行分类学习。通过在公开乳腺癌和青光眼数据集上进行交叉验证仿真实验,对GBCS 的隐私保护与分类性能进行量化分析,并从图像直方图、信息熵和对抗攻击能力等指标考虑其安全性。实验结果表明医学图像在GBCS 加密前后的性能差距在可接受范围内,方案能更好地平衡性能与隐私保护的矛盾, 能有效抵御对抗样本的攻击,验证了本文方法的有效性。
    21  二次稀疏极端通道先验盲超声图像去模糊
    马倩,黄成泉,郑泽鸿
    2022, 37(5):1092-1100. DOI: 10.16337/j.1004-9037.2022.05.014
    [摘要](366) [HTML](174) [PDF 1.90 M](1711)
    摘要:
    模糊的超声图像经过极端通道先验去模糊后不够稀疏,导致极端通道稀疏约束可能不存在。因此,为了充分利用图像通道信息,通过增强去模糊后超声图像的稀疏性,提出一种二次稀疏极端通道先验盲超声图像去模糊算法。首先,给出了相关的理论证明和实验说明二次稀疏极端通道先验用于约束模糊超声图像的可行性;然后,充分利用暗通道和亮通道的先验信息,在交替迭代过程中采用半二次分裂方法估计中间图像和模糊核;最后,用傅里叶变换求得最终的清晰图像和模糊核。在超声图像集上的实验结果表明,本文提出的二次稀疏极端通道先验盲超声图像去模糊算法和其他超声图像去模糊方法相比更具可行性和优越性。
    22  一种水上航行场景可见光偏振图像融合方法
    姜阳,肖长诗,文元桥,詹文强,陈芊芊
    2022, 37(6):1376-1390. DOI: 10.16337/j.1004-9037.2022.06.018
    [摘要](312) [HTML](139) [PDF 3.68 M](1844)
    摘要:
    为了提升无人船(Unmanned surface vehicle, USV)在恶劣航行场景下的视觉感知能力,提出一种基于HSV(Hue, Saturation, Value)颜色空间的水上航行场景可见光偏振图像融合方法。根据水上航行场景的偏振特性,制定了不同区域的融合规则,再基于HSV颜色空间,融合原场景的颜色信息,实现了对恶劣航行场景图像的语义分割,并将测试结果进行对比分析。在耀斑场景下,综合像素精度(Pixel accuracy, PA)值为0.768 2。实验结果表明:该方法能增强图像对比度,凸显边缘轮廓信息,能够在恶劣航行场景下,稳定获得对比度较强、目标特性较好的特征信息,一定程度上提升了无人船在恶劣航行场景下的环境感知能力。
    23  用于烟雾病检测的Faster RCNN改进算法
    徐佳薇,武杰,雷宇,顾宇翔
    2022, 37(6):1391-1400. DOI: 10.16337/j.1004-9037.2022.06.019
    [摘要](356) [HTML](166) [PDF 1.34 M](1375)
    摘要:
    为了预防烟雾病引发的并发症威胁患者生命,需要对烟雾病进行及时有效的诊断。本文提出了一种改进的Faster RCNN算法用于烟雾病检测。首先,提取颈内动脉数字减影血管造影(Digital subtraction angiography,DSA)图像,并进行数据增强,训练集、验证集和测试集之比为6∶2∶2。使用ResNet101网络作为特征提取网络,避免血管特征在卷积和池化过程中产生模糊或丢失;结合区域生成网络(Region proposal network, RPN),定位烟雾病病灶的位置;再将Faster RCNN模型中的ROI Pooling替换为ROI Align进行特征映射,避免由量化带来的误差影响。本文采用平均精度(Average precision,AP)作为算法检测性能的评估指标,所用方法对正常样本和烟雾病样本检测的AP分别为99.23%和89.39%。实验结果表明,该方法可以实现烟雾病的快速有效检测,可在复杂的血管网中准确检测烟雾病病灶的位置,为烟雾病辅助诊断提供一定的技术支持。
    24  全变分极端通道先验的盲图像去噪去模糊
    胡雪,黄成泉,冯润,周丽华,郑兰
    2022, 37(3):643-656. DOI: 10.16337/j.1004-9037.2022.03.014
    [摘要](416) [HTML](185) [PDF 4.22 M](2025)
    摘要:
    图像先验是图像复原中求解不适定问题的关键。针对在图像具有显著噪声时,极端通道先验去模糊算法容易产生振铃伪影和无法抑制噪声的缺点,利用全变分模型可以同时抑制噪声和保护边缘的优势,提出一种有效的全变分极端通道先验的盲图像去噪和去模糊模型。首先,将全变分模型分别引入暗通道和亮通道中,用于保护图像的边缘及消除噪声或振铃伪影;其次,利用半二次分裂技术解决模型的非凸问题和估计潜在的清晰图像;最后,用迭代多尺度盲反褶积估计图像的模糊核。实验结果表明,该算法能够在抑制噪声的同时很好地保护图像的边缘细节和消除振铃伪影。相比近几年具有代表性的其他方法,该模型的鲁棒性、主观视觉效果和客观评价指标均有明显提高。
    25  基于CT图像的双重注意力网络急性胰腺炎诊断方法
    张进一,万鹏,孙亮,张道强
    2022, 37(1):147-154. DOI: 10.16337/j.1004-9037.2022.01.012
    [摘要](537) [HTML](1025) [PDF 2.27 M](2214)
    摘要:
    作为消化系统最常见的疾病之一,急性胰腺炎的医学影像仍使用简单的手工特征进行分析,效率与精度较低,与其危害性并不相称。由于胰腺的解剖变异性以及各种并发症,急性胰腺炎的影像表现复杂,不同患者不同种类的病灶差异大,基于CT影像的急性胰腺炎诊断难度较大。本文提出一种基于双重注意力网络用于诊断急性胰腺炎,该网络使用全局特征为不同阶段的局部特征生成局部注意力特征,使不同阶段的注意力特征关注不同尺度的病灶,最终通过融合对全局注意力特征进行分类。同时在生成注意力特征时,使用通道域注意力调整通道间的依赖,提高模型的表示能力。在真实的急性胰腺炎数据集上的实验结果表明,本文提出的网络取得了更好的急性胰腺炎诊断精度,相对原模型,灵敏度与曲线下面积(Area under the curve ,AUC)分别至少提升了3.4%,3.2%;相较其他注意力机制如SENet对ResNet模型的改进,AUC提升2.7%。
    26  基于局部熵的区域活动轮廓图像分割模型
    李梦,詹毅,王艳
    2023, 38(3):586-597. DOI: 10.16337/j.1004-9037.2023.03.008
    [摘要](185) [HTML](112) [PDF 5.69 M](882)
    摘要:
    为解决区域活动轮廓模型不能有效分割灰度不均图像的问题,提出了局部熵约束的区域活动轮廓模型应用于图像分割。首先基于局部熵信息将图像划分为两个特征区域,然后利用局部熵特征信息构造二值拟合能量,并与区域可放缩拟合(Region-scalable fitting,RSF)模型相结合,最后得到水平集演化方程。该模型考虑了图像灰度分布的聚集特征和局部区域统计信息,能有效处理灰度不均匀、弱边缘等图像分割问题,且对轮廓初始位置更具鲁棒性,医学图像实验结果验证了模型的有效性。
    27  基于卷积神经网络梯度和纹理补偿的单幅图像超分辨率重建
    黄裕青,李华锋,原铭,张亚飞
    2023, 38(5):1112-1124. DOI: 10.16337/j.1004-9037.2023.05.010
    [摘要](197) [HTML](149) [PDF 5.15 M](565)
    摘要:
    现有的单幅图像超分辨率重建算法大都在追求高峰值信噪比(Peak signal-to-noise ratio, PSNR),在特征提取过程中缺少对图像纹理细节信息的关注,导致重建图像的人眼主观感知效果不太理想。为了解决这一问题,本文提出了一种基于卷积神经网络梯度和纹理补偿的单幅图像超分辨率重建算法。具体设计了3条支路分别用于结构特征提取、纹理细节特征提取及梯度补偿,然后利用所提出的融合模块对结构特征和纹理细节特征进行融合。为防止重建过程中丢失图像的纹理信息,提出纹理细节特征提取模块补偿图像的纹理细节信息,增强网络的纹理保持能力;同时,利用梯度补偿模块提取的梯度信息对结构信息进行增强;此外还构建了深层特征提取结构,结合通道注意力与空间注意力对深层特征中的信息进行筛选及特征增强;最后利用二阶残差块对结构和纹理特征进行融合,使重建图像的特征信息更加完善。通过对比实验验证了本文方法的有效性和优越性。
    28  身份保持约束下的面部图像超分辨率重建方法
    田旭,刁红军,凌兴宏
    2023, 38(2):350-363. DOI: 10.16337/j.1004-9037.2023.02.011
    [摘要](185) [HTML](307) [PDF 2.42 M](1229)
    摘要:
    低分辨率是影响人脸识别精度的重要因素。一种有效方法是使用图像超分辨率技术对低分辨率图像重建,生成超分辨率图像后再对其作人脸识别,从而克服低分辨率面部图像对人脸识别的限制。但是,现有超分辨率方法在重建过程中往往忽略了保持其原始身份信息,这直接影响生成图像的人脸识别结果。针对上述问题,提出了一种身份保持约束下的面部超分辨率重建方法IPNet,在提高低分辨率面部图像质量的同时,能保持重建后的面部图像身份。IPNet方法将语义分割网络和面部生成器相结合,通过语义分割网络提取低维隐码和多分辨率空间特征,进而指导面部生成器输出接近于原图的真实面部图像。在此基础上引入人脸识别网络,将身份信息整合到超分辨率方法中,从而约束重建前后的面部图像身份保持一致。实验结果表明,IPNet方法在超分辨率图像质量和身份保持上均优于其他对比方法。
    29  基于距离加权色偏估计的低质图像增强
    曹思颖,张弦,蒲恬,彭真明
    2023, 38(1):141-149. DOI: 10.16337/j.1004-9037.2023.01.012
    [摘要](345) [HTML](229) [PDF 2.24 M](1391)
    摘要:
    有色雾、烟、尘等恶劣大气条件下的低质图像具有低可见度和颜色偏移的特点,给人类观察和计算机视觉应用带来困难。当前针对此类图像的增强算法通常忽略了景物与相机的距离对色偏的影响,为了在增强可见度时更好地恢复图像颜色,本文提出低质图像成像可见度下降及色偏与景物距离的关系模型和求解方法。该方法首先通过图像的局部亮度估算距离,然后通过距离估算图像的色偏矩阵,再求解退化模型得到可见度与颜色得到恢复的图像,最后将恢复的图像与限制对比度自适应直方图均衡(Contrast limited adaptive histogram equalization,CLAHE)增强图像进行距离加权融合,得到进一步细节增强的图像。实验表明,本文提出的方法与同类方法相比,在达到高图像质量评价指标的同时,明显具有更好的颜色恢复结果。
    30  MAFDNet:复杂环境下图像自适应分类新方法
    叶继华,黎欣,陈进,江爱文,化志章,万文涛
    2023, 38(6):1392-1405. DOI: 10.16337/j.1004-9037.2023.06.014
    [摘要](165) [HTML](60) [PDF 2.65 M](548)
    摘要:
    复杂环境下,往往困难样本和简单样本并存,现有分类方法主要针对困难样本进行设计,所构建网络用于分类简单样本时会造成计算资源的浪费;而网络修剪和权重量化等方法则不能同时兼顾模型的准确度和存储开销。为提升计算资源的使用效率并有更好的准确率,本文着眼于输入样本的空间冗余,提出了复杂环境下图像自适应分类网络MAFDNet,并引入置信度作为分类准确性的判断,同时提出了由内容损失、融合损失和分类损失组成的自适应损失函数。MAFDNet由3个子网组成,输入图像首先被送入到低分辨率子网中,该子网有效提取了低分辨率的特征,具有高置信度的样本先被识别并从网络中提前退出,低置信度的样本则需要依次进入更高分辨率的子网中,而网络中的高分辨率子网具有识别困难样本的能力。MAFDNet将分辨率自适应和深度自适应结合在一起,通过实验表明,在相同计算资源条件下,MAFDNet在CIFAR-10、CIFAR-100和ImageNet这3个复杂环境数据集上的top-1准确率均得到提升。
    31  基于深度展开和双流网络的高光谱图像融合
    刘丛,姚佳浩
    2023, 38(6):1406-1421. DOI: 10.16337/j.1004-9037.2023.06.015
    [摘要](242) [HTML](51) [PDF 3.02 M](646)
    摘要:
    针对基于深度学习的高光谱图像融合算法通常堆积多个卷积以学习映射关系、没有充分利用问题的特性以及缺乏可解释性等问题,提出一种结合深度展开与双流网络的深度网络。首先使用卷积稀疏编码建立融合模型,该模型将低分辨率高光谱图像(Low-resolution hyperspectral images, LR-HSI)和高分辨率多光谱图像(high-resolution multispectral images, HR-MSI)映射到低维子空间中。在融合模型设计中,考虑了LR-HSI和HR-MSI的共有信息以及LR-HSI的独有信息,并将HR-MSI作为辅助信息加入模型中。其次将该融合模型展开为可学习的可解释深度网络。最后,使用双流网络获取更精确的高分辨率高光谱图像(High-resolution hyperspectral images, HR-HSI)。实验表明,该网络在高光谱图像融合中可以获得出色的效果。
    32  联合空-谱信息的高光谱图像噪声估计
    张耹铭,黄丹飞,刘智颖,钟艾琦
    2023, 38(1):186-192. DOI: 10.16337/j.1004-9037.2023.01.016
    [摘要](448) [HTML](116) [PDF 3.36 M](1486)
    摘要:
    在纹理丰富的高光谱图像中获得精确的噪声估计,是噪声估计任务中的难点。本文基于高光谱图像的空间规律性和光谱相关性,提出一种基于超像素分割的光谱去相关法。同质区域划分是许多噪声估计方法的关键步骤,精确的同质区域划分能有效提高噪声估计精度。为此,将简单线性迭代聚类算法(Simple linear iterative clustering algorithm,SLIC)与光谱-空间相似性结合,划分高光谱图像为局部结构相似的图像块,以保持同质特征;为了提高光谱间的区分能力,将光谱信息散度和光谱角联合作为光谱距离;结合多元线性回归在同质区域内去除光谱相关性,在获得的残差图上估计噪声水平。对不同地物复杂程度的模拟图像,添加不同程度的噪声,通过与多种方法比较,验证了本文方法的有效性和稳定性。最后,本文方法成功应用于Urban数据的噪声水平估计,准确识别出受噪声严重污染的波段。
    33  基于图神经网络和引导向量的图像字幕生成模型
    佟国香,李乐阳
    2023, 38(1):209-219. DOI: 10.16337/j.1004-9037.2023.01.018
    [摘要](459) [HTML](242) [PDF 3.09 M](1400)
    摘要:
    近年来,深度学习已在图像字幕技术研究中展现其优势。在深度学习模型中,图像中对象之间的关系在图像表示中起着重要作用。为了更好地检测图像中的视觉关系,本文基于图神经网络和引导向量构建了图像字幕生成模型(YOLOv4-GCN-GRU, YGG)。该模型利用图像中被检测到的对象的空间和语义信息建立成图,利用图卷积神经网络(Graph convolutional network, GCN)作为编码器对图的每个区域进行表示。在字幕生成阶段,额外训练一个引导神经网络来产生引导向量,从而辅助生成模型自动生成语句。基于MSCOCO图像数据集的对比实验表明,YGG模型具有更好的性能,将CIDEr-D的性能从138.9%提高到了142.1%。
    34  ValidFlow:基于标准化流的无监督图像缺陷检测
    张兰尧,陈晓玲,张达敏,岑翼刚,张琳娜,黄彦森
    2023, 38(6):1445-1457. DOI: 10.16337/j.1004-9037.2023.06.018
    [摘要](247) [HTML](60) [PDF 2.10 M](713)
    摘要:
    基于标准化流的CS-Flow方法在缺陷检测领域取得了不错的效果,但其重复堆叠单一耦合块的方式增大了网络的复杂度。为此,本文提出了由特征平行流(Feature advection flow, FA flow)与特征混合流(Feature blending flow, FB flow)两种耦合块堆叠构成的网络ValidFlow,其中FA flow内部的子网络去掉了上下采样的捷径分支,并引入深度可分离卷积;FB flow内部的子网络在3个尺度上进行跨尺度融合。这样的设置使得ValidFlow在参数量减少的同时保证了信息的充分混合。在MVTec AD、MTD和DAGM数据集上与已有方法的对比结果显示,在MVTec AD数据集上,ValidFlow在15个类别中的平均AUROC为99.2%,在4个类别上的AUROC均为100%;在MTD数据集上获得了99.6%的AUROC;相比于CS-Flow,ValidFlow的参数量减少了207.61M,推理速度FPS提升了22;在DAGM数据集上,10个类别的平均AUROC为99.0%,性能上非常接近有监督的方法。
    35  图像增强对低光照场景语义分割影响研究
    艾羽丰,郭继昌,安冠华,张怡
    2023, 38(4):959-977. DOI: 10.16337/j.1004-9037.2023.04.018
    [摘要](265) [HTML](176) [PDF 7.01 M](672)
    摘要:
    在低光照环境下获取的图像通常会出现图像亮度低、颜色失真、细节信息丢失以及对比度低等问题。为了满足主观视觉体验的需求,往往会对图像进行增强处理。然而,图像增强对机器视觉应用性能的影响缺乏系统研究。本文以语义分割这一机器视觉应用为例,首先对主流的语义分割方法和低光照图像增强方法进行归纳总结,然后对经图像增强方法处理的低光照图像进行语义分割,从而探究图像增强方法对低光照场景语义分割性能的影响。实验结果表明,增强处理可以改善图像的人眼视觉效果,但是可能会引入噪声等影响,并且图像增强方法和语义分割方法关注的重点和特征不完全一致。图像增强对于低光照场景语义分割性能的促进作用并不明显,甚至会带来负面影响。
    36  大变形场下高速数字图像相关并行计算研究
    陈厚创,马琨,薛宇轩,孟志
    2023, 38(4):978-985. DOI: 10.16337/j.1004-9037.2023.04.019
    [摘要](124) [HTML](164) [PDF 2.04 M](502)
    摘要:
    由于大变形场下图像去相关效应的影响,数字图像相关(Digital image correlation,DIC)始终无法完成图像间的并行计算。为了突破这一瓶颈,本文提出了一种基于Accelerated-KAZE(AKAZE)的参考图更新方法,可在DIC正式计算之前完成参考图更新工作,为并行计算提供独立数据。并构建了一种图形处理器(Graphics processing unit,GPU)并行计算架构,可对所有子区独立估值,完成图像间和子区间的并行计算。最后对丁腈橡胶进行了拉伸测试,结果表明相比于传统的串行DIC计算方法,运用本文的并行方法速度可提升两个数量级。
    37  基于倒谱图像的语音回声隐写分析方法
    唐军豪,杜庆治,龙华,邵玉斌,李一民
    2023, 38(6):1469-1481. DOI: 10.16337/j.1004-9037.2023.06.020
    [摘要](222) [HTML](65) [PDF 2.88 M](819)
    摘要:
    语音信号回声隐写后其倒谱系数会在回声延迟出产生峰值,传统回声隐写分析主要采用倒谱系数的统计特征作为隐写检测特征,然而在低回声幅度时隐写信号倒谱系数的峰值并不明显,基于统计特征的方法检测性能并不理想。本文将倒谱分析与图像识别技术结合,提出了一种基于倒谱图像的语音回声隐写分析方法,对语音信号分帧加窗后进行倒谱计算,然后以时间为横轴,倒谱序列点为纵轴,倒谱系数幅值为灰度级生成倒谱图像,将生成的倒谱图像作为隐写检测的输入,采用残差神经网络作为分类器进行回声隐写分析。实验结果表明,在3种经典回声隐写算法上低回声幅度时检测准确率分别达到98.2%、98.6%和96.1%,本文方法在低回声幅度时检测准确率相较传统回声隐写分析方法有较大提升,解决了传统回声隐写分析方法在低回声幅度检测效果不佳的问题。
    38  基于特定领域解码的域泛化医学图像分割方法
    叶怀泽,周子奇,祁磊,史颖欢
    2023, 38(2):324-335. DOI: 10.16337/j.1004-9037.2023.02.009
    [摘要](545) [HTML](131) [PDF 3.11 M](1528)
    摘要:
    多源域领域泛化是模型利用多个不同领域中的语义信息,并且能够很好地泛化到未知领域上。在医学图像中,不同领域之间的跨度比较大,模型泛化性能在未知域上会有较大程度的下降。为了解决这一问题,本文提出了一种编码特征再针对特定领域进行解码的网络结构。该模型使用一个通用编码器来学习所有领域上的领域不变特征,并通过特定领域解码器还原原有图像以加强其对图像特征的复原能力。此外,该模型还通过生成特征迁移图像与源域图像进行对抗学习来加强编码器学习领域不变特征的能力。 同时,本文在模型中还引入了特殊构造的分割融合预处理步骤来扩充数据集以增强模型的泛化能力,并进一步提高了本文提出网络结构的性能。在两个医学图像的分割任务中,大量实验数据表明,本文提出的模型相比现有先进模型表现出了优异的性能,此外本文还进行了一系列消融实验,证明了模型的有效性。
    39  基于多损失混合对抗函数和启发式投影算法的逼真医学图像增强方法
    王见,成楚凡,陈芳
    2023, 38(5):1104-1111. DOI: 10.16337/j.1004-9037.2023.05.009
    [摘要](213) [HTML](153) [PDF 2.15 M](458)
    摘要:
    早期发现新冠肺炎可以及时医疗干预提高患者的存活率,而利用深度神经网络(Deep neural networks, DNN)对新冠肺炎进行检测,可以提高胸部CT对其筛查的敏感性和判读速度。然而,DNN在医学领域的应用受到有限样本和不可察觉的噪声扰动的影响。本文提出了一种多损失混合对抗方法来搜索含有可能欺骗网络的有效对抗样本,将这些对抗样本添加到训练数据中,以提高网络对意外噪声扰动的稳健性和泛化能力。特别是,本文方法不仅包含了风格、原图和细节损失在内的多损失功能从而将医学对抗样本制作成逼真的样式,而且使用启发式投影算法产生具有强聚集性和干扰性的噪声。这些样本被证明具有较强的抗去噪能力和攻击迁移性。在新冠肺炎数据集上的测试结果表明,基于该算法的对抗攻击增强后的网络诊断正确率提高了4.75%。因此,基于多损失混合和启发式投影算法的对抗攻击的增强网络能够提高模型的建模能力,并具有抗噪声扰动的能力。
    40  基于超像素块聚类与低秩特性的高光谱图像降噪
    张明华,武玄,宋巍,梅海彬,贺琪,苏诚
    2023, 38(3):549-564. DOI: 10.16337/j.1004-9037.2023.03.005
    [摘要](166) [HTML](107) [PDF 10.70 M](944)
    摘要:
    高光谱图像通常受到高斯噪声、脉冲噪声、死线和条纹等干扰,因此去噪必不可少。现有基于低秩特性的降噪方法通过引入空间信息改善了降噪效果,但由于其只利用了局部相似性或非局部自相似性,而对在光谱维度存在一定结构信息的稀疏噪声去除效果较差。本文提出了基于超像素块聚类与低秩特性的高光谱图像降噪方法,实现了分块的自适应划分与聚类,在较好地保留了局部细节的同时又充分利用了非局部空间自相似性,且实验表明聚类后的超像素块组成的同物分块具有良好的空-谱双重低秩属性。该方法首先对高光谱图像进行超像素分割,再对超像素块进行聚类,得到同物分块;然后对其建立低秩矩阵恢复模型并求解,最终得到降噪后图像。本文分别在模拟数据和真实数据上进行实验,并与其他基于低秩特性的方法进行比较,结果表明:本文方法对混合噪声,尤其是具有一定结构信息的稀疏噪声具有较好的降噪性能。
    41  融合类别注意力的铝硅合金显微图像分割方法
    沈韬,金凯,司昌凯,郑剑锋,刘英莉
    2023, 38(3):574-585. DOI: 10.16337/j.1004-9037.2023.03.007
    [摘要](125) [HTML](94) [PDF 4.29 M](826)
    摘要:
    为了提取铝硅合金显微图像的初晶硅区域,提出一种结合类别注意力块(Class attention block, CAB)的改进模型类别注意力网络(Class attention network, CA-Net)。类别注意力块从特征图中计算各通道与每个类别的相关性信息,并将不同类别的相关性信息融合产生注意力权重,以使特征通道的权重与其对任务类别的贡献相关,从而增强重要特征的表达,并抑制无关特征的干扰。在铝硅合金显微图像数据集上进行实验,本文提出的方法在Dice系数、Jaccard相似度、敏感度、特异度和分割准确率上的结果分别为94.82%、90.16%、94.54%、98.80%和97.97%。相比CCNet、SPNet和TA-Net等方法,CA-Net能够有效改进铝硅合金显微图像中初晶硅区域的分割效果。
    42  基于多模态图像融合的早期蕈样肉芽肿识别
    谢凤英,赵丹培,王可,刘兆睿,王煜坤,张漪澜,刘洁
    2023, 38(4):792-801. DOI: 10.16337/j.1004-9037.2023.04.004
    [摘要](256) [HTML](211) [PDF 1.57 M](599)
    摘要:
    早期蕈样肉芽肿(Mycosis fungoid, MF)可表现为红斑鳞屑性皮损,很难从银屑病及慢性湿疹等良性炎症性皮肤病中鉴别出来。本文提出了一种基于多模态图像融合的早期蕈样肉芽肿识别方法。该方法基于皮肤镜图像和临床图像,采用ResNet18网络提取单模态图像的特征;设计跨模态的注意力模块,实现两种模态图像的特征融合;并且设计自注意力模块提取融合特征中的关键信息,改善信息冗余,从而提高蕈样肉芽肿智能识别的准确度。实验结果表明,本文所提出的智能诊断模型优于对比算法。将本文模型应用于皮肤科医生的实际临床诊断,通过实验组医生和对照组医生平均诊断准确率的变化证实了本文模型能够有效提升临床诊断水平。
    43  基于深度学习的显著性目标检测综述
    孙涵,刘译善,林昱涵
    2023, 38(1):21-50. DOI: 10.16337/j.1004-9037.2023.01.002
    [摘要](1283) [HTML](500) [PDF 5.89 M](3914)
    摘要:
    显著性目标检测通过模仿人的视觉感知系统,寻找最吸引视觉注意的目标,已被广泛应用于图像理解、语义分割、目标跟踪等计算机视觉任务中。随着深度学习技术的快速发展,显著性目标检测研究取得了巨大突破。本文总结了近5年相关工作,全面回顾了3类不同模态的显著性目标检测任务,包括基于RGB图像、基于RGB-D/T(Depth/Thermal)图像以及基于光场图像的显著性目标检测。首先分析了3类研究分支的任务特点,并概述了研究难点;然后就各分支的研究技术路线和优缺点进行阐述和分析,并简单介绍了3类研究分支常用的数据集和主流的评价指标。最后,对基于深度学习的显著性目标检测领域未来研究方向进行了探讨。
    44  基于对抗域适应的红外舰船目标分割
    高子航,刘兆英,张婷,李玉鑑
    2023, 38(3):598-607. DOI: 10.16337/j.1004-9037.2023.03.009
    [摘要](267) [HTML](94) [PDF 2.15 M](663)
    摘要:
    为了提高红外舰船目标的分割准确率,提出一种基于对抗域适应的红外舰船目标分割方法,其中有标注的可见光舰船图像为源域,没有标注的红外舰船图像为目标域。为了解决两个域之间的风格差异问题,本文依次对源域的可见光图像进行灰度化和白化预处理,将其转换为具有目标域风格的图像。对于目标域的红外图像,使用去噪网络进行优化;接着,为了解决判别网络视野受限问题,设计基于空洞卷积的判别网络;最后,针对目标域预测图像置信度低问题,将目标域预测图像的信息熵加入到对抗损失中。在可见光和红外舰船图像组成的数据集上的实验结果高于现有方法,证明了本文方法的有效性。
    45  基于非局部融合的多尺度目标检测研究
    马倩,曾凯,吴家文,沈韬
    2023, 38(2):364-374. DOI: 10.16337/j.1004-9037.2023.02.012
    [摘要](228) [HTML](112) [PDF 3.56 M](1277)
    摘要:
    针对现有的多尺度目标检测模型在面对尺度变换和遮挡场景时所使用的融合方法融合不充分,且没有捕捉长距离依赖关系的问题,本文设计了通道融合增强模块和非局部特征交互模块,用于学习不同通道特征之间的相关性和捕捉特征图之间的长距离依赖关系。此外,针对当前检测架构都是基于单金字塔检测结构,存在信息丢失的情况,设计了双金字塔结构,并将提出的融合方法与双金字塔结构结合,在保留原始特征信息的基础上,补充融合后的特征信息。实验结果表明,提出的方法在公共数据集KITTI与PASCAL VOC上与其他先进工作相比具有更高的检测精度,证明了该方法在目标检测任务中的有效性。
    46  SiamBM:实现更佳匹配的Siamese目标跟踪网络
    胡昭华,刘浩男,林潇
    2023, 38(5):1079-1091. DOI: 10.16337/j.1004-9037.2023.05.007
    [摘要](166) [HTML](201) [PDF 4.57 M](645)
    摘要:
    基于孪生网络的目标跟踪算法通常采用简单的互相关匹配方式,然而这种简单的匹配方式会引入大量无关信息,弱化目标区域的响应。基于无锚框的孪生跟踪网络虽然避免了锚框参数的调整,但由于失去了先验性信息,并不能很好地适应目标物的尺度变化。因此,针对上述所存在的问题,本文提出了一种基于孪生网络的目标跟踪匹配增强算法SiamBM。通过将目标的边界框坐标信息进行编码,为跟踪模型提供有效的指导信息;采用深度可分离互相关级联像素匹配互相关的方式,进一步提高跟踪模型的判别能力;采用多尺度互相关的方式,增强跟踪模型的尺度适应能力。在OTB100数据集上,SiamBM的成功率和精确率分别达到了0.684和0.906,相比基准模型分别提高了5.2%和4.2%。实验结果表明,与目前主流的跟踪器相比,SiamBM取得了相当有竞争力的结果,在各项数据集指标上取得了优越的性能。
    47  基于改进的无锚框目标检测算法的涡检测
    宣扬,吕宏强,安慰,刘学军
    2023, 38(1):150-161. DOI: 10.16337/j.1004-9037.2023.01.013
    [摘要](393) [HTML](197) [PDF 2.73 M](1464)
    摘要:
    在流体运动中涡对各种流场结构的生成和维持起着至关重要的作用,涡的识别和检测有助于理解流体流动规律。传统涡识别方法别存在定义不准确、严重依赖经验阈值、泛化性能差等问题,因此涡检测具有一定挑战性。本文从计算机视觉的角度出发,提出了一个基于目标检测算法的涡检测模型。针对原始目标检测模型对极端宽高比的细长涡检测效果不理想的问题,对两种不同类型涡的数据特性进行分析,并提出了基于可变形卷积(Deformable convolutional network, DCN)的特征自适应模块和基于改进损失函数的细长样本挖掘方法。采用圆柱尾流涡和潜艇尾部涡数据集对所提模型进行验证,实验结果表明改进后的模型检测精确率显著提高,并在细长涡的检测精确率上有显著提升,有效地平衡了各类型的涡检测性能。
    48  改进的基于YOLOv3的人脸检测算法
    胡一帆,秦岭,杨小健
    2023, 38(5):1092-1103. DOI: 10.16337/j.1004-9037.2023.05.008
    [摘要](235) [HTML](133) [PDF 2.76 M](653)
    摘要:
    针对因背景与人脸高度相似和人脸目标尺度过小而导致的人脸检测精度较低的问题,提出了一种改进的基于YOLOv3的人脸检测算法。首先使用遗传算法改进原算法中随机初始化的影响,生成更符合目标大小的预测框,其次用轻量级网络改进原特征提取网络,提高人脸检测速度,最后使用边框回归损失代替YOLOv3坐标损失函数并改进置信度损失函数以提升训练收敛速度和结果精度。所设计的算法模型在Wider Face数据集上的检测精度和速度得到了提升。
    49  基于相机感知距离矩阵的无监督行人重识别
    白梦林,周非,舒浩峰
    2023, 38(5):1069-1078. DOI: 10.16337/j.1004-9037.2023.05.006
    [摘要](212) [HTML](82) [PDF 1.53 M](537)
    摘要:
    在跨场景、跨设备的行人重识别中虽然增加了可利用的行人数据,但由于行人姿态不同、部分遮挡现象,难以避免引入样本噪声,在聚类过程中易生成错误的伪标签,造成标签噪声,影响模型的优化。为减弱噪声影响,应用相机感知的距离矩阵对抗相机偏移引起的样本噪声问题,利用对噪声鲁棒的动态对称对比损失减少标签噪声,提出基于相机感知距离矩阵的无监督行人重识别算法。在聚类前通过更改度量行人特征相似度的距离矩阵,利用相机感知距离矩阵来增强类内距离度量准确性,减少由于拍摄视角不同对聚类效果造成的负面影响。同时,结合噪声标签学习方法,进行损失设计,提出动态对称对比损失函数,联合损失训练,不断精炼伪标签。在DukeMTMC-reID和Market-1501两个数据集上进行实验,验证了提出方法的有效性。
    50  基于局部实例匹配无监督式学习的行人重识别
    吴海丽,张月琴,庞俊奇
    2023, 38(4):947-958. DOI: 10.16337/j.1004-9037.2023.04.017
    [摘要](192) [HTML](191) [PDF 2.44 M](598)
    摘要:
    无监督域适应(Unsupervised domain adaptation,UDA)方法通过全局特征分布匹配实现源域到目标域的知识迁移,但忽略了细粒度的局部实例信息。本文提出了一种基于双层域自适应(Two-tiered domain adaptation,TTDA)的无监督行人重识别方法,使用全尺寸网络(Omni-scale network,OSNet)作为骨干网络,在端到端深度学习框架中联合执行源域和目标域之间的全局特征分布匹配和局部实例匹配,从源域和目标域之间不同行人ID的关联中挖掘可迁移的有用知识,并通过知识选择机制提高了跨域适应性。在多个大型公开数据集上的实验结果表明,与其他先进方法相比,所提方法在源域到目标域的无监督行人重识别的平均精度均值(mean Average precision,mAP)和top-k命中率均取得显著提升。
    51  基于改进型Transformer编码器和特征融合的行人重识别
    赵倩,薛超晨,赵琰
    2023, 38(2):375-385. DOI: 10.16337/j.1004-9037.2023.02.013
    [摘要](211) [HTML](349) [PDF 2.69 M](1431)
    摘要:
    为了解决Transformer编码器在行人重识别中因图像块信息丢失以及行人局部特征表达不充分导致模型识别准确率低的问题,本文提出改进型Transformer编码器和特征融合的行人重识别算法。针对Transformer在注意力运算时会丢失行人图像块相对位置信息的问题,引入相对位置编码,促使网络关注行人图像块语义化的特征信息,以增强行人特征的提取能力。为了突出包含行人区域的显著特征,将局部patch注意力机制模块嵌入到Transformer网络中,对局部关键特征信息进行加权强化。最后,利用全局与局部信息特征融合实现特征间的优势互补,提高模型识别能力。训练阶段使用Softmax及三元组损失函数联合优化网络,本文算法在Market1501和DukeMTMC-reID两大主流数据集中评估测试,Rank-1指标分别达到97.5%和93.5%,平均精度均值(mean Average precision, mAP)分别达到92.3%和83.1%,实验结果表明改进型Transformer编码器和特征融合算法能够有效提高行人重识别的准确率。
    52  特征分块重构的视频行人重识别算法
    王锦华,周非,白梦林,舒浩峰
    2023, 38(3):565-573. DOI: 10.16337/j.1004-9037.2023.03.006
    [摘要](125) [HTML](113) [PDF 1.48 M](705)
    摘要:
    基于视频的行人重识别是将一段视频轨迹与剪辑后的视频帧进行匹配,从而实现在不同的摄像头下识别同一行人。但由于现实场景的复杂性,采集到的行人轨迹会存在严重的外观丢失和错位,传统的三维卷积将不再适用于视频行人重识别任务。针对这一问题,提出三维特征分块重构模型,利用第一张特征图在水平分块的级别上对后续特征图进行对齐。在保证特征质量的前提下充分挖掘轨迹的时间信息,在特征重构模型后加入三维卷积核,并且将它与现有的三维卷积网络相结合。此外,还引入一种由粗到细的特征分块重构网络,不仅能使模型在两种不同尺度的空间维度上进行特征重构,还能进一步减少计算开销。实验表明,由粗到细的特征分块重构网络在MARS和DukeMTMC-VideoReID数据集上取得了良好的结果。
    53  基于多区域检测网络的复杂场景面部表情识别
    潘新辰,秦岭,杨小健
    2023, 38(6):1422-1433. DOI: 10.16337/j.1004-9037.2023.06.016
    [摘要](243) [HTML](45) [PDF 1.86 M](572)
    摘要:
    面部表情是人类情绪状态的最直观表现,卷积神经网络在面部表情识别上表现出了优异的性能。然而复杂场景下遮挡和姿势变化仍是面部表情自动识别的两个主要问题,它们会显著改变人脸的外观,从而影响最终的识别结果。针对面部表情识别中遮挡和姿势变化的问题,提出了一种基于双注意力和多区域检测网络的面部表情识别方法。双注意力用于提升整体网络的特征提取能力,使网络能够关注更详细的特征信息。多区域检测用于在遮挡和姿态变化的面部表情识别中自适应地捕捉重要的局部区域,抑制遮挡和姿势变化带来的负面影响。最终在AffectNet、RAF-DB和SFEW三种公开的自然场景面部表情数据集上验证了所提方法的有效性。
    54  基于特征金字塔分支和非局部关注的行人重识别
    孙明浩,王洪元,吴琳钰,张继,周群颖
    2023, 38(1):121-131. DOI: 10.16337/j.1004-9037.2023.01.010
    [摘要](386) [HTML](468) [PDF 1.58 M](1518)
    摘要:
    关注全局轮廓和行人局部细节对现有行人重识别方法非常重要。为了能够提取这些更具代表性的特征,提出一种基于特征金字塔分支和非局部关注模块的行人重识别网络方法来提取行人全局和局部表征特征。该方法首先引入一种轻量级别的特征金字塔分支结构,从不同的网络层中提取特征,并且聚合成一个双向金字塔结构。其次为进一步提高行人重识别的精度,使用非局部关注模块提取全局特征,这样既能获取行人的全局信息,又能注重行人的局部细节,使两者最终融合的特征更具代表性。最后将不同层间的特征融合起来,并使用联合损失函数策略对网络模型进行训练,显著提高骨干网络的性能。通过在MSMT17、Market1501、DukeMTMC-ReID和PersonX四个公共行人重识别数据集上的大量实验,证明所提出的基于特征金字塔分支和非局部关注的方法相较于目前一些先进的行人重识别方法,具有一定的竞争力。
    55  基于CNN-LSTM双流融合网络的危险行为识别
    高治军,顾巧瑜,陈平,韩忠华
    2023, 38(1):132-140. DOI: 10.16337/j.1004-9037.2023.01.011
    [摘要](589) [HTML](211) [PDF 1.25 M](1295)
    摘要:
    针对目前人体危险行为识别过程中由于时空特征挖掘不充分导致精度不够的问题,对传统双流卷积模型进行改进,提出了一种基于CNN-LSTM的双流卷积危险行为识别模型。该模型将CNN网络与LSTM网络并联, 其中CNN网络作为空间流,将人体骨架空间运动姿态分为静态与动态特征进行分别提取,两者融合作为空间流的输出;在时间流中采用改进的可滑动长短时记忆网络,以增加人体骨架时序特征的提取能力;最后将两个分支进行时空融合,利用Softmax对危险动作做出分类识别。在公开的NTU-RGB+D数据集和Kinetics数据集上的实验结果表明,改进后模型的平均跨角度(Cross view,CV)精度达到92.5%,平均跨视角(Cross subject,CS)精度为87.9%。 所提方法优于改进前及其他方法,可以有效地对人体危险动作做出识别,同时对于模糊动作也有较好的区分效果。
    56  基于GPU的长轨SAR实时成像算法
    谭运馨,黄海风,赖涛,但琪洪,欧鹏飞
    2023, 38(6):1380-1391. DOI: 10.16337/j.1004-9037.2023.06.013
    [摘要](251) [HTML](80) [PDF 2.67 M](734)
    摘要:
    为了满足长轨道超高分辨 W波段合成孔径雷达(Synthetic aperture radar,SAR)的快速成像需求,本文提出了一种基于图形处理器 (Graphics processing unit,GPU)的 ω-K实时成像算法,该算法采用并行架构和双流多线程的处理方式。默认流沿着物理原理的方向进行数据处理,首先对距离补偿、误差校正和补零等操作进行并行化处理,然后采用一层嵌套的插值方式,通过维持上下层的依赖关系和同步管理就能达到约30的加速比。阻塞流与默认流同时启动,生成默认流所需的参数和函数,并在执行前将其存入显存,极大地缩小了算法的运行时间,同时通过在默认流上设置事件以保持双流的同步并行执行。实验结果表明,算法总的加速比可达13左右,幅值和相位相对误差趋近0,不仅具有良好的实时性、聚焦性,还保持了良好的成像效果。
    57  跨模态视觉问答与推理研究进展
    张飞飞,张建庆,屈思佳,周琬婷
    2023, 38(1):1-20. DOI: 10.16337/j.1004-9037.2023.01.001
    [摘要](675) [HTML](659) [PDF 1.95 M](2453)
    摘要:
    随着社交媒体和人机交互技术的快速发展,视频、图像以及文本等多模态数据在互联网中呈爆炸式增长,因此多模态智能研究受到关注。其中,视觉问答与推理任务是跨模态智能研究的一个重要组成部分,也是人类实现人工智能的重要基础,已成功应用于人机交互、智能医疗以及无人驾驶等领域。本文对视觉问答与推理的相关算法进行了全面概括和归类分析。首先,介绍了视觉问答与推理的定义,并简述了当前该任务面临的挑战;其次,从基于注意力机制、基于图网络、基于预训练、基于外部知识库和基于可解释推理机制5个方面对现有方法进行总结和归纳;然后,全面介绍了视觉问答与推理常用公开数据集,并对相关数据集上的已有算法进行详细分析;最后,对视觉问答与推理任务的未来方向进行了展望。
    58  图文跨模态检索研究进展
    张飞飞,马泽伟,周玲,孟铃涛
    2023, 38(3):479-505. DOI: 10.16337/j.1004-9037.2023.03.001
    [摘要](816) [HTML](430) [PDF 3.48 M](3300)
    摘要:
    随着互联网技术的迅速发展,文本和图像等各种类型的数据在网络上呈现爆发式增长,如何从这些多源异构且语义关联的多模态数据中获取有价值的信息则尤为重要。跨模态检索能够突破模态的限制,跨越不同模态的数据进行信息检索,满足用户获取有关事件信息的需求。近年来,跨模态检索已经成为了学术界和工业界研究的热点问题。本文聚焦于图文跨模态检索任务,首先介绍图文跨模态检索的定义,并分析说明了当前该任务面临的挑战。其次,对现有的研究方法进行归纳总结,将其分为3大类:(1)传统方法;(2)基于深度学习的方法;(3)基于哈希表示的方法。然后,详细介绍了图文跨模态检索的常用数据集,并对常用数据集上已有算法进行详细分析与比较。最后,对图文跨模态检索任务的未来发展方向进行展望。
    59  结构约束下的生成对抗深度图修复
    卢奇,龚勋
    2023, 38(5):1048-1057. DOI: 10.16337/j.1004-9037.2023.05.004
    [摘要](203) [HTML](119) [PDF 2.89 M](542)
    摘要:
    不同于纹理图像,深度图像中的像素点代表采集设备到场景各点的距离,直接使用通用图像修复方法并不能有效恢复深度图像中缺失区域的场景结构,本文提出一个两阶段编解码结构的生成对抗网络以解决深度图像修复问题。与常见生成对抗网络(Generative adversarial networks,GAN)模型不同,本文的生成器网络包括深度生成G1和深度修复G2两个模块。G1模块从RGB图像得到预测深度,替换待修复深度图像缺失区域,保证修复区域局部结构一致性。G2模块引入RGB图像边缘结构,保证全局结构一致性。针对现有图像修复方法没有考虑到修复区域间的一致性问题,设计结构一致注意力模块(Structure coherent attention,SCA)加入到G2中改善修复效果。本文提出的深度图像修复模型在主流数据集上进行了验证,利用结构约束并经过两阶段的生成器模型和判别器模型的共同作用,有效改善了深度图像修复效果。
    60  改进YOLOv5的轻量化交通标志检测算法
    贾子豪,王文青,刘光灿
    2023, 38(6):1434-1444. DOI: 10.16337/j.1004-9037.2023.06.017
    [摘要](220) [HTML](72) [PDF 3.82 M](698)
    摘要:
    随着当今时代科技和人工智能的高速发展,人们越来越倾向于无人驾驶这项技术。考虑到安全问题,针对驾驶过程中交通标志的实时检测问题,在YOLOv5模型的基础上做出改进,提出了一种轻量化的交通标志检测算法。在模型的特征融合部分加入了注意力机制,可以使模型更加突出目标特征。在检测层前加入一种轻量化的亚像素卷积层,在不增加计算量的基础上,有效地提高检测特征图的分辨率。对损失函数CIoU(Complete intersection over union)加以改进,加快了网络的收敛速度,并且收敛效果较改进前有了一定提升。实验结果表明,本文模型准确率可达到90.6%,较基础网络提高了14.5%,检测速度可达到70 帧/s,基本满足对交通标志的实时精准检测。