图像和视频处理

  • 显示方式:
  • 简洁模式
  • 摘要模式
  • 1  基于GhostNet与注意力机制的行人检测跟踪算法
    王立辉,杨贤昭,刘惠康,黄晶晶
    2022, 37(1):108-121. DOI: 10.16337/j.1004-9037.2022.01.009
    [摘要](697) [HTML](1636) [PDF 4.40 M](2240)
    摘要:
    针对复杂场景下仅依靠传统的目标检测与跟踪算法进行跟踪时准确度低且速度慢的问题,提出一种基于GhostNet与注意力机制结合的行人检测与跟踪算法。首先,将YOLOv3的主干网络替换为GhostNet,保留多尺度预测部分,利用Ghost模块减少深度网络模型参数和计算量,在Ghost模块中融入注意力机制给予重要特征更高的权值。然后,引入目标检测的直接评价指标GIoU来指导回归任务。最后,利用Deep-Sort算法进行跟踪。在公共数据集上实验表明,改进后的模型平均精确度均值(mean Average precision,mAP)达到了92.53%,帧速率是YOLOv3模型的2.5倍;所提算法跟踪准确度优于改进前及其他算法,可以精确有效地跟踪复杂场景下的多目标行人,并具有较强的鲁棒性。
    2  基于SSD深度神经网络的航拍图像电力目标检测
    石鑫,化晨冰,张凯,王才建,王士勇
    2022, 37(1):207-216. DOI: 10.16337/j.1004-9037.2022.01.018
    [摘要](569) [HTML](956) [PDF 2.64 M](2318)
    摘要:
    为了提高农村配电网智能化设计水平,满足配电线杆路径自动规划的需求,本文利用深度神经网络对配电网规划区域航拍图像中的典型电力目标进行识别以实现可行区域的自动筛选。首先利用无人机航拍获得配电网规划区域的高分辨率图像,构建了包含11类、32 118个典型电力目标的数据集。然后通过对Faster-RCNN、YOLO、SSD(Single shot multibox detector)三种网络模型的实用对比,确定采用SSD网络进行典型电力目标的检测与识别,最终给出了配电网线杆规划的可行区域。实验表明,相比于Faster-RCNN与YOLO网络模型,SSD网络模型能够对变电站、配电室、箱变等典型电力目标进行有效的检测与识别,识别准确率为68.5%,达到了实用的要求。本文提出的智能识别方式为电力设计提供了技术支持,降低了配电网设计的人工成本并提高了效率。
    3  基于FPGA的JPEG图像数字水印系统
    陈鑫,石东,张颖
    2022, 37(1):240-246. DOI: 10.16337/j.1004-9037.2022.01.021
    [摘要](749) [HTML](650) [PDF 1.74 M](1978)
    摘要:
    设计了一种基于FPGA的JPEG压缩域数字水印系统,可在JPEG图像中实时嵌入水印信息。在对水印信息作二值化和Arnold置乱预处理后,通过改进的LSB嵌入算法将水印信息嵌入到量化后的DCT系数中,经熵编码后生成JPEG压缩文件,完成JPEG压缩域的数字水印嵌入。最后,采用FPGA开发板和上位机对本文设计进行软硬件联合测试。测试结果验证了本文提出的嵌入算法具有较好的不可见性和鲁棒性,以及较高的数据吞吐率。
    4  基于瞬态图像的非视距成像技术综述
    梁云,宋柏延
    2022, 37(1):21-34. DOI: 10.16337/j.1004-9037.2022.01.002
    [摘要](820) [HTML](1817) [PDF 3.26 M](2924)
    摘要:
    瞬态图像是一种场景对光脉冲进行响应的快速图像序列。通过对时间维度信息的捕获,瞬态图像实现了对时域中蕴藏的场景信息的有效利用,而非视距成像是瞬态图像在场景解析领域中最典型的应用。非视距成像是一种对视线范围外物体或场景进行成像的技术,近几年在国内外广受关注。本文根据不同的成像机理,对瞬态图像的不同成像方式进行分类,并根据算法原理或实现效果的不同,对比了多种基于瞬态图像的非视距成像算法。最后总结了基于瞬态图像的非视距成像技术面临的挑战,并展望了未来的发展方向。
    5  基于多尺度注意力特征与孪生判别的遥感影像变化检测及其抗噪性研究
    杜俊翰,赖健,王雪,谭琨
    2022, 37(1):35-48. DOI: 10.16337/j.1004-9037.2022.01.003
    [摘要](628) [HTML](1545) [PDF 4.94 M](2191)
    摘要:
    遥感影像在实际土地监测中其检测精度会受到影像数据中噪声的影响。为了提升变化检测方法的精度,本文提出了一种结合多尺度特征提取和注意力机制的孪生卷积神经网络的变化检测方法。首先使用含有不同膨胀率的空洞卷积和空间注意力模块组成多尺度特征提取模块;然后将同一卷积层的特征图相减获取前后两时期影像的差异特征图,并使用通道注意力机制增强特征提取效果;最后通过全连接层输出变化检测结果。将本文方法与目前已有的一些变化检测方法在未添加噪声的原始遥感影像数据和添加噪声后的遥感影像数据上进行对比分析。结果表明:(1)支持向量机这类采用单个像素光谱信息作为输入的方法受图像中噪声影响较大,以卷积神经网络为基础的方法受噪声影响较小;(2)本文提出的变化检测方法与其他方法相比检测精度较高且受噪声影响较小,获得了较好的变化检测结果。
    6  基于层级注意力增进网络的多尺寸遮挡人脸检测
    王麟阁,蒋宝军,潘铁军
    2022, 37(1):73-81. DOI: 10.16337/j.1004-9037.2022.01.006
    [摘要](575) [HTML](1458) [PDF 3.28 M](1829)
    摘要:
    在SSD(Single shot multibox detector)单阶段人脸检测模型的基础上,针对复杂局部遮挡下人脸检测精确性差的问题,提出了一种基于层级注意力增进网络的多尺寸遮挡人脸检测方法。首先,在SSD基础网络的多层初始特征图上,通过引入注意力增进机制提升人脸可见区域的响应值。然后为不同增强特征层设计不同尺寸的锚框,以提高对多尺寸遮挡人脸的分层识别效果。最后在训练时将注意力损失函数、分类损失函数和回归损失函数融合为多任务损失函数,共同优化网络参数。在WIDER FACE人脸数据集和MAFA遮挡人脸数据集上的实验表明,本文方法的检测精确性和时效性均优于目前主流遮挡人脸检测方法。
    7  一种基于幂指数拉伸的去雾算法
    李忠国,吴昊宸,付启高,席茜,吴金坤
    2022, 37(1):62-72. DOI: 10.16337/j.1004-9037.2022.01.005
    [摘要](433) [HTML](1421) [PDF 2.75 M](1772)
    摘要:
    比较同一场景无雾和有雾时图像RGB(Red-green-blue)三通道和HSV(Hue-saturation-value)三通道的变化,提出一种基于幂指数拉伸的去雾算法。首先将图像从RGB变换到HSV空间,将饱和度分量和亮度分量分别作1~3的幂指数拉伸和调整,将拉伸变换后分量生成HSV图像再变换到RGB空间,生成增强后的去雾图像。以饱和度均值、亮度指标、信息熵和对比度作为去雾评价的指标,确定最优的拉伸幂指数组合。然后使用最优幂指数完成去雾处理,同时根据图像饱和变化的阈值或时间间隔长度决定是否重新寻找最优拉伸幂指数。最后使用Python软件,借助多进程编程实现本文去雾算法。当图像分辨率为400像素×300像素时,树莓派上运行时幂指数参数寻优用时为5.077~6.160 s,单帧图像去雾用时第1帧时间长为0.308 s,其余时间为0.077~0.168 s,结果验证了本文算法的实时性。
    8  基于特征工程和支持向量机的甲烷预混火焰当量比测量
    陈长友,傅钰雯,涂沛驰,舒文,杨健晟
    2022, 37(1):194-206. DOI: 10.16337/j.1004-9037.2022.01.017
    [摘要](606) [HTML](1579) [PDF 1.35 M](1819)
    摘要:
    利用火焰颜色建模测量火焰当量比是燃烧诊断技术的一个新兴研究方向。目前的建模方法主要利用RGB(Red-green-blue)模型中蓝色/绿色特征(B/G)作为模型输入,但通过单一颜色比值简单拟合得到的颜色-当量比模型存在较大的不确定性及测量误差,因此本文提出利用多颜色模型下的多颜色特征参数作为模型输入。首先,采用数字火焰颜色分布(Digital flame colour distribution, DFCD)技术对采集甲烷燃烧预混火焰图像进行处理并获取火焰图像目标区域(Region of interest, RoI)。其次,综合分析火焰颜色特征变量构建特征工程,设计并提取火焰目标区域的不同颜色模型下的多颜色特征,共计36维火焰颜色特征,利用Spearman秩相关性分析与随机森林(Random forest, RF)算法筛选出表征燃烧当量比更深层的颜色特征,得到16维优质特征子集。最后,通过优化持向量机(Support vector machine,SVM)参数选择,并采用网格搜索方法(Grid search method, GSM)寻求最优参数优化SVM,进一步利用特征工程构建得到的特征子集训练SVM以建立预混火焰燃烧当量比软测量模型。将该算法与传统的BP神经网络和极限学习(Extreme learning machine, ELM)算法进行对比,实验结果表明,本文方法具有较好的回归预测效果,均方误差(Mean square error, MSE)低至0.023。
    9  视觉引导下的运动执行与运动想象EEG时频特征对比分析
    伍彪,覃兵,吴鑫,周璐,钱志余,李韪韬,高凡,祝桥桥
    2022, 37(1):164-172. DOI: 10.16337/j.1004-9037.2022.01.014
    [摘要](792) [HTML](1608) [PDF 2.03 M](2292)
    摘要:
    近年来基于运动想象(Motor imagery,MI)的脑-机接口(Brain-computer interface,BCI)技术迅速发展,广泛运用于各个领域。为了比较运动执行(Motor execution,ME)与MI脑电活动的差异,本文提出一种基于脑电信号(Electroencephalogram,EEG)时频域分析的方法。通过设计视觉诱导的上肢ME与MI对照实验,对被采集的10名健康被试的EEG数据进行预处理,并提取各波段特征值,最后分析ME与MI各波段功率值和同一波段功率差值。结果显示,MI过程alpha波为优势波,ME过程delta波为优势波。与MI相比,ME中alpha波呈下降趋势,delta波呈上升趋势。本研究结果表明,ME与MI的脑电活动有明显差异性,为进一步提高基于MI的BCI系统的实时性和普适性提供了理论和数据支撑。
    10  融合注意力机制的双路径孪生视觉跟踪方法
    谢江,朱艳,沈韬,曾凯,刘英莉
    2022, 37(1):94-107. DOI: 10.16337/j.1004-9037.2022.01.008
    [摘要](782) [HTML](1735) [PDF 4.01 M](1987)
    摘要:
    传统基于孪生网络的视觉跟踪方法在训练时是通过从大量视频中提取成对帧并且在线下独立进行训练而成,缺乏对模型特征的更新,并且会忽略背景信息,在背景驳杂等复杂环境下跟踪精度较低。针对上述问题,提出了一种融合注意力机制的双路径孪生网络视觉跟踪算法。该算法主要包括特征提取器部分和特征融合部分。特征提取器部分对残差网络进行改进,设计了一种双路径网络模型;通过结合残差网络对前层特征的复用性和密集连接网络对新特征的提取,将2种网络拼接后用于特征提取;同时采用膨胀卷积代替传统卷积方式,在保持一定感受视野的情况下提高了分辨率。这种双路径特征提取方式可以隐式地更新模型特征,获得更准确的图像特征信息。特征融合部分引入注意力机制,对特征图不同部分分配权重。通道域上筛选出有价值的目标图像信息,增强通道间的相互依赖;空间域上则更加关注局部重要信息,学习更丰富的上下文联系,有效地提高了目标跟踪的精度。为证明该方法的有效性,在OTB100和VOT2016数据集上进行验证,分别使用精确率(Precision)、成功率(Success rate)和平均重叠期望(Expect average overlaprate,EAO)作为评价标准。结果显示,本文算法的精确率、成功率和平均重叠期望分别为0.868、0.641和0.350;相比基准模型分别提高了5.1%、2.0%和0.9%。结果证明本文算法充分利用了不同网络的优点,在保证模型精度的同时,能够较好地适应目标外观的变化,降低相似物的干扰,取得更稳定的跟踪效果。
    11  基于优化循环生成对抗网络的医学图像合成方法
    曹国刚,刘顺堃,毛红东,张术,陈颖,戴翠霞
    2022, 37(1):155-163. DOI: 10.16337/j.1004-9037.2022.01.013
    [摘要](767) [HTML](1413) [PDF 1.56 M](2168)
    摘要:
    放射治疗计划系统需要CT图像准确计算剂量分布,但有时临床只能获得MR图像。图像合成能有效利用现有图像合成新模态图像,从而增强图像信息。针对MR图像生成CT图像问题,综合循环一致生成对抗网络不成对数据可训练合成新模态图像的特点,以及密集连接网络的特征复用和优化信息流传播的优点,提出融合密集连接的循环生成对抗网络模型,改善输入信息的消失和梯度信息稀释,合成更可信的CT图像。在18个病人的数据集上训练和验证模型,优化后的循环生成对抗网络与原方法相比,平均绝对误差降低了3.91%,结构相似性提高了1.1%,峰值信噪比提高了4.4%;与深度卷积神经网络模型和基于图谱方法比较,相对误差分别降低了0.065%和0.55%。本文利用深度学习模型优点,能根据MR图像合成更接近真实的CT图像,更好地满足放射治疗计划系统剂量计算的需求。
    12  基于难样本混淆增强特征鲁棒性的行人重识别
    郝玲,段断忠,庞健
    2022, 37(1):122-133. DOI: 10.16337/j.1004-9037.2022.01.010
    [摘要](455) [HTML](1353) [PDF 11.46 M](2326)
    摘要:
    随着深度学习的兴起,行人重识别逐渐成为计算机领域的热门话题。它通过给定的查询行人图像进行跨摄像机检索,找出与查询身份相匹配的行人。然而,由于受到不同视角下的背景、光照等因素影响,采集到的行人图像中存在大量的难样本,利用这些难样本训练得到的模型识别性能低下,缺乏鲁棒性。因此,为了提高模型对难样本的鉴别能力,设计了一种新颖的通过混淆因子合成具有难样本信息图像的方法。对于每批输入图片,通过相似性度量寻找每张图像对应的难样本,结合混淆因子合成具有难样本信息的新图像再以有监督的方式促使模型挖掘难样本信息,从而提高模型鲁棒性。大量对比实验表明,所提方法在主流数据集上达到了较高的识别率,消融实验证明了所提方法的有效性。
    13  基于通用目标检测器的大坝裂缝检测方法
    赵凡,李琳芸,魏仁杰,张志伟
    2022, 37(2):405-414. DOI: 10.16337/j.1004-9037.2022.02.013
    [摘要](653) [HTML](1280) [PDF 4.23 M](3062)
    摘要:
    针对现有大坝病害检测方法只能粗略定位裂缝所在区域的问题,提出了一种基于通用目标检测器的大坝裂缝提取方法。首先,设计了一个二目标检测器,把裂缝区域和水渍区域作为两个独立的目标在图像上同时检测出来;其次,建立和同一裂缝关联的裂缝区域和水渍区域几何位置关系;最后,对裂缝框中包含的水渍框上边界进行点均匀采样,对采样点进行曲线拟合得到裂缝曲线。实验结果表明:提出的算法不仅能够准确检测裂缝框和水渍框,而且能完整地拟合出裂缝曲线,并在毫米级宽度的大坝病害检测中进行了有效验证。
    14  局部与全局双重特征融合的自然场景文本检测
    李云洪,闫君宏,胡蕾
    2022, 37(2):415-425. DOI: 10.16337/j.1004-9037.2022.02.014
    [摘要](597) [HTML](1094) [PDF 1.89 M](1866)
    摘要:
    自然场景中文本的形状、方向和类别等变化丰富,场景文本检测仍然面临挑战。为了能够更好地将文本与非文本分隔并准确定位自然场景图像中的文本区域,本文提出一种局部与全局双重特征融合的文本检测网络,通过跳跃连接的方式实现多尺度全局特征融合,对恒等残差块进行改进实现局部细粒度特征融合,从而减少特征信息丢失,增强对文本区域特征提取力度,并采用多边形偏移文本域与文本边缘信息相结合的方式准确定位文本区域。为了评估本文方法的有效性,在现有经典数据集ICDAR2015和CTW1500上进行了多组对比实验,实验结果表明在复杂场景下该方法文本检测的性能更加卓越。
    15  基于深度学习的计算机视觉研究新进展
    卢宏涛,罗沐昆
    2022, 37(2):247-278. DOI: 10.16337/j.1004-9037.2022.02.001
    [摘要](2778) [HTML](3542) [PDF 12.48 M](5007)
    摘要:
    近年来,深度学习在计算机视觉各个领域中的应用成效显著,新的深度学习方法和深度神经网络模型不断涌现,算法性能被不断刷新。本文着眼于2016年以来的一些典型网络和模型,对基于深度学习的计算机视觉研究新进展进行综述。首先总结了针对图像分类的主流深度神经网络模型,包括标准模型及轻量化模型等;然后总结了针对不同计算机视觉领域的主流方法和模型,包括目标检测、图像分割和图像超分辨率等;最后总结了深度神经网络搜索方法。
    16  基于图像插值的小样本手写数字识别研究
    宋伟,谢建平,高倩,谢良旭,许晓军
    2022, 37(2):298-307. DOI: 10.16337/j.1004-9037.2022.02.004
    [摘要](719) [HTML](897) [PDF 1.80 M](1773)
    摘要:
    人工智能方法的高性能通常需要有充足的数据来训练模型参数。如何在数据量不足的情况下提升模型的性能,即小样本学习,是人工智能领域的重要研究方向之一。本文提出了基于图像插值的小样本学习策略,并在手写数字图像识别任务中验证了该策略的可行性。系统研究了全连接神经网络和卷积神经网络对MNIST和USPS手写数字图像识别的小样本学习性能。计算结果表明,基于图像插值的数据增强方法可以显著提升神经网络在小样本数据中的特征提取能力和学习效率,且选择合适的图像插值缩放系数可以进一步优化神经网络的小样本学习性能。
    17  基于几何-语义联合约束的动态环境视觉SLAM算法
    沈晔湖,陈嘉皓,李星,蒋全胜,谢鸥,牛雪梅,朱其新
    2022, 37(3):597-608. DOI: 10.16337/j.1004-9037.2022.03.010
    [摘要](1100) [HTML](694) [PDF 1.53 M](8678)
    摘要:
    传统视觉同步定位和地图构建(Simultaneous localization and mapping, SLAM)算法建立在静态环境假设的基础之上,当场景中出现动态物体时,会影响系统稳定性,造成位姿估计精度下降。现有方法大多基于概率统计和几何约束来减轻少量动态物体对视觉SLAM系统的影响,但是当场景中动态物体较多时,这些方法失效。针对这一问题,本文提出了一种将动态视觉SLAM算法与多目标跟踪算法相结合的方法。首先采用实例语义分割网络,结合几何约束,在有效地分离静态特征点和动态特征点的同时,进一步实现多目标跟踪,改善跟踪结果,并能够获得运动物体的轨迹和速度矢量信息,从而能够更好地为机器人自主导航提供决策信息。在KITTI数据集上的实验表明,该算法在动态场景中相较ORB-SLAM2算法精度提高了28%。
    18  面向学位服照片生成的虚拟试衣方法
    盛培卓,李婷玉,李天宝,宋丹,刘安安
    2022, 37(5):1145-1156. DOI: 10.16337/j.1004-9037.2022.05.019
    [摘要](727) [HTML](445) [PDF 2.98 M](1801)
    摘要:
    为了解决现有虚拟试衣方法不能适用于学位服的问题,提出一种面向学位服照片生成的虚拟试衣方法。该方法首先对由服装变形模块和虚拟试穿模块构成的基于图像的虚拟试衣网络进行训练,将人像与学位服图像通过训练后的网络生成试衣结果。随后,将生成的学位服试衣结果通过背景融合模块与特定背景进行合成。实验过程中,本文构建了一个新的学位服与长裙的数据集。从实验结果来看,本文提出的算法能够在很大程度上减少原人像中衣服对学位服试穿的影响,能够较好地完成学位服的试穿工作并生成较为理想的试穿结果。
    19  深度学习在有限视角稀疏采样光声图像重建中的应用
    孙正,候英飒
    2022, 37(5):971-983. DOI: 10.16337/j.1004-9037.2022.05.001
    [摘要](973) [HTML](561) [PDF 4.04 M](3829)
    摘要:
    光声成像(Photoacoustic imaging, PAI)是一种多物理场耦合的新型功能成像技术,高质量图像重建是提高成像精度的关键。当探测器采集的光声信号数据不完备时,若采用标准重建方法(如反投影、时间反演和延迟求和等)会导致图像质量以及成像深度的下降。迭代重建算法可在一定程度上解决此问题,但存在计算成本高、需合理选择正则化方法等缺点。近年来,深度学习已经成为医学成像领域的首选方法,其在高效率重建高质量图像方面展现出了巨大潜力。本文对深度学习在有限角度稀疏采样光声图像重建中的应用进展进行总结,对主要方法进行分类归纳,并讨论不同方法的优势和不足。
    20  一种基于格雷码置乱与分块混沌置乱的医学影像隐私保护分类方案
    陈国明,袁泽铎,龙舜,麦舒桃
    2022, 37(5):984-996. DOI: 10.16337/j.1004-9037.2022.05.004
    [摘要](685) [HTML](444) [PDF 4.70 M](1889)
    摘要:
    针对传统隐私保护机器学习方案抵抗对抗攻击能力较弱的特点,提出一种基于格雷码置乱和分块混沌置乱的医学影像加密方案(Gray + block chaotic scrambling optimized for medical image encryption,GBCS),并应用于隐私保护的分类挖掘。首先对图像进行位平面切割;然后,对图像不同位平面进行格雷码置乱后再进行分块,在分块的基础上分别进行混沌加密;最后通过深度网络对加密后的图像进行分类学习。通过在公开乳腺癌和青光眼数据集上进行交叉验证仿真实验,对GBCS 的隐私保护与分类性能进行量化分析,并从图像直方图、信息熵和对抗攻击能力等指标考虑其安全性。实验结果表明医学图像在GBCS 加密前后的性能差距在可接受范围内,方案能更好地平衡性能与隐私保护的矛盾, 能有效抵御对抗样本的攻击,验证了本文方法的有效性。
    21  二次稀疏极端通道先验盲超声图像去模糊
    马倩,黄成泉,郑泽鸿
    2022, 37(5):1092-1100. DOI: 10.16337/j.1004-9037.2022.05.014
    [摘要](493) [HTML](301) [PDF 1.90 M](1840)
    摘要:
    模糊的超声图像经过极端通道先验去模糊后不够稀疏,导致极端通道稀疏约束可能不存在。因此,为了充分利用图像通道信息,通过增强去模糊后超声图像的稀疏性,提出一种二次稀疏极端通道先验盲超声图像去模糊算法。首先,给出了相关的理论证明和实验说明二次稀疏极端通道先验用于约束模糊超声图像的可行性;然后,充分利用暗通道和亮通道的先验信息,在交替迭代过程中采用半二次分裂方法估计中间图像和模糊核;最后,用傅里叶变换求得最终的清晰图像和模糊核。在超声图像集上的实验结果表明,本文提出的二次稀疏极端通道先验盲超声图像去模糊算法和其他超声图像去模糊方法相比更具可行性和优越性。
    22  一种水上航行场景可见光偏振图像融合方法
    姜阳,肖长诗,文元桥,詹文强,陈芊芊
    2022, 37(6):1376-1390. DOI: 10.16337/j.1004-9037.2022.06.018
    [摘要](404) [HTML](320) [PDF 3.68 M](1950)
    摘要:
    为了提升无人船(Unmanned surface vehicle, USV)在恶劣航行场景下的视觉感知能力,提出一种基于HSV(Hue, Saturation, Value)颜色空间的水上航行场景可见光偏振图像融合方法。根据水上航行场景的偏振特性,制定了不同区域的融合规则,再基于HSV颜色空间,融合原场景的颜色信息,实现了对恶劣航行场景图像的语义分割,并将测试结果进行对比分析。在耀斑场景下,综合像素精度(Pixel accuracy, PA)值为0.768 2。实验结果表明:该方法能增强图像对比度,凸显边缘轮廓信息,能够在恶劣航行场景下,稳定获得对比度较强、目标特性较好的特征信息,一定程度上提升了无人船在恶劣航行场景下的环境感知能力。
    23  用于烟雾病检测的Faster RCNN改进算法
    徐佳薇,武杰,雷宇,顾宇翔
    2022, 37(6):1391-1400. DOI: 10.16337/j.1004-9037.2022.06.019
    [摘要](524) [HTML](336) [PDF 1.34 M](1497)
    摘要:
    为了预防烟雾病引发的并发症威胁患者生命,需要对烟雾病进行及时有效的诊断。本文提出了一种改进的Faster RCNN算法用于烟雾病检测。首先,提取颈内动脉数字减影血管造影(Digital subtraction angiography,DSA)图像,并进行数据增强,训练集、验证集和测试集之比为6∶2∶2。使用ResNet101网络作为特征提取网络,避免血管特征在卷积和池化过程中产生模糊或丢失;结合区域生成网络(Region proposal network, RPN),定位烟雾病病灶的位置;再将Faster RCNN模型中的ROI Pooling替换为ROI Align进行特征映射,避免由量化带来的误差影响。本文采用平均精度(Average precision,AP)作为算法检测性能的评估指标,所用方法对正常样本和烟雾病样本检测的AP分别为99.23%和89.39%。实验结果表明,该方法可以实现烟雾病的快速有效检测,可在复杂的血管网中准确检测烟雾病病灶的位置,为烟雾病辅助诊断提供一定的技术支持。
    24  全变分极端通道先验的盲图像去噪去模糊
    胡雪,黄成泉,冯润,周丽华,郑兰
    2022, 37(3):643-656. DOI: 10.16337/j.1004-9037.2022.03.014
    [摘要](572) [HTML](352) [PDF 4.22 M](2192)
    摘要:
    图像先验是图像复原中求解不适定问题的关键。针对在图像具有显著噪声时,极端通道先验去模糊算法容易产生振铃伪影和无法抑制噪声的缺点,利用全变分模型可以同时抑制噪声和保护边缘的优势,提出一种有效的全变分极端通道先验的盲图像去噪和去模糊模型。首先,将全变分模型分别引入暗通道和亮通道中,用于保护图像的边缘及消除噪声或振铃伪影;其次,利用半二次分裂技术解决模型的非凸问题和估计潜在的清晰图像;最后,用迭代多尺度盲反褶积估计图像的模糊核。实验结果表明,该算法能够在抑制噪声的同时很好地保护图像的边缘细节和消除振铃伪影。相比近几年具有代表性的其他方法,该模型的鲁棒性、主观视觉效果和客观评价指标均有明显提高。
    25  基于CT图像的双重注意力网络急性胰腺炎诊断方法
    张进一,万鹏,孙亮,张道强
    2022, 37(1):147-154. DOI: 10.16337/j.1004-9037.2022.01.012
    [摘要](653) [HTML](1266) [PDF 2.27 M](2324)
    摘要:
    作为消化系统最常见的疾病之一,急性胰腺炎的医学影像仍使用简单的手工特征进行分析,效率与精度较低,与其危害性并不相称。由于胰腺的解剖变异性以及各种并发症,急性胰腺炎的影像表现复杂,不同患者不同种类的病灶差异大,基于CT影像的急性胰腺炎诊断难度较大。本文提出一种基于双重注意力网络用于诊断急性胰腺炎,该网络使用全局特征为不同阶段的局部特征生成局部注意力特征,使不同阶段的注意力特征关注不同尺度的病灶,最终通过融合对全局注意力特征进行分类。同时在生成注意力特征时,使用通道域注意力调整通道间的依赖,提高模型的表示能力。在真实的急性胰腺炎数据集上的实验结果表明,本文提出的网络取得了更好的急性胰腺炎诊断精度,相对原模型,灵敏度与曲线下面积(Area under the curve ,AUC)分别至少提升了3.4%,3.2%;相较其他注意力机制如SENet对ResNet模型的改进,AUC提升2.7%。