[page_title]

2022, 37(1):108-121. DOI: 10.16337/j.1004-9037.2022.01.009

[摘要](828) [HTML](1808) [PDF 4.40 M](2311)

摘要:
针对复杂场景下仅依靠传统的目标检测与跟踪算法进行跟踪时准确度低且速度慢的问题，提出一种基于GhostNet与注意力机制结合的行人检测与跟踪算法。首先，将YOLOv3的主干网络替换为GhostNet，保留多尺度预测部分，利用Ghost模块减少深度网络模型参数和计算量，在Ghost模块中融入注意力机制给予重要特征更高的权值。然后，引入目标检测的直接评价指标GIoU来指导回归任务。最后，利用Deep-Sort算法进行跟踪。在公共数据集上实验表明，改进后的模型平均精确度均值（mean Average precision，mAP）达到了92.53%，帧速率是YOLOv3模型的2.5倍；所提算法跟踪准确度优于改进前及其他算法，可以精确有效地跟踪复杂场景下的多目标行人，并具有较强的鲁棒性。

2 基于SSD深度神经网络的航拍图像电力目标检测

石鑫，化晨冰，张凯，王才建，王士勇

2022, 37(1):207-216. DOI: 10.16337/j.1004-9037.2022.01.018

[摘要](738) [HTML](1023) [PDF 2.64 M](2387)

摘要:
为了提高农村配电网智能化设计水平，满足配电线杆路径自动规划的需求，本文利用深度神经网络对配电网规划区域航拍图像中的典型电力目标进行识别以实现可行区域的自动筛选。首先利用无人机航拍获得配电网规划区域的高分辨率图像，构建了包含11类、32 118个典型电力目标的数据集。然后通过对Faster-RCNN、YOLO、SSD（Single shot multibox detector）三种网络模型的实用对比，确定采用SSD网络进行典型电力目标的检测与识别，最终给出了配电网线杆规划的可行区域。实验表明，相比于Faster-RCNN与YOLO网络模型，SSD网络模型能够对变电站、配电室、箱变等典型电力目标进行有效的检测与识别，识别准确率为68.5%，达到了实用的要求。本文提出的智能识别方式为电力设计提供了技术支持，降低了配电网设计的人工成本并提高了效率。

3 基于FPGA的JPEG图像数字水印系统

陈鑫，石东，张颖

2022, 37(1):240-246. DOI: 10.16337/j.1004-9037.2022.01.021

[摘要](896) [HTML](764) [PDF 1.74 M](2034)

摘要:
设计了一种基于FPGA的JPEG压缩域数字水印系统，可在JPEG图像中实时嵌入水印信息。在对水印信息作二值化和Arnold置乱预处理后，通过改进的LSB嵌入算法将水印信息嵌入到量化后的DCT系数中，经熵编码后生成JPEG压缩文件，完成JPEG压缩域的数字水印嵌入。最后，采用FPGA开发板和上位机对本文设计进行软硬件联合测试。测试结果验证了本文提出的嵌入算法具有较好的不可见性和鲁棒性，以及较高的数据吞吐率。

4 基于瞬态图像的非视距成像技术综述

梁云，宋柏延

2022, 37(1):21-34. DOI: 10.16337/j.1004-9037.2022.01.002

[摘要](1038) [HTML](2060) [PDF 3.26 M](3005)

摘要:
瞬态图像是一种场景对光脉冲进行响应的快速图像序列。通过对时间维度信息的捕获，瞬态图像实现了对时域中蕴藏的场景信息的有效利用，而非视距成像是瞬态图像在场景解析领域中最典型的应用。非视距成像是一种对视线范围外物体或场景进行成像的技术，近几年在国内外广受关注。本文根据不同的成像机理，对瞬态图像的不同成像方式进行分类，并根据算法原理或实现效果的不同，对比了多种基于瞬态图像的非视距成像算法。最后总结了基于瞬态图像的非视距成像技术面临的挑战，并展望了未来的发展方向。

5 基于多尺度注意力特征与孪生判别的遥感影像变化检测及其抗噪性研究

杜俊翰，赖健，王雪，谭琨

2022, 37(1):35-48. DOI: 10.16337/j.1004-9037.2022.01.003

[摘要](742) [HTML](1651) [PDF 4.94 M](2285)

摘要:
遥感影像在实际土地监测中其检测精度会受到影像数据中噪声的影响。为了提升变化检测方法的精度，本文提出了一种结合多尺度特征提取和注意力机制的孪生卷积神经网络的变化检测方法。首先使用含有不同膨胀率的空洞卷积和空间注意力模块组成多尺度特征提取模块；然后将同一卷积层的特征图相减获取前后两时期影像的差异特征图，并使用通道注意力机制增强特征提取效果；最后通过全连接层输出变化检测结果。将本文方法与目前已有的一些变化检测方法在未添加噪声的原始遥感影像数据和添加噪声后的遥感影像数据上进行对比分析。结果表明：（1）支持向量机这类采用单个像素光谱信息作为输入的方法受图像中噪声影响较大，以卷积神经网络为基础的方法受噪声影响较小；（2）本文提出的变化检测方法与其他方法相比检测精度较高且受噪声影响较小，获得了较好的变化检测结果。

6 基于层级注意力增进网络的多尺寸遮挡人脸检测

王麟阁，蒋宝军，潘铁军

2022, 37(1):73-81. DOI: 10.16337/j.1004-9037.2022.01.006

[摘要](707) [HTML](1607) [PDF 3.28 M](1901)

摘要:
在SSD（Single shot multibox detector）单阶段人脸检测模型的基础上，针对复杂局部遮挡下人脸检测精确性差的问题，提出了一种基于层级注意力增进网络的多尺寸遮挡人脸检测方法。首先，在SSD基础网络的多层初始特征图上，通过引入注意力增进机制提升人脸可见区域的响应值。然后为不同增强特征层设计不同尺寸的锚框，以提高对多尺寸遮挡人脸的分层识别效果。最后在训练时将注意力损失函数、分类损失函数和回归损失函数融合为多任务损失函数，共同优化网络参数。在WIDER FACE人脸数据集和MAFA遮挡人脸数据集上的实验表明，本文方法的检测精确性和时效性均优于目前主流遮挡人脸检测方法。

7 一种基于幂指数拉伸的去雾算法

李忠国，吴昊宸，付启高，席茜，吴金坤

2022, 37(1):62-72. DOI: 10.16337/j.1004-9037.2022.01.005

[摘要](546) [HTML](1520) [PDF 2.75 M](1825)

摘要:
比较同一场景无雾和有雾时图像RGB（Red-green-blue）三通道和HSV（Hue-saturation-value）三通道的变化，提出一种基于幂指数拉伸的去雾算法。首先将图像从RGB变换到HSV空间，将饱和度分量和亮度分量分别作1~3的幂指数拉伸和调整，将拉伸变换后分量生成HSV图像再变换到RGB空间，生成增强后的去雾图像。以饱和度均值、亮度指标、信息熵和对比度作为去雾评价的指标，确定最优的拉伸幂指数组合。然后使用最优幂指数完成去雾处理，同时根据图像饱和变化的阈值或时间间隔长度决定是否重新寻找最优拉伸幂指数。最后使用Python软件，借助多进程编程实现本文去雾算法。当图像分辨率为400像素×300像素时，树莓派上运行时幂指数参数寻优用时为5.077~6.160 s，单帧图像去雾用时第1帧时间长为0.308 s，其余时间为0.077~0.168 s，结果验证了本文算法的实时性。

8 基于特征工程和支持向量机的甲烷预混火焰当量比测量

陈长友，傅钰雯，涂沛驰，舒文，杨健晟

2022, 37(1):194-206. DOI: 10.16337/j.1004-9037.2022.01.017

[摘要](732) [HTML](1688) [PDF 1.35 M](1888)

摘要:
利用火焰颜色建模测量火焰当量比是燃烧诊断技术的一个新兴研究方向。目前的建模方法主要利用RGB（Red-green-blue）模型中蓝色/绿色特征（B/G）作为模型输入，但通过单一颜色比值简单拟合得到的颜色-当量比模型存在较大的不确定性及测量误差，因此本文提出利用多颜色模型下的多颜色特征参数作为模型输入。首先，采用数字火焰颜色分布（Digital flame colour distribution， DFCD）技术对采集甲烷燃烧预混火焰图像进行处理并获取火焰图像目标区域（Region of interest， RoI）。其次，综合分析火焰颜色特征变量构建特征工程，设计并提取火焰目标区域的不同颜色模型下的多颜色特征，共计36维火焰颜色特征，利用Spearman秩相关性分析与随机森林（Random forest， RF）算法筛选出表征燃烧当量比更深层的颜色特征，得到16维优质特征子集。最后，通过优化持向量机（Support vector machine，SVM）参数选择，并采用网格搜索方法（Grid search method， GSM）寻求最优参数优化SVM，进一步利用特征工程构建得到的特征子集训练SVM以建立预混火焰燃烧当量比软测量模型。将该算法与传统的BP神经网络和极限学习（Extreme learning machine， ELM）算法进行对比，实验结果表明，本文方法具有较好的回归预测效果，均方误差（Mean square error， MSE）低至0.023。

9 视觉引导下的运动执行与运动想象EEG时频特征对比分析

伍彪，覃兵，吴鑫，周璐，钱志余，李韪韬，高凡，祝桥桥

2022, 37(1):164-172. DOI: 10.16337/j.1004-9037.2022.01.014

[摘要](991) [HTML](1768) [PDF 2.03 M](2353)

摘要:
近年来基于运动想象（Motor imagery，MI）的脑-机接口（Brain-computer interface，BCI）技术迅速发展，广泛运用于各个领域。为了比较运动执行（Motor execution，ME）与MI脑电活动的差异，本文提出一种基于脑电信号（Electroencephalogram，EEG）时频域分析的方法。通过设计视觉诱导的上肢ME与MI对照实验，对被采集的10名健康被试的EEG数据进行预处理，并提取各波段特征值，最后分析ME与MI各波段功率值和同一波段功率差值。结果显示，MI过程alpha波为优势波，ME过程delta波为优势波。与MI相比，ME中alpha波呈下降趋势，delta波呈上升趋势。本研究结果表明，ME与MI的脑电活动有明显差异性，为进一步提高基于MI的BCI系统的实时性和普适性提供了理论和数据支撑。

10 融合注意力机制的双路径孪生视觉跟踪方法

谢江，朱艳，沈韬，曾凯，刘英莉

2022, 37(1):94-107. DOI: 10.16337/j.1004-9037.2022.01.008

[摘要](946) [HTML](1913) [PDF 4.01 M](2038)

摘要:
传统基于孪生网络的视觉跟踪方法在训练时是通过从大量视频中提取成对帧并且在线下独立进行训练而成，缺乏对模型特征的更新，并且会忽略背景信息，在背景驳杂等复杂环境下跟踪精度较低。针对上述问题，提出了一种融合注意力机制的双路径孪生网络视觉跟踪算法。该算法主要包括特征提取器部分和特征融合部分。特征提取器部分对残差网络进行改进，设计了一种双路径网络模型；通过结合残差网络对前层特征的复用性和密集连接网络对新特征的提取，将2种网络拼接后用于特征提取；同时采用膨胀卷积代替传统卷积方式，在保持一定感受视野的情况下提高了分辨率。这种双路径特征提取方式可以隐式地更新模型特征，获得更准确的图像特征信息。特征融合部分引入注意力机制，对特征图不同部分分配权重。通道域上筛选出有价值的目标图像信息，增强通道间的相互依赖；空间域上则更加关注局部重要信息，学习更丰富的上下文联系，有效地提高了目标跟踪的精度。为证明该方法的有效性，在OTB100和VOT2016数据集上进行验证，分别使用精确率（Precision）、成功率（Success rate）和平均重叠期望（Expect average overlaprate，EAO）作为评价标准。结果显示，本文算法的精确率、成功率和平均重叠期望分别为0.868、0.641和0.350；相比基准模型分别提高了5.1%、2.0%和0.9%。结果证明本文算法充分利用了不同网络的优点，在保证模型精度的同时，能够较好地适应目标外观的变化，降低相似物的干扰，取得更稳定的跟踪效果。

11 基于优化循环生成对抗网络的医学图像合成方法

曹国刚，刘顺堃，毛红东，张术，陈颖，戴翠霞

2022, 37(1):155-163. DOI: 10.16337/j.1004-9037.2022.01.013

[摘要](927) [HTML](1547) [PDF 1.56 M](2247)

摘要:
放射治疗计划系统需要CT图像准确计算剂量分布，但有时临床只能获得MR图像。图像合成能有效利用现有图像合成新模态图像，从而增强图像信息。针对MR图像生成CT图像问题，综合循环一致生成对抗网络不成对数据可训练合成新模态图像的特点，以及密集连接网络的特征复用和优化信息流传播的优点，提出融合密集连接的循环生成对抗网络模型，改善输入信息的消失和梯度信息稀释，合成更可信的CT图像。在18个病人的数据集上训练和验证模型，优化后的循环生成对抗网络与原方法相比，平均绝对误差降低了3.91%，结构相似性提高了1.1%，峰值信噪比提高了4.4%；与深度卷积神经网络模型和基于图谱方法比较，相对误差分别降低了0.065%和0.55%。本文利用深度学习模型优点，能根据MR图像合成更接近真实的CT图像，更好地满足放射治疗计划系统剂量计算的需求。

12 基于难样本混淆增强特征鲁棒性的行人重识别

郝玲，段断忠，庞健

2022, 37(1):122-133. DOI: 10.16337/j.1004-9037.2022.01.010

[摘要](571) [HTML](1504) [PDF 11.46 M](2387)

摘要:
随着深度学习的兴起，行人重识别逐渐成为计算机领域的热门话题。它通过给定的查询行人图像进行跨摄像机检索，找出与查询身份相匹配的行人。然而，由于受到不同视角下的背景、光照等因素影响，采集到的行人图像中存在大量的难样本，利用这些难样本训练得到的模型识别性能低下，缺乏鲁棒性。因此，为了提高模型对难样本的鉴别能力，设计了一种新颖的通过混淆因子合成具有难样本信息图像的方法。对于每批输入图片，通过相似性度量寻找每张图像对应的难样本，结合混淆因子合成具有难样本信息的新图像再以有监督的方式促使模型挖掘难样本信息，从而提高模型鲁棒性。大量对比实验表明，所提方法在主流数据集上达到了较高的识别率，消融实验证明了所提方法的有效性。

13 基于通用目标检测器的大坝裂缝检测方法

赵凡，李琳芸，魏仁杰，张志伟

2022, 37(2):405-414. DOI: 10.16337/j.1004-9037.2022.02.013

[摘要](808) [HTML](1538) [PDF 4.23 M](3130)

摘要:
针对现有大坝病害检测方法只能粗略定位裂缝所在区域的问题，提出了一种基于通用目标检测器的大坝裂缝提取方法。首先，设计了一个二目标检测器，把裂缝区域和水渍区域作为两个独立的目标在图像上同时检测出来；其次，建立和同一裂缝关联的裂缝区域和水渍区域几何位置关系；最后，对裂缝框中包含的水渍框上边界进行点均匀采样，对采样点进行曲线拟合得到裂缝曲线。实验结果表明：提出的算法不仅能够准确检测裂缝框和水渍框，而且能完整地拟合出裂缝曲线，并在毫米级宽度的大坝病害检测中进行了有效验证。

14 局部与全局双重特征融合的自然场景文本检测

李云洪，闫君宏，胡蕾

2022, 37(2):415-425. DOI: 10.16337/j.1004-9037.2022.02.014

[摘要](713) [HTML](1168) [PDF 1.89 M](1913)

摘要:
自然场景中文本的形状、方向和类别等变化丰富，场景文本检测仍然面临挑战。为了能够更好地将文本与非文本分隔并准确定位自然场景图像中的文本区域，本文提出一种局部与全局双重特征融合的文本检测网络，通过跳跃连接的方式实现多尺度全局特征融合，对恒等残差块进行改进实现局部细粒度特征融合，从而减少特征信息丢失，增强对文本区域特征提取力度，并采用多边形偏移文本域与文本边缘信息相结合的方式准确定位文本区域。为了评估本文方法的有效性，在现有经典数据集ICDAR2015和CTW1500上进行了多组对比实验，实验结果表明在复杂场景下该方法文本检测的性能更加卓越。

15 基于深度学习的计算机视觉研究新进展

卢宏涛，罗沐昆

2022, 37(2):247-278. DOI: 10.16337/j.1004-9037.2022.02.001

[摘要](3252) [HTML](4012) [PDF 12.48 M](5098)

摘要:
近年来，深度学习在计算机视觉各个领域中的应用成效显著，新的深度学习方法和深度神经网络模型不断涌现，算法性能被不断刷新。本文着眼于2016年以来的一些典型网络和模型，对基于深度学习的计算机视觉研究新进展进行综述。首先总结了针对图像分类的主流深度神经网络模型，包括标准模型及轻量化模型等；然后总结了针对不同计算机视觉领域的主流方法和模型，包括目标检测、图像分割和图像超分辨率等；最后总结了深度神经网络搜索方法。

16 基于图像插值的小样本手写数字识别研究

宋伟，谢建平，高倩，谢良旭，许晓军

2022, 37(2):298-307. DOI: 10.16337/j.1004-9037.2022.02.004

[摘要](876) [HTML](1007) [PDF 1.80 M](1836)

摘要:
人工智能方法的高性能通常需要有充足的数据来训练模型参数。如何在数据量不足的情况下提升模型的性能，即小样本学习，是人工智能领域的重要研究方向之一。本文提出了基于图像插值的小样本学习策略，并在手写数字图像识别任务中验证了该策略的可行性。系统研究了全连接神经网络和卷积神经网络对MNIST和USPS手写数字图像识别的小样本学习性能。计算结果表明，基于图像插值的数据增强方法可以显著提升神经网络在小样本数据中的特征提取能力和学习效率，且选择合适的图像插值缩放系数可以进一步优化神经网络的小样本学习性能。

17 基于几何-语义联合约束的动态环境视觉SLAM算法

沈晔湖，陈嘉皓，李星，蒋全胜，谢鸥，牛雪梅，朱其新

2022, 37(3):597-608. DOI: 10.16337/j.1004-9037.2022.03.010

[摘要](1353) [HTML](988) [PDF 1.53 M](8786)

摘要:
传统视觉同步定位和地图构建（Simultaneous localization and mapping， SLAM）算法建立在静态环境假设的基础之上，当场景中出现动态物体时，会影响系统稳定性，造成位姿估计精度下降。现有方法大多基于概率统计和几何约束来减轻少量动态物体对视觉SLAM系统的影响，但是当场景中动态物体较多时，这些方法失效。针对这一问题，本文提出了一种将动态视觉SLAM算法与多目标跟踪算法相结合的方法。首先采用实例语义分割网络，结合几何约束，在有效地分离静态特征点和动态特征点的同时，进一步实现多目标跟踪，改善跟踪结果，并能够获得运动物体的轨迹和速度矢量信息，从而能够更好地为机器人自主导航提供决策信息。在KITTI数据集上的实验表明，该算法在动态场景中相较ORB-SLAM2算法精度提高了28%。

18 面向学位服照片生成的虚拟试衣方法

盛培卓，李婷玉，李天宝，宋丹，刘安安

2022, 37(5):1145-1156. DOI: 10.16337/j.1004-9037.2022.05.019

[摘要](880) [HTML](674) [PDF 2.98 M](1871)

摘要:
为了解决现有虚拟试衣方法不能适用于学位服的问题，提出一种面向学位服照片生成的虚拟试衣方法。该方法首先对由服装变形模块和虚拟试穿模块构成的基于图像的虚拟试衣网络进行训练，将人像与学位服图像通过训练后的网络生成试衣结果。随后，将生成的学位服试衣结果通过背景融合模块与特定背景进行合成。实验过程中，本文构建了一个新的学位服与长裙的数据集。从实验结果来看，本文提出的算法能够在很大程度上减少原人像中衣服对学位服试穿的影响，能够较好地完成学位服的试穿工作并生成较为理想的试穿结果。

19 深度学习在有限视角稀疏采样光声图像重建中的应用

孙正，候英飒

2022, 37(5):971-983. DOI: 10.16337/j.1004-9037.2022.05.001

[摘要](1257) [HTML](827) [PDF 4.04 M](3922)

摘要:
光声成像（Photoacoustic imaging， PAI）是一种多物理场耦合的新型功能成像技术，高质量图像重建是提高成像精度的关键。当探测器采集的光声信号数据不完备时，若采用标准重建方法（如反投影、时间反演和延迟求和等）会导致图像质量以及成像深度的下降。迭代重建算法可在一定程度上解决此问题，但存在计算成本高、需合理选择正则化方法等缺点。近年来，深度学习已经成为医学成像领域的首选方法，其在高效率重建高质量图像方面展现出了巨大潜力。本文对深度学习在有限角度稀疏采样光声图像重建中的应用进展进行总结，对主要方法进行分类归纳，并讨论不同方法的优势和不足。

20 一种基于格雷码置乱与分块混沌置乱的医学影像隐私保护分类方案

陈国明，袁泽铎，龙舜，麦舒桃

2022, 37(5):984-996. DOI: 10.16337/j.1004-9037.2022.05.004

[摘要](840) [HTML](662) [PDF 4.70 M](1946)

摘要:
针对传统隐私保护机器学习方案抵抗对抗攻击能力较弱的特点，提出一种基于格雷码置乱和分块混沌置乱的医学影像加密方案（Gray + block chaotic scrambling optimized for medical image encryption，GBCS），并应用于隐私保护的分类挖掘。首先对图像进行位平面切割；然后，对图像不同位平面进行格雷码置乱后再进行分块，在分块的基础上分别进行混沌加密；最后通过深度网络对加密后的图像进行分类学习。通过在公开乳腺癌和青光眼数据集上进行交叉验证仿真实验，对GBCS 的隐私保护与分类性能进行量化分析，并从图像直方图、信息熵和对抗攻击能力等指标考虑其安全性。实验结果表明医学图像在GBCS 加密前后的性能差距在可接受范围内，方案能更好地平衡性能与隐私保护的矛盾，能有效抵御对抗样本的攻击，验证了本文方法的有效性。

21 二次稀疏极端通道先验盲超声图像去模糊

马倩，黄成泉，郑泽鸿

2022, 37(5):1092-1100. DOI: 10.16337/j.1004-9037.2022.05.014

[摘要](624) [HTML](435) [PDF 1.90 M](1897)

摘要:
模糊的超声图像经过极端通道先验去模糊后不够稀疏，导致极端通道稀疏约束可能不存在。因此，为了充分利用图像通道信息，通过增强去模糊后超声图像的稀疏性，提出一种二次稀疏极端通道先验盲超声图像去模糊算法。首先，给出了相关的理论证明和实验说明二次稀疏极端通道先验用于约束模糊超声图像的可行性；然后，充分利用暗通道和亮通道的先验信息，在交替迭代过程中采用半二次分裂方法估计中间图像和模糊核；最后，用傅里叶变换求得最终的清晰图像和模糊核。在超声图像集上的实验结果表明，本文提出的二次稀疏极端通道先验盲超声图像去模糊算法和其他超声图像去模糊方法相比更具可行性和优越性。

22 一种水上航行场景可见光偏振图像融合方法

姜阳，肖长诗，文元桥，詹文强，陈芊芊

2022, 37(6):1376-1390. DOI: 10.16337/j.1004-9037.2022.06.018

[摘要](536) [HTML](456) [PDF 3.68 M](2022)

摘要:
为了提升无人船（Unmanned surface vehicle， USV）在恶劣航行场景下的视觉感知能力，提出一种基于HSV（Hue， Saturation， Value）颜色空间的水上航行场景可见光偏振图像融合方法。根据水上航行场景的偏振特性，制定了不同区域的融合规则，再基于HSV颜色空间，融合原场景的颜色信息，实现了对恶劣航行场景图像的语义分割，并将测试结果进行对比分析。在耀斑场景下，综合像素精度（Pixel accuracy， PA）值为0.768 2。实验结果表明：该方法能增强图像对比度，凸显边缘轮廓信息，能够在恶劣航行场景下，稳定获得对比度较强、目标特性较好的特征信息，一定程度上提升了无人船在恶劣航行场景下的环境感知能力。

23 用于烟雾病检测的Faster RCNN改进算法

徐佳薇，武杰，雷宇，顾宇翔

2022, 37(6):1391-1400. DOI: 10.16337/j.1004-9037.2022.06.019

[摘要](661) [HTML](460) [PDF 1.34 M](1554)

摘要:
为了预防烟雾病引发的并发症威胁患者生命，需要对烟雾病进行及时有效的诊断。本文提出了一种改进的Faster RCNN算法用于烟雾病检测。首先，提取颈内动脉数字减影血管造影（Digital subtraction angiography，DSA）图像，并进行数据增强，训练集、验证集和测试集之比为6∶2∶2。使用ResNet101网络作为特征提取网络，避免血管特征在卷积和池化过程中产生模糊或丢失；结合区域生成网络（Region proposal network， RPN），定位烟雾病病灶的位置；再将Faster RCNN模型中的ROI Pooling替换为ROI Align进行特征映射，避免由量化带来的误差影响。本文采用平均精度（Average precision，AP）作为算法检测性能的评估指标，所用方法对正常样本和烟雾病样本检测的AP分别为99.23%和89.39%。实验结果表明，该方法可以实现烟雾病的快速有效检测，可在复杂的血管网中准确检测烟雾病病灶的位置，为烟雾病辅助诊断提供一定的技术支持。

24 全变分极端通道先验的盲图像去噪去模糊

胡雪，黄成泉，冯润，周丽华，郑兰

2022, 37(3):643-656. DOI: 10.16337/j.1004-9037.2022.03.014

[摘要](724) [HTML](496) [PDF 4.22 M](2267)

摘要:
图像先验是图像复原中求解不适定问题的关键。针对在图像具有显著噪声时，极端通道先验去模糊算法容易产生振铃伪影和无法抑制噪声的缺点，利用全变分模型可以同时抑制噪声和保护边缘的优势，提出一种有效的全变分极端通道先验的盲图像去噪和去模糊模型。首先，将全变分模型分别引入暗通道和亮通道中，用于保护图像的边缘及消除噪声或振铃伪影；其次，利用半二次分裂技术解决模型的非凸问题和估计潜在的清晰图像；最后，用迭代多尺度盲反褶积估计图像的模糊核。实验结果表明，该算法能够在抑制噪声的同时很好地保护图像的边缘细节和消除振铃伪影。相比近几年具有代表性的其他方法，该模型的鲁棒性、主观视觉效果和客观评价指标均有明显提高。

25 基于CT图像的双重注意力网络急性胰腺炎诊断方法

张进一，万鹏，孙亮，张道强

2022, 37(1):147-154. DOI: 10.16337/j.1004-9037.2022.01.012

[摘要](785) [HTML](1498) [PDF 2.27 M](2388)

摘要:
作为消化系统最常见的疾病之一，急性胰腺炎的医学影像仍使用简单的手工特征进行分析，效率与精度较低，与其危害性并不相称。由于胰腺的解剖变异性以及各种并发症，急性胰腺炎的影像表现复杂，不同患者不同种类的病灶差异大，基于CT影像的急性胰腺炎诊断难度较大。本文提出一种基于双重注意力网络用于诊断急性胰腺炎，该网络使用全局特征为不同阶段的局部特征生成局部注意力特征，使不同阶段的注意力特征关注不同尺度的病灶，最终通过融合对全局注意力特征进行分类。同时在生成注意力特征时，使用通道域注意力调整通道间的依赖，提高模型的表示能力。在真实的急性胰腺炎数据集上的实验结果表明，本文提出的网络取得了更好的急性胰腺炎诊断精度，相对原模型，灵敏度与曲线下面积（Area under the curve ，AUC）分别至少提升了3.4%，3.2%；相较其他注意力机制如SENet对ResNet模型的改进，AUC提升2.7%。

26 基于局部熵的区域活动轮廓图像分割模型

李梦，詹毅，王艳

2023, 38(3):586-597. DOI: 10.16337/j.1004-9037.2023.03.008

[摘要](449) [HTML](365) [PDF 5.69 M](1031)

摘要:
为解决区域活动轮廓模型不能有效分割灰度不均图像的问题，提出了局部熵约束的区域活动轮廓模型应用于图像分割。首先基于局部熵信息将图像划分为两个特征区域，然后利用局部熵特征信息构造二值拟合能量，并与区域可放缩拟合（Region-scalable fitting，RSF）模型相结合，最后得到水平集演化方程。该模型考虑了图像灰度分布的聚集特征和局部区域统计信息，能有效处理灰度不均匀、弱边缘等图像分割问题，且对轮廓初始位置更具鲁棒性，医学图像实验结果验证了模型的有效性。

27 基于卷积神经网络梯度和纹理补偿的单幅图像超分辨率重建

黄裕青，李华锋，原铭，张亚飞

2023, 38(5):1112-1124. DOI: 10.16337/j.1004-9037.2023.05.010

[摘要](459) [HTML](471) [PDF 5.15 M](762)

摘要:
现有的单幅图像超分辨率重建算法大都在追求高峰值信噪比（Peak signal-to-noise ratio， PSNR），在特征提取过程中缺少对图像纹理细节信息的关注，导致重建图像的人眼主观感知效果不太理想。为了解决这一问题，本文提出了一种基于卷积神经网络梯度和纹理补偿的单幅图像超分辨率重建算法。具体设计了3条支路分别用于结构特征提取、纹理细节特征提取及梯度补偿，然后利用所提出的融合模块对结构特征和纹理细节特征进行融合。为防止重建过程中丢失图像的纹理信息，提出纹理细节特征提取模块补偿图像的纹理细节信息，增强网络的纹理保持能力；同时，利用梯度补偿模块提取的梯度信息对结构信息进行增强；此外还构建了深层特征提取结构，结合通道注意力与空间注意力对深层特征中的信息进行筛选及特征增强；最后利用二阶残差块对结构和纹理特征进行融合，使重建图像的特征信息更加完善。通过对比实验验证了本文方法的有效性和优越性。

28 身份保持约束下的面部图像超分辨率重建方法

田旭，刁红军，凌兴宏

2023, 38(2):350-363. DOI: 10.16337/j.1004-9037.2023.02.011

[摘要](496) [HTML](632) [PDF 2.42 M](1394)

摘要:
低分辨率是影响人脸识别精度的重要因素。一种有效方法是使用图像超分辨率技术对低分辨率图像重建，生成超分辨率图像后再对其作人脸识别，从而克服低分辨率面部图像对人脸识别的限制。但是，现有超分辨率方法在重建过程中往往忽略了保持其原始身份信息，这直接影响生成图像的人脸识别结果。针对上述问题，提出了一种身份保持约束下的面部超分辨率重建方法IPNet，在提高低分辨率面部图像质量的同时，能保持重建后的面部图像身份。IPNet方法将语义分割网络和面部生成器相结合，通过语义分割网络提取低维隐码和多分辨率空间特征，进而指导面部生成器输出接近于原图的真实面部图像。在此基础上引入人脸识别网络，将身份信息整合到超分辨率方法中，从而约束重建前后的面部图像身份保持一致。实验结果表明，IPNet方法在超分辨率图像质量和身份保持上均优于其他对比方法。

29 基于距离加权色偏估计的低质图像增强

曹思颖，张弦，蒲恬，彭真明

2023, 38(1):141-149. DOI: 10.16337/j.1004-9037.2023.01.012

[摘要](641) [HTML](451) [PDF 2.24 M](1598)

摘要:
有色雾、烟、尘等恶劣大气条件下的低质图像具有低可见度和颜色偏移的特点，给人类观察和计算机视觉应用带来困难。当前针对此类图像的增强算法通常忽略了景物与相机的距离对色偏的影响，为了在增强可见度时更好地恢复图像颜色，本文提出低质图像成像可见度下降及色偏与景物距离的关系模型和求解方法。该方法首先通过图像的局部亮度估算距离，然后通过距离估算图像的色偏矩阵，再求解退化模型得到可见度与颜色得到恢复的图像，最后将恢复的图像与限制对比度自适应直方图均衡（Contrast limited adaptive histogram equalization，CLAHE）增强图像进行距离加权融合，得到进一步细节增强的图像。实验表明，本文提出的方法与同类方法相比，在达到高图像质量评价指标的同时，明显具有更好的颜色恢复结果。

30 MAFDNet：复杂环境下图像自适应分类新方法

叶继华，黎欣，陈进，江爱文，化志章，万文涛

2023, 38(6):1392-1405. DOI: 10.16337/j.1004-9037.2023.06.014

[摘要](358) [HTML](264) [PDF 2.65 M](709)

摘要:
复杂环境下，往往困难样本和简单样本并存，现有分类方法主要针对困难样本进行设计，所构建网络用于分类简单样本时会造成计算资源的浪费；而网络修剪和权重量化等方法则不能同时兼顾模型的准确度和存储开销。为提升计算资源的使用效率并有更好的准确率，本文着眼于输入样本的空间冗余，提出了复杂环境下图像自适应分类网络MAFDNet，并引入置信度作为分类准确性的判断，同时提出了由内容损失、融合损失和分类损失组成的自适应损失函数。MAFDNet由3个子网组成，输入图像首先被送入到低分辨率子网中，该子网有效提取了低分辨率的特征，具有高置信度的样本先被识别并从网络中提前退出，低置信度的样本则需要依次进入更高分辨率的子网中，而网络中的高分辨率子网具有识别困难样本的能力。MAFDNet将分辨率自适应和深度自适应结合在一起，通过实验表明，在相同计算资源条件下，MAFDNet在CIFAR-10、CIFAR-100和ImageNet这3个复杂环境数据集上的top-1准确率均得到提升。

31 基于深度展开和双流网络的高光谱图像融合

刘丛，姚佳浩

2023, 38(6):1406-1421. DOI: 10.16337/j.1004-9037.2023.06.015

[摘要](554) [HTML](259) [PDF 3.02 M](888)

摘要:
针对基于深度学习的高光谱图像融合算法通常堆积多个卷积以学习映射关系、没有充分利用问题的特性以及缺乏可解释性等问题，提出一种结合深度展开与双流网络的深度网络。首先使用卷积稀疏编码建立融合模型，该模型将低分辨率高光谱图像（Low-resolution hyperspectral images， LR-HSI）和高分辨率多光谱图像（high-resolution multispectral images， HR-MSI）映射到低维子空间中。在融合模型设计中，考虑了LR-HSI和HR-MSI的共有信息以及LR-HSI的独有信息，并将HR-MSI作为辅助信息加入模型中。其次将该融合模型展开为可学习的可解释深度网络。最后，使用双流网络获取更精确的高分辨率高光谱图像（High-resolution hyperspectral images， HR-HSI）。实验表明，该网络在高光谱图像融合中可以获得出色的效果。

32 联合空-谱信息的高光谱图像噪声估计

张耹铭，黄丹飞，刘智颖，钟艾琦

2023, 38(1):186-192. DOI: 10.16337/j.1004-9037.2023.01.016

[摘要](792) [HTML](331) [PDF 3.36 M](1673)

摘要:
在纹理丰富的高光谱图像中获得精确的噪声估计，是噪声估计任务中的难点。本文基于高光谱图像的空间规律性和光谱相关性，提出一种基于超像素分割的光谱去相关法。同质区域划分是许多噪声估计方法的关键步骤，精确的同质区域划分能有效提高噪声估计精度。为此，将简单线性迭代聚类算法（Simple linear iterative clustering algorithm，SLIC）与光谱-空间相似性结合，划分高光谱图像为局部结构相似的图像块，以保持同质特征；为了提高光谱间的区分能力，将光谱信息散度和光谱角联合作为光谱距离；结合多元线性回归在同质区域内去除光谱相关性，在获得的残差图上估计噪声水平。对不同地物复杂程度的模拟图像，添加不同程度的噪声，通过与多种方法比较，验证了本文方法的有效性和稳定性。最后，本文方法成功应用于Urban数据的噪声水平估计，准确识别出受噪声严重污染的波段。

33 基于图神经网络和引导向量的图像字幕生成模型

佟国香，李乐阳

2023, 38(1):209-219. DOI: 10.16337/j.1004-9037.2023.01.018

[摘要](735) [HTML](458) [PDF 3.09 M](1586)

摘要:
近年来，深度学习已在图像字幕技术研究中展现其优势。在深度学习模型中，图像中对象之间的关系在图像表示中起着重要作用。为了更好地检测图像中的视觉关系，本文基于图神经网络和引导向量构建了图像字幕生成模型（YOLOv4-GCN-GRU， YGG）。该模型利用图像中被检测到的对象的空间和语义信息建立成图，利用图卷积神经网络（Graph convolutional network， GCN）作为编码器对图的每个区域进行表示。在字幕生成阶段，额外训练一个引导神经网络来产生引导向量，从而辅助生成模型自动生成语句。基于MSCOCO图像数据集的对比实验表明，YGG模型具有更好的性能，将CIDEr-D的性能从138.9%提高到了142.1%。

34 ValidFlow:基于标准化流的无监督图像缺陷检测

张兰尧，陈晓玲，张达敏，岑翼刚，张琳娜，黄彦森

2023, 38(6):1445-1457. DOI: 10.16337/j.1004-9037.2023.06.018

[摘要](598) [HTML](355) [PDF 2.10 M](989)

摘要:
基于标准化流的CS-Flow方法在缺陷检测领域取得了不错的效果，但其重复堆叠单一耦合块的方式增大了网络的复杂度。为此，本文提出了由特征平行流（Feature advection flow， FA flow）与特征混合流（Feature blending flow， FB flow）两种耦合块堆叠构成的网络ValidFlow，其中FA flow内部的子网络去掉了上下采样的捷径分支，并引入深度可分离卷积；FB flow内部的子网络在3个尺度上进行跨尺度融合。这样的设置使得ValidFlow在参数量减少的同时保证了信息的充分混合。在MVTec AD、MTD和DAGM数据集上与已有方法的对比结果显示，在MVTec AD数据集上，ValidFlow在15个类别中的平均AUROC为99.2%，在4个类别上的AUROC均为100%；在MTD数据集上获得了99.6%的AUROC；相比于CS-Flow，ValidFlow的参数量减少了207.61M，推理速度FPS提升了22；在DAGM数据集上，10个类别的平均AUROC为99.0%，性能上非常接近有监督的方法。

35 图像增强对低光照场景语义分割影响研究

艾羽丰，郭继昌，安冠华，张怡

2023, 38(4):959-977. DOI: 10.16337/j.1004-9037.2023.04.018

[摘要](563) [HTML](576) [PDF 7.01 M](848)

摘要:
在低光照环境下获取的图像通常会出现图像亮度低、颜色失真、细节信息丢失以及对比度低等问题。为了满足主观视觉体验的需求，往往会对图像进行增强处理。然而，图像增强对机器视觉应用性能的影响缺乏系统研究。本文以语义分割这一机器视觉应用为例，首先对主流的语义分割方法和低光照图像增强方法进行归纳总结，然后对经图像增强方法处理的低光照图像进行语义分割，从而探究图像增强方法对低光照场景语义分割性能的影响。实验结果表明，增强处理可以改善图像的人眼视觉效果，但是可能会引入噪声等影响，并且图像增强方法和语义分割方法关注的重点和特征不完全一致。图像增强对于低光照场景语义分割性能的促进作用并不明显，甚至会带来负面影响。

36 大变形场下高速数字图像相关并行计算研究

陈厚创，马琨，薛宇轩，孟志

2023, 38(4):978-985. DOI: 10.16337/j.1004-9037.2023.04.019

[摘要](359) [HTML](355) [PDF 2.04 M](665)

摘要:
由于大变形场下图像去相关效应的影响，数字图像相关（Digital image correlation，DIC）始终无法完成图像间的并行计算。为了突破这一瓶颈，本文提出了一种基于Accelerated-KAZE（AKAZE）的参考图更新方法，可在DIC正式计算之前完成参考图更新工作，为并行计算提供独立数据。并构建了一种图形处理器（Graphics processing unit，GPU）并行计算架构，可对所有子区独立估值，完成图像间和子区间的并行计算。最后对丁腈橡胶进行了拉伸测试，结果表明相比于传统的串行DIC计算方法，运用本文的并行方法速度可提升两个数量级。

37 基于倒谱图像的语音回声隐写分析方法

唐军豪，杜庆治，龙华，邵玉斌，李一民

2023, 38(6):1469-1481. DOI: 10.16337/j.1004-9037.2023.06.020

[摘要](542) [HTML](330) [PDF 2.88 M](1102)

摘要:
语音信号回声隐写后其倒谱系数会在回声延迟出产生峰值，传统回声隐写分析主要采用倒谱系数的统计特征作为隐写检测特征，然而在低回声幅度时隐写信号倒谱系数的峰值并不明显，基于统计特征的方法检测性能并不理想。本文将倒谱分析与图像识别技术结合，提出了一种基于倒谱图像的语音回声隐写分析方法，对语音信号分帧加窗后进行倒谱计算，然后以时间为横轴，倒谱序列点为纵轴，倒谱系数幅值为灰度级生成倒谱图像，将生成的倒谱图像作为隐写检测的输入，采用残差神经网络作为分类器进行回声隐写分析。实验结果表明，在3种经典回声隐写算法上低回声幅度时检测准确率分别达到98.2%、98.6%和96.1%，本文方法在低回声幅度时检测准确率相较传统回声隐写分析方法有较大提升，解决了传统回声隐写分析方法在低回声幅度检测效果不佳的问题。

38 基于特定领域解码的域泛化医学图像分割方法

叶怀泽，周子奇，祁磊，史颖欢

2023, 38(2):324-335. DOI: 10.16337/j.1004-9037.2023.02.009

[摘要](1148) [HTML](466) [PDF 3.11 M](1714)

摘要:
多源域领域泛化是模型利用多个不同领域中的语义信息，并且能够很好地泛化到未知领域上。在医学图像中，不同领域之间的跨度比较大，模型泛化性能在未知域上会有较大程度的下降。为了解决这一问题，本文提出了一种编码特征再针对特定领域进行解码的网络结构。该模型使用一个通用编码器来学习所有领域上的领域不变特征，并通过特定领域解码器还原原有图像以加强其对图像特征的复原能力。此外，该模型还通过生成特征迁移图像与源域图像进行对抗学习来加强编码器学习领域不变特征的能力。同时，本文在模型中还引入了特殊构造的分割融合预处理步骤来扩充数据集以增强模型的泛化能力，并进一步提高了本文提出网络结构的性能。在两个医学图像的分割任务中，大量实验数据表明，本文提出的模型相比现有先进模型表现出了优异的性能，此外本文还进行了一系列消融实验，证明了模型的有效性。

39 基于多损失混合对抗函数和启发式投影算法的逼真医学图像增强方法

王见，成楚凡，陈芳

2023, 38(5):1104-1111. DOI: 10.16337/j.1004-9037.2023.05.009

[摘要](451) [HTML](482) [PDF 2.15 M](742)

摘要:
早期发现新冠肺炎可以及时医疗干预提高患者的存活率，而利用深度神经网络（Deep neural networks， DNN）对新冠肺炎进行检测，可以提高胸部CT对其筛查的敏感性和判读速度。然而，DNN在医学领域的应用受到有限样本和不可察觉的噪声扰动的影响。本文提出了一种多损失混合对抗方法来搜索含有可能欺骗网络的有效对抗样本，将这些对抗样本添加到训练数据中，以提高网络对意外噪声扰动的稳健性和泛化能力。特别是，本文方法不仅包含了风格、原图和细节损失在内的多损失功能从而将医学对抗样本制作成逼真的样式，而且使用启发式投影算法产生具有强聚集性和干扰性的噪声。这些样本被证明具有较强的抗去噪能力和攻击迁移性。在新冠肺炎数据集上的测试结果表明，基于该算法的对抗攻击增强后的网络诊断正确率提高了4.75%。因此，基于多损失混合和启发式投影算法的对抗攻击的增强网络能够提高模型的建模能力，并具有抗噪声扰动的能力。

40 基于超像素块聚类与低秩特性的高光谱图像降噪

张明华，武玄，宋巍，梅海彬，贺琪，苏诚

2023, 38(3):549-564. DOI: 10.16337/j.1004-9037.2023.03.005

[摘要](530) [HTML](411) [PDF 10.70 M](1104)

摘要:
高光谱图像通常受到高斯噪声、脉冲噪声、死线和条纹等干扰，因此去噪必不可少。现有基于低秩特性的降噪方法通过引入空间信息改善了降噪效果，但由于其只利用了局部相似性或非局部自相似性，而对在光谱维度存在一定结构信息的稀疏噪声去除效果较差。本文提出了基于超像素块聚类与低秩特性的高光谱图像降噪方法，实现了分块的自适应划分与聚类，在较好地保留了局部细节的同时又充分利用了非局部空间自相似性，且实验表明聚类后的超像素块组成的同物分块具有良好的空-谱双重低秩属性。该方法首先对高光谱图像进行超像素分割，再对超像素块进行聚类，得到同物分块；然后对其建立低秩矩阵恢复模型并求解，最终得到降噪后图像。本文分别在模拟数据和真实数据上进行实验，并与其他基于低秩特性的方法进行比较，结果表明：本文方法对混合噪声，尤其是具有一定结构信息的稀疏噪声具有较好的降噪性能。

41 融合类别注意力的铝硅合金显微图像分割方法

沈韬，金凯，司昌凯，郑剑锋，刘英莉

2023, 38(3):574-585. DOI: 10.16337/j.1004-9037.2023.03.007

[摘要](342) [HTML](395) [PDF 4.29 M](1020)

摘要:
为了提取铝硅合金显微图像的初晶硅区域，提出一种结合类别注意力块（Class attention block， CAB）的改进模型类别注意力网络（Class attention network， CA-Net）。类别注意力块从特征图中计算各通道与每个类别的相关性信息，并将不同类别的相关性信息融合产生注意力权重，以使特征通道的权重与其对任务类别的贡献相关，从而增强重要特征的表达，并抑制无关特征的干扰。在铝硅合金显微图像数据集上进行实验，本文提出的方法在Dice系数、Jaccard相似度、敏感度、特异度和分割准确率上的结果分别为94.82%、90.16%、94.54%、98.80%和97.97%。相比CCNet、SPNet和TA-Net等方法，CA-Net能够有效改进铝硅合金显微图像中初晶硅区域的分割效果。

42 基于多模态图像融合的早期蕈样肉芽肿识别

谢凤英，赵丹培，王可，刘兆睿，王煜坤，张漪澜，刘洁

2023, 38(4):792-801. DOI: 10.16337/j.1004-9037.2023.04.004

[摘要](704) [HTML](600) [PDF 1.57 M](839)

摘要:
早期蕈样肉芽肿（Mycosis fungoid， MF）可表现为红斑鳞屑性皮损，很难从银屑病及慢性湿疹等良性炎症性皮肤病中鉴别出来。本文提出了一种基于多模态图像融合的早期蕈样肉芽肿识别方法。该方法基于皮肤镜图像和临床图像，采用ResNet18网络提取单模态图像的特征；设计跨模态的注意力模块，实现两种模态图像的特征融合；并且设计自注意力模块提取融合特征中的关键信息，改善信息冗余，从而提高蕈样肉芽肿智能识别的准确度。实验结果表明，本文所提出的智能诊断模型优于对比算法。将本文模型应用于皮肤科医生的实际临床诊断，通过实验组医生和对照组医生平均诊断准确率的变化证实了本文模型能够有效提升临床诊断水平。

43 基于深度学习的显著性目标检测综述

孙涵，刘译善，林昱涵

2023, 38(1):21-50. DOI: 10.16337/j.1004-9037.2023.01.002

[摘要](2202) [HTML](1061) [PDF 5.89 M](4571)

摘要:
显著性目标检测通过模仿人的视觉感知系统，寻找最吸引视觉注意的目标，已被广泛应用于图像理解、语义分割、目标跟踪等计算机视觉任务中。随着深度学习技术的快速发展，显著性目标检测研究取得了巨大突破。本文总结了近5年相关工作，全面回顾了3类不同模态的显著性目标检测任务，包括基于RGB图像、基于RGB-D/T（Depth/Thermal）图像以及基于光场图像的显著性目标检测。首先分析了3类研究分支的任务特点，并概述了研究难点；然后就各分支的研究技术路线和优缺点进行阐述和分析，并简单介绍了3类研究分支常用的数据集和主流的评价指标。最后，对基于深度学习的显著性目标检测领域未来研究方向进行了探讨。

44 基于对抗域适应的红外舰船目标分割

高子航，刘兆英，张婷，李玉鑑

2023, 38(3):598-607. DOI: 10.16337/j.1004-9037.2023.03.009

[摘要](595) [HTML](258) [PDF 2.15 M](775)

摘要:
为了提高红外舰船目标的分割准确率，提出一种基于对抗域适应的红外舰船目标分割方法，其中有标注的可见光舰船图像为源域，没有标注的红外舰船图像为目标域。为了解决两个域之间的风格差异问题，本文依次对源域的可见光图像进行灰度化和白化预处理，将其转换为具有目标域风格的图像。对于目标域的红外图像，使用去噪网络进行优化；接着，为了解决判别网络视野受限问题，设计基于空洞卷积的判别网络；最后，针对目标域预测图像置信度低问题，将目标域预测图像的信息熵加入到对抗损失中。在可见光和红外舰船图像组成的数据集上的实验结果高于现有方法，证明了本文方法的有效性。

45 基于非局部融合的多尺度目标检测研究

马倩，曾凯，吴家文，沈韬

2023, 38(2):364-374. DOI: 10.16337/j.1004-9037.2023.02.012

[摘要](541) [HTML](358) [PDF 3.56 M](1442)

摘要:
针对现有的多尺度目标检测模型在面对尺度变换和遮挡场景时所使用的融合方法融合不充分，且没有捕捉长距离依赖关系的问题，本文设计了通道融合增强模块和非局部特征交互模块，用于学习不同通道特征之间的相关性和捕捉特征图之间的长距离依赖关系。此外，针对当前检测架构都是基于单金字塔检测结构，存在信息丢失的情况，设计了双金字塔结构，并将提出的融合方法与双金字塔结构结合，在保留原始特征信息的基础上，补充融合后的特征信息。实验结果表明，提出的方法在公共数据集KITTI与PASCAL VOC上与其他先进工作相比具有更高的检测精度，证明了该方法在目标检测任务中的有效性。

46 SiamBM:实现更佳匹配的Siamese目标跟踪网络

胡昭华，刘浩男，林潇

2023, 38(5):1079-1091. DOI: 10.16337/j.1004-9037.2023.05.007

[摘要](384) [HTML](634) [PDF 4.57 M](803)

摘要:
基于孪生网络的目标跟踪算法通常采用简单的互相关匹配方式，然而这种简单的匹配方式会引入大量无关信息，弱化目标区域的响应。基于无锚框的孪生跟踪网络虽然避免了锚框参数的调整，但由于失去了先验性信息，并不能很好地适应目标物的尺度变化。因此，针对上述所存在的问题，本文提出了一种基于孪生网络的目标跟踪匹配增强算法SiamBM。通过将目标的边界框坐标信息进行编码，为跟踪模型提供有效的指导信息；采用深度可分离互相关级联像素匹配互相关的方式，进一步提高跟踪模型的判别能力；采用多尺度互相关的方式，增强跟踪模型的尺度适应能力。在OTB100数据集上，SiamBM的成功率和精确率分别达到了0.684和0.906，相比基准模型分别提高了5.2%和4.2%。实验结果表明，与目前主流的跟踪器相比，SiamBM取得了相当有竞争力的结果，在各项数据集指标上取得了优越的性能。

47 基于改进的无锚框目标检测算法的涡检测

宣扬，吕宏强，安慰，刘学军

2023, 38(1):150-161. DOI: 10.16337/j.1004-9037.2023.01.013

[摘要](744) [HTML](472) [PDF 2.73 M](1664)

摘要:
在流体运动中涡对各种流场结构的生成和维持起着至关重要的作用，涡的识别和检测有助于理解流体流动规律。传统涡识别方法别存在定义不准确、严重依赖经验阈值、泛化性能差等问题，因此涡检测具有一定挑战性。本文从计算机视觉的角度出发，提出了一个基于目标检测算法的涡检测模型。针对原始目标检测模型对极端宽高比的细长涡检测效果不理想的问题，对两种不同类型涡的数据特性进行分析，并提出了基于可变形卷积（Deformable convolutional network， DCN）的特征自适应模块和基于改进损失函数的细长样本挖掘方法。采用圆柱尾流涡和潜艇尾部涡数据集对所提模型进行验证，实验结果表明改进后的模型检测精确率显著提高，并在细长涡的检测精确率上有显著提升，有效地平衡了各类型的涡检测性能。

48 改进的基于YOLOv3的人脸检测算法

胡一帆，秦岭，杨小健

2023, 38(5):1092-1103. DOI: 10.16337/j.1004-9037.2023.05.008

[摘要](484) [HTML](505) [PDF 2.76 M](816)

摘要:
针对因背景与人脸高度相似和人脸目标尺度过小而导致的人脸检测精度较低的问题，提出了一种改进的基于YOLOv3的人脸检测算法。首先使用遗传算法改进原算法中随机初始化的影响，生成更符合目标大小的预测框，其次用轻量级网络改进原特征提取网络，提高人脸检测速度，最后使用边框回归损失代替YOLOv3坐标损失函数并改进置信度损失函数以提升训练收敛速度和结果精度。所设计的算法模型在Wider Face数据集上的检测精度和速度得到了提升。

49 基于相机感知距离矩阵的无监督行人重识别

白梦林，周非，舒浩峰

2023, 38(5):1069-1078. DOI: 10.16337/j.1004-9037.2023.05.006

[摘要](424) [HTML](315) [PDF 1.53 M](707)

摘要:
在跨场景、跨设备的行人重识别中虽然增加了可利用的行人数据，但由于行人姿态不同、部分遮挡现象，难以避免引入样本噪声，在聚类过程中易生成错误的伪标签，造成标签噪声，影响模型的优化。为减弱噪声影响，应用相机感知的距离矩阵对抗相机偏移引起的样本噪声问题，利用对噪声鲁棒的动态对称对比损失减少标签噪声，提出基于相机感知距离矩阵的无监督行人重识别算法。在聚类前通过更改度量行人特征相似度的距离矩阵，利用相机感知距离矩阵来增强类内距离度量准确性，减少由于拍摄视角不同对聚类效果造成的负面影响。同时，结合噪声标签学习方法，进行损失设计，提出动态对称对比损失函数，联合损失训练，不断精炼伪标签。在DukeMTMC-reID和Market-1501两个数据集上进行实验，验证了提出方法的有效性。

50 基于局部实例匹配无监督式学习的行人重识别

吴海丽，张月琴，庞俊奇

2023, 38(4):947-958. DOI: 10.16337/j.1004-9037.2023.04.017

[摘要](473) [HTML](529) [PDF 2.44 M](748)

摘要:
无监督域适应（Unsupervised domain adaptation，UDA）方法通过全局特征分布匹配实现源域到目标域的知识迁移，但忽略了细粒度的局部实例信息。本文提出了一种基于双层域自适应（Two-tiered domain adaptation，TTDA）的无监督行人重识别方法，使用全尺寸网络（Omni-scale network，OSNet）作为骨干网络，在端到端深度学习框架中联合执行源域和目标域之间的全局特征分布匹配和局部实例匹配，从源域和目标域之间不同行人ID的关联中挖掘可迁移的有用知识，并通过知识选择机制提高了跨域适应性。在多个大型公开数据集上的实验结果表明，与其他先进方法相比，所提方法在源域到目标域的无监督行人重识别的平均精度均值（mean Average precision，mAP）和top-k命中率均取得显著提升。

51 基于改进型Transformer编码器和特征融合的行人重识别

赵倩，薛超晨，赵琰

2023, 38(2):375-385. DOI: 10.16337/j.1004-9037.2023.02.013

[摘要](617) [HTML](685) [PDF 2.69 M](1597)

摘要:
为了解决Transformer编码器在行人重识别中因图像块信息丢失以及行人局部特征表达不充分导致模型识别准确率低的问题，本文提出改进型Transformer编码器和特征融合的行人重识别算法。针对Transformer在注意力运算时会丢失行人图像块相对位置信息的问题，引入相对位置编码，促使网络关注行人图像块语义化的特征信息，以增强行人特征的提取能力。为了突出包含行人区域的显著特征，将局部patch注意力机制模块嵌入到Transformer网络中，对局部关键特征信息进行加权强化。最后，利用全局与局部信息特征融合实现特征间的优势互补，提高模型识别能力。训练阶段使用Softmax及三元组损失函数联合优化网络，本文算法在Market1501和DukeMTMC-reID两大主流数据集中评估测试，Rank-1指标分别达到97.5%和93.5%，平均精度均值（mean Average precision， mAP）分别达到92.3%和83.1%，实验结果表明改进型Transformer编码器和特征融合算法能够有效提高行人重识别的准确率。

52 特征分块重构的视频行人重识别算法

王锦华，周非，白梦林，舒浩峰

2023, 38(3):565-573. DOI: 10.16337/j.1004-9037.2023.03.006

[摘要](373) [HTML](341) [PDF 1.48 M](860)

摘要:
基于视频的行人重识别是将一段视频轨迹与剪辑后的视频帧进行匹配，从而实现在不同的摄像头下识别同一行人。但由于现实场景的复杂性，采集到的行人轨迹会存在严重的外观丢失和错位，传统的三维卷积将不再适用于视频行人重识别任务。针对这一问题，提出三维特征分块重构模型，利用第一张特征图在水平分块的级别上对后续特征图进行对齐。在保证特征质量的前提下充分挖掘轨迹的时间信息，在特征重构模型后加入三维卷积核，并且将它与现有的三维卷积网络相结合。此外，还引入一种由粗到细的特征分块重构网络，不仅能使模型在两种不同尺度的空间维度上进行特征重构，还能进一步减少计算开销。实验表明，由粗到细的特征分块重构网络在MARS和DukeMTMC-VideoReID数据集上取得了良好的结果。

53 基于多区域检测网络的复杂场景面部表情识别

潘新辰，秦岭，杨小健

2023, 38(6):1422-1433. DOI: 10.16337/j.1004-9037.2023.06.016

[摘要](558) [HTML](221) [PDF 1.86 M](762)

摘要:
面部表情是人类情绪状态的最直观表现，卷积神经网络在面部表情识别上表现出了优异的性能。然而复杂场景下遮挡和姿势变化仍是面部表情自动识别的两个主要问题，它们会显著改变人脸的外观，从而影响最终的识别结果。针对面部表情识别中遮挡和姿势变化的问题，提出了一种基于双注意力和多区域检测网络的面部表情识别方法。双注意力用于提升整体网络的特征提取能力，使网络能够关注更详细的特征信息。多区域检测用于在遮挡和姿态变化的面部表情识别中自适应地捕捉重要的局部区域，抑制遮挡和姿势变化带来的负面影响。最终在AffectNet、RAF-DB和SFEW三种公开的自然场景面部表情数据集上验证了所提方法的有效性。

54 基于特征金字塔分支和非局部关注的行人重识别

孙明浩，王洪元，吴琳钰，张继，周群颖

2023, 38(1):121-131. DOI: 10.16337/j.1004-9037.2023.01.010

[摘要](742) [HTML](690) [PDF 1.58 M](1678)

摘要:
关注全局轮廓和行人局部细节对现有行人重识别方法非常重要。为了能够提取这些更具代表性的特征，提出一种基于特征金字塔分支和非局部关注模块的行人重识别网络方法来提取行人全局和局部表征特征。该方法首先引入一种轻量级别的特征金字塔分支结构，从不同的网络层中提取特征，并且聚合成一个双向金字塔结构。其次为进一步提高行人重识别的精度，使用非局部关注模块提取全局特征，这样既能获取行人的全局信息，又能注重行人的局部细节，使两者最终融合的特征更具代表性。最后将不同层间的特征融合起来，并使用联合损失函数策略对网络模型进行训练，显著提高骨干网络的性能。通过在MSMT17、Market1501、DukeMTMC-ReID和PersonX四个公共行人重识别数据集上的大量实验，证明所提出的基于特征金字塔分支和非局部关注的方法相较于目前一些先进的行人重识别方法，具有一定的竞争力。

55 基于CNN-LSTM双流融合网络的危险行为识别

高治军，顾巧瑜，陈平，韩忠华

2023, 38(1):132-140. DOI: 10.16337/j.1004-9037.2023.01.011

[摘要](1139) [HTML](713) [PDF 1.25 M](1489)

摘要:
针对目前人体危险行为识别过程中由于时空特征挖掘不充分导致精度不够的问题，对传统双流卷积模型进行改进，提出了一种基于CNN-LSTM的双流卷积危险行为识别模型。该模型将CNN网络与LSTM网络并联，其中CNN网络作为空间流，将人体骨架空间运动姿态分为静态与动态特征进行分别提取，两者融合作为空间流的输出；在时间流中采用改进的可滑动长短时记忆网络，以增加人体骨架时序特征的提取能力；最后将两个分支进行时空融合，利用Softmax对危险动作做出分类识别。在公开的NTU-RGB+D数据集和Kinetics数据集上的实验结果表明，改进后模型的平均跨角度（Cross view，CV）精度达到92.5%，平均跨视角（Cross subject，CS）精度为87.9%。所提方法优于改进前及其他方法，可以有效地对人体危险动作做出识别，同时对于模糊动作也有较好的区分效果。

56 基于GPU的长轨SAR实时成像算法

谭运馨，黄海风，赖涛，但琪洪，欧鹏飞

2023, 38(6):1380-1391. DOI: 10.16337/j.1004-9037.2023.06.013

[摘要](612) [HTML](374) [PDF 2.67 M](991)

摘要:
为了满足长轨道超高分辨 W波段合成孔径雷达（Synthetic aperture radar，SAR）的快速成像需求，本文提出了一种基于图形处理器（Graphics processing unit，GPU）的 ω-K实时成像算法，该算法采用并行架构和双流多线程的处理方式。默认流沿着物理原理的方向进行数据处理，首先对距离补偿、误差校正和补零等操作进行并行化处理，然后采用一层嵌套的插值方式，通过维持上下层的依赖关系和同步管理就能达到约30的加速比。阻塞流与默认流同时启动，生成默认流所需的参数和函数，并在执行前将其存入显存，极大地缩小了算法的运行时间，同时通过在默认流上设置事件以保持双流的同步并行执行。实验结果表明，算法总的加速比可达13左右，幅值和相位相对误差趋近0，不仅具有良好的实时性、聚焦性，还保持了良好的成像效果。

57 跨模态视觉问答与推理研究进展

张飞飞，张建庆，屈思佳，周琬婷

2023, 38(1):1-20. DOI: 10.16337/j.1004-9037.2023.01.001

[摘要](1384) [HTML](1143) [PDF 1.95 M](2895)

摘要:
随着社交媒体和人机交互技术的快速发展，视频、图像以及文本等多模态数据在互联网中呈爆炸式增长，因此多模态智能研究受到关注。其中，视觉问答与推理任务是跨模态智能研究的一个重要组成部分，也是人类实现人工智能的重要基础，已成功应用于人机交互、智能医疗以及无人驾驶等领域。本文对视觉问答与推理的相关算法进行了全面概括和归类分析。首先，介绍了视觉问答与推理的定义，并简述了当前该任务面临的挑战；其次，从基于注意力机制、基于图网络、基于预训练、基于外部知识库和基于可解释推理机制5个方面对现有方法进行总结和归纳；然后，全面介绍了视觉问答与推理常用公开数据集，并对相关数据集上的已有算法进行详细分析；最后，对视觉问答与推理任务的未来方向进行了展望。

58 图文跨模态检索研究进展

张飞飞，马泽伟，周玲，孟铃涛

2023, 38(3):479-505. DOI: 10.16337/j.1004-9037.2023.03.001

[摘要](1765) [HTML](1392) [PDF 3.48 M](3736)

摘要:
随着互联网技术的迅速发展，文本和图像等各种类型的数据在网络上呈现爆发式增长，如何从这些多源异构且语义关联的多模态数据中获取有价值的信息则尤为重要。跨模态检索能够突破模态的限制，跨越不同模态的数据进行信息检索，满足用户获取有关事件信息的需求。近年来，跨模态检索已经成为了学术界和工业界研究的热点问题。本文聚焦于图文跨模态检索任务，首先介绍图文跨模态检索的定义，并分析说明了当前该任务面临的挑战。其次，对现有的研究方法进行归纳总结，将其分为3大类：（1）传统方法；（2）基于深度学习的方法；（3）基于哈希表示的方法。然后，详细介绍了图文跨模态检索的常用数据集，并对常用数据集上已有算法进行详细分析与比较。最后，对图文跨模态检索任务的未来发展方向进行展望。

59 结构约束下的生成对抗深度图修复

卢奇，龚勋

2023, 38(5):1048-1057. DOI: 10.16337/j.1004-9037.2023.05.004

[摘要](406) [HTML](326) [PDF 2.89 M](663)

摘要:
不同于纹理图像，深度图像中的像素点代表采集设备到场景各点的距离，直接使用通用图像修复方法并不能有效恢复深度图像中缺失区域的场景结构，本文提出一个两阶段编解码结构的生成对抗网络以解决深度图像修复问题。与常见生成对抗网络（Generative adversarial networks，GAN）模型不同，本文的生成器网络包括深度生成G1和深度修复G2两个模块。G1模块从RGB图像得到预测深度，替换待修复深度图像缺失区域，保证修复区域局部结构一致性。G2模块引入RGB图像边缘结构，保证全局结构一致性。针对现有图像修复方法没有考虑到修复区域间的一致性问题，设计结构一致注意力模块（Structure coherent attention，SCA）加入到G2中改善修复效果。本文提出的深度图像修复模型在主流数据集上进行了验证，利用结构约束并经过两阶段的生成器模型和判别器模型的共同作用，有效改善了深度图像修复效果。

60 改进YOLOv5的轻量化交通标志检测算法

贾子豪，王文青，刘光灿

2023, 38(6):1434-1444. DOI: 10.16337/j.1004-9037.2023.06.017

[摘要](497) [HTML](281) [PDF 3.82 M](887)

摘要:
随着当今时代科技和人工智能的高速发展，人们越来越倾向于无人驾驶这项技术。考虑到安全问题，针对驾驶过程中交通标志的实时检测问题，在YOLOv5模型的基础上做出改进，提出了一种轻量化的交通标志检测算法。在模型的特征融合部分加入了注意力机制，可以使模型更加突出目标特征。在检测层前加入一种轻量化的亚像素卷积层，在不增加计算量的基础上，有效地提高检测特征图的分辨率。对损失函数CIoU（Complete intersection over union）加以改进，加快了网络的收敛速度，并且收敛效果较改进前有了一定提升。实验结果表明，本文模型准确率可达到90.6%，较基础网络提高了14.5%，检测速度可达到70 帧/s，基本满足对交通标志的实时精准检测。

61 基于T1加权图像的白质纤维束分割方法

焦瑞柯，张小凤，叶初阳

2024, 39(4):863-873. DOI: 10.16337/j.1004-9037.2024.04.007

[摘要](547) [HTML](777) [PDF 2.69 M](440)

摘要:
白质纤维束分割方法通过识别连接不同脑区的白质通路，为脑连接分析提供了重要的神经通路参考信息。然而，传统的白质纤维束分割方法主要依赖于弥散磁共振图像（Diffusion magnetic resonance imaging ， dMRI），由于获取弥散磁共振图像比较耗时，这极大地限制了其在临床中的应用。为解决此问题，提出了一种基于T1加权图像的白质纤维束分割方法，通过计算T1加权图像的结构张量来提示可能的纤维走向，进而提高白质纤维束的分割精度。此外，本文在模型训练期间引入弥散磁共振图像的特权信息来指导模型学习，从而提升白质束分割模型性能，具有挑战性的束分割效果提升明显，其中左穹窿（Left fornix， FX_left）的Dice得分提高了5%，右穹窿（Right fornix， FX_right）的Dice得分提高了6%。本研究弥补了在缺少弥散磁共振图像的场景下无法进行神经通路分析的不足，扩展了神经通路分析的应用场景。

62 基于改进YOLOv5的船舶多尺度SAR图像检测算法

李生辉，李晓飞，宋璋晗，王必祥

2024, 39(1):120-131. DOI: 10.16337/j.1004-9037.2024.01.011

[摘要](667) [HTML](465) [PDF 2.38 M](934)

摘要:
针对复杂场景下合成孔径雷达（Synthetic aperture radar， SAR）图像船舶目标像素尺度差异大和船舶密集排列造成目标漏检的问题，提出一种基于改进YOLOv5的船舶多尺度SAR图像检测算法。对于YOLOv5的颈部网络，采用双向特征金字塔结构（Bi-directional feature pyramid network， BiFPN）提升网络多尺度特征融合能力，并在其自下而上的特征融合支路中，基于深度可分离卷积（Depthwise separable convolution， DSC）和通道MLP构建EC-MLP（Enhanced channel-MLP）模块，从而丰富语义信息，提供更充分的船舶目标上下文特征；引入全局注意力机制（Global attention mechanism， GAM），使网络对输入特征进行针对性提取并运算，减少网络的信息丢失；此外，使用SIoU损失函数进一步提高网络的训练收敛速度和检测精度。在SSDD和HRSID数据集上与其他8种方法（Faster R-CNN、Libra R-CNN 、FCOS、YOLOv5s、PP-YOLOv2、YOLOX-s、PP-YOLOE-s和YOLOv7-tiny）进行对比实验。实验结果表明：改进后算法在SSDD数据集上的AP50达到了96.7%，在HRSID数据集上AP50达到了95.6%，优于对比方法。

63 结合图像纹理的自适应透射率修正去雾算法

孙景荣，陈哲哲，王健凯，宋诗斌，赵静

2024, 39(2):395-405. DOI: 10.16337/j.1004-9037.2024.02.012

[摘要](370) [HTML](422) [PDF 5.71 M](764)

摘要:
图像去雾算法在户外智能监控及交通导航等领域普遍应用，通过去雾后提高图像的清晰度以提高目标的识别效果。暗通道及其改进算法在天空等景深灰色较亮区域的透射率估计存在偏差，易导致图像失真、细节模糊等问题，对智能交通领域图像识别有严重影响。本文提出了自适应透射率去雾方法对透射率进行补偿，采用对数变换获得对数补偿算子调节景深区域透射率，根据图像信息丰富程度计算出暗通道的置信度，结合图像纹理信息构造出纹理补偿算子，通过自适应透射率补偿参数调整灰色亮部区域的初始透射率，可有效改善图像去雾后失真等问题。本算法的平均梯度、信噪比、信息熵等客观指标较其他去雾算法均有所提高，图像中灰色亮部区域透射率补偿效果良好，复原图像细节清晰自然、亮度适中，有效提升了图像质量。

64 融合多时间维度视觉与语义信息的图像描述方法

陈善学，王程

2024, 39(4):922-932. DOI: 10.16337/j.1004-9037.2024.04.012

[摘要](434) [HTML](370) [PDF 1.01 M](366)

摘要:
传统的图像描述方法仅使用当前时刻的视觉信息和语义信息来生成预测词，而没有考虑过去时刻的视觉信息和语义信息，从而导致模型输出的信息在时间维度上比较单一，因此生成的描述语句在准确性上有所欠缺。针对此问题，提出一种融合多时间维度视觉与语义信息的图像描述方法，有效地融合了过去时刻的视觉信息和语义信息，并设计一种门控机制动态地对两种信息进行选择利用。在MSCOCO数据集上进行实验验证，结果表明该方法能够更准确地生成描述语句，和当前最主流的图像描述方法进行对比，性能在各项评价指标上都得到了可观的提升。

65 基于感知推理和外部空间先验特征的图像修复

吴鹏，张孙杰，王永雄，陈远峰，覃海旺

2024, 39(4):933-943. DOI: 10.16337/j.1004-9037.2024.04.013

[摘要](457) [HTML](388) [PDF 4.41 M](508)

摘要:
在基于深度学习的图像修复算法中，当存在大面积掩码时，由于缺乏合理的先验信息指导，修复结果往往会出现伪影和模糊纹理等现象。针对此问题，提出将先验特征与图像预测滤波相结合的图像修复算法。该算法包含两个分支：图像滤波核预测分支和特征推理与图像滤波分支。从图像滤波核预测分支的解码器部分提取特征，利用多尺度外部空间特征融合对掩码区域特征进行重建，并传递给另一分支的解码阶段作为先验特征，为图像修复提供更为丰富的语义信息。然后，在特征推理和图像滤波分支部分引入空间特征感知推理块，它能够过滤掉分散注意力的特征，同时捕捉信息丰富的远距离图像上下文进行推理。最后，使用图像预测滤波核进行过滤消除伪影。在CelebA和Places2数据集上与其他修复网络进行对比实验，证明了该方法在修复质量上的优越性。

66 集成自注意力机制的医学图像分割方法

赵凡，张学典

2024, 39(5):1240-1250. DOI: 10.16337/j.1004-9037.2024.05.015

[摘要](741) [HTML](534) [PDF 2.15 M](587)

摘要:
针对UNet架构在医学图像分割中捕捉局部特征及保留边缘细节的局限性，提出了一种融合自注意力机制的改进型UNet算法。该算法基于传统编码-解码结构，引入多尺度卷积（Multi-scale convolution， MSC）模块以实现多粒度特征提取，同时集成卷积-自注意力（Convolution mixer attention， CMA）模块，结合卷积层的局部特征建模和自注意力层的全局上下文建模。在BUSI和DDTI数据集分割任务中，相比现有经典网络架构，大量实验数据验证了本模型优异的分割能力。此外，统计学数据分析、消融实验进一步验证了MSC和CMA模块的有效性。该研究为高精度医学图像分割提供了一种创新方法，对于促进医学诊断的精确性和效率具有重要的理论与实践意义。

67 基于特征融合与嵌入的人脸图像盲修复算法

霍智勇，胡山林

2024, 39(3):609-616. DOI: 10.16337/j.1004-9037.2024.03.009

[摘要](510) [HTML](473) [PDF 2.70 M](616)

摘要:
人脸图像盲修复是从未知退化中恢复出高质量的人脸图像，其不适定性往往会造成修复出的图像出现局部纹理缺失或面部成分不匹配的结果，为此提出基于特征融合与嵌入的人脸图像盲修复算法。通过提取退化输入的面部先验特征，采用多头交叉注意力进行特征交互融合和全局上下文建模，将面部先验嵌入预训练生成网络的潜在空间中，并基于损失函数进行优化，修复因退化而丢失或损坏的局部纹理，实现真实性与忠实度之间的平衡。数值实验在3个真实退化图像数据集上进行，本文方法在客观指标和主观质量上都优于现有方法，最后的消融实验验证了退化人脸图像盲修复算法的有效性。

68 面向雷达图像分类模型的两步式对抗样本检测技术

王见，张赛楠，陈芳

2024, 39(1):106-119. DOI: 10.16337/j.1004-9037.2024.01.010

[摘要](369) [HTML](532) [PDF 5.51 M](699)

摘要:
深度学习技术极大地提高了雷达图像目标分类的精度，但由于神经网络自身的脆弱性使得雷达图像分类系统的安全性受到威胁。本文对雷达对抗样本的攻击性及雷达对抗样本与原始样本在频率域上的差异性进行了分析，并在此基础上，提出了两步式雷达对抗样本检测技术来提升雷达分类模型的安全性。首先基于频率域对输入的雷达图像进行第1步对抗样本检测，分离出对抗样本，然后将剩下的图像分别送入到一个经过对抗训练的模型和一个未经过对抗训练的模型进行第2次对抗样本检测。通过这种两步式的检测方法，可以有效地检测出对抗样本，检测成功率不低于95.73%，有效提升了雷达分类模型的安全性。

69 面向畸变扭曲文档的两种图像矫正网络

冯瑾，池越，周亚同，何静飞

2024, 39(1):167-180. DOI: 10.16337/j.1004-9037.2024.01.015

[摘要](675) [HTML](621) [PDF 6.42 M](898)

摘要:
由于文档纸张的几何形变、拍摄场景的干扰及拍摄角度不理想导致的透视失真，移动设备获取的文档图像的光学字符识别（Optical character recognition，OCR）性能受到很大挑战。针对折叠和扭曲的畸变文档图像预处理问题，设计了两种基于自编码器的网络结构，以实现自适应性图像矫正并提高文字识别正确率。首先提出空洞残差块和非对称卷积残差块两种残差块，然后将残差块与自编码器相结合，设计了一种非对称空洞自编码器网络；同时利用空间金字塔池化代替全连接层，并用非对称卷积残差块实现特征提取，设计了另一种空间金字塔自编码器网络。实验结果表明，与畸变图像相比，经非对称空洞自编码器网络矫正后的图像在OCR正确率、OCR召回率和文本相似度上分别提高了26.3%、20.4%和12.3%，而经空间金字塔自编码器网络矫正后的图像在正确率、召回率和文本相似度上分别提高了27.7%、22.0%和15.5%。与RectiNet等其他图像矫正网络相比，这两种网络可以自适应矫正多种类型的畸变文档图像，且矫正后的图像在文字识别上表现更为优异。本文提出的两种矫正网络能有效提高图像文字识别正确率、召回率和文本相似度，同时在鲁棒性、泛化性等方面与现有矫正网络相比具有明显的优势。

70 高分辨率特征增强的无人机航拍小目标检测

周璇，葛琦，邵文泽

2024, 39(4):908-921. DOI: 10.16337/j.1004-9037.2024.04.011

[摘要](760) [HTML](552) [PDF 5.34 M](590)

摘要:
针对无人机航拍图像背景复杂、小尺寸目标分布密集等造成的检测精度低等问题，提出一种高分辨率特征增强的无人机航拍小目标检测算法。首先，提出了高分辨率特征增强网络，通过减少主干网络的下采样倍数来扩大输出特征图的尺度，同时引入双线性插值法来减少采样后特征信息的丢失，从而保留更多语义特征与细节特征。其次，在主干网络嵌入一种结合局部跨阶段结构的快速空间金字塔池化（Spatial pyramid pooling fast cross stage partial construction，SPPFCSPC）模块，增强局部与全局特征的信息融合，从而获得更大的感受野。最后，通过马赛克混合数据增强方法来增强图像背景的复杂度，提高模型的泛化能力。在公开数据集VisDrone 2019上的实验结果表明，与“你只需看一次”（You only look once，YOLO）系列等其他主流算法相比，本文算法的平均精度均值有显著的提高，在不同场景下均验证了本文算法的优越性，表明本文算法对无人机航拍图像的密集小目标检测任务有较强的实用性。

71 计算成像技术中的点扩散函数工程

乔敏达，白林阁，王书恒，王天宇，董雪，相萌，刘飞，刘金鹏，邵晓鹏

2024, 39(2):271-296. DOI: 10.16337/j.1004-9037.2024.02.003

[摘要](1777) [HTML](1449) [PDF 8.93 M](1677)

摘要:
围绕光学成像中点扩散函数（Point spread function， PSF）在计算成像中的新内涵与应用，介绍了传统光学成像中PSF的概念以及PSF在光学系统设计中关键作用，并简要说明了几种利用PSF恢复图像算法以及图像评价指标。在此基础上以计算成像框架下信息传递的视角重新审视了PSF的内涵，从狭义、广义光学系统两个方面对计算成像领域中的相关研究进行了归纳总结，最后展望了PSF工程技术的应用前景及发展趋势。

72 MSDAB-DETR：一种多尺度遥感目标检测算法

李烨，周生翠，张驰

2024, 39(6):1455-1469. DOI: 10.16337/j.1004-9037.2024.06.014

[摘要](666) [HTML](671) [PDF 2.68 M](294)

摘要:
由于遥感图像中的目标尺寸差异大，且捕获不同尺度目标的信息非常困难，因此难以有效识别不同尺度目标。同时，传统Transformer在处理高分辨率图像时会出现计算资源不足的问题；单一的损失计算方式和匈牙利算法结合会增大代价损失的波动性，影响算法的收敛速度和精度。基于上述问题，本文提出一种基于改进DAB-DETR的多尺度遥感目标检测算法（Multi-scale dynamic anchor boxes for DETR， MSDAB-DETR）。首先，该算法通过创建一种新型的多尺度注意力融合模块，利用不同分辨率特征信息之间的差异，实现了对遥感图像的多尺度预测。其次，采用高效注意力机制对Transformer模型中的自注意力机制进行改进，降低原始模型的内存占用量。最后，利用SIoU损失函数作为边界框回归损失，与匈牙利算法相结合，削弱了二分图匹配的波动性，加快了收敛速度，并进一步改善了边界框的回归能力。实验结果表明，该方法在NWPU VHR-10和DIOR数据集上的检测精度分别高达95.3%和71.5%；在NWPU VHR-10数据集上，小、中、大3种尺度目标的平均检测精度相较于DAB-DETR模型分别提升了10.5%、1.8%和2.7%；内存占用量减少约9%。

73 基于频谱特征自适应采样的傅里叶单像素成像方法

肖振坤，张永峰，魏文卿，邓琥

2024, 39(2):324-336. DOI: 10.16337/j.1004-9037.2024.02.006

[摘要](653) [HTML](493) [PDF 6.03 M](864)

摘要:
傅里叶单像素成像（Fourier single-pixel imaging， FSI）中成像效率的提升主要借助优化重构算法和采样方法来实现，但在采样次数有限的情况下，FSI无法准确采样关键频率，导致成像质量差。为解决这一问题，提出一种频谱特征自适应采样策略。首先，研究傅里叶域中能量的集中程度，以此确定低频等距预采样的最优半径。进一步，通过预采样低频分量估计关键频谱位置的方式，测量相应的傅里叶系数，最终实现图像重构。与基于高频方向能量连续性的自适应采样方法相比，该方法可以针对不同频谱特征目标，自适应选择较优采样路径，获取关键傅里叶系数，进而改善成像质量，其峰值信噪比提高2.28 dB，结构相似度提高15.83%。因此，该方法在应对FSI对未知特征目标进行成像时，具有高效空间信息采集的优点，有望在单像素快速实时成像中得到应用。

74 融合类增强与多尺度自适应的小样本学习方法

董驰静，张孙杰，任涵

2024, 39(3):689-698. DOI: 10.16337/j.1004-9037.2024.03.016

[摘要](437) [HTML](375) [PDF 1.55 M](634)

摘要:
为了解决小样本学习存在特征信息提取不足、难以准确地捕获局部明显特征信息的问题，提出了一种融合类增强与多尺度自适应的小样本学习方法。首先在特征的层面上对图像进行类增强，通过将特征图的每次激活与其邻域相关联来编码丰富的语义结构，使提取后的类内特征明显，更利于当前的分类任务。其次通过多尺度特征生成来提取不同尺度上图像特征的低层表示。最后对每个尺度上的语义相关矩阵进行权重分配与相似元素最大化计算查询图像与各支持集类别图像之间的语义相似度，多尺度信息进行融合后，对目标图像进行分类。在5-way 1-shot和5-way 5-shot设置中，该方法在miniImageNet数据集上的均值平均精度（mean Average precision，mAP）分别为56.83%和75.76%，在常用细粒度图像数据集Stanford Cars和CUB-200-2011分类基准上分别达到了79.33%和93.92%、66.33%和85.78%，均优于现有方法的最好结果。

75 多级注意力特征优化的道路场景实时语义分割

张鹏，彭宗举，张文瑞，罗英国，韦玮，王培容

2024, 39(6):1505-1516. DOI: 10.16337/j.1004-9037.2024.06.018

[摘要](432) [HTML](323) [PDF 3.81 M](279)

摘要:
针对复杂多变道路场景下目标重叠导致图像边缘难以分割、小目标特征提取困难等问题，提出一种多级注意力特征优化的道路场景实时语义分割方法。首先，设计深度残差注意力模块，考虑不同层级下特征权重的差异性，通过压缩注意力机制来优化图像局部特征，从而改善像素之间的边缘效应；然后，设计通道注意力和深度聚合金字塔池化模块进一步加强语义上下文信息的提取，小目标信息丢失问题得到了改善；最后，设计注意力融合模块自上而下地融合不同尺度下的特征信息，实现全局特征信息下的有效交互，增强网络对重要特征的表达。Cityscapes和CamVid道路场景数据集上进行的实验测试分别达到74.4%和67.7%的分割精度，138帧/s和148帧/s的推理速度。与近几年其他优秀方法相比，该方法改善了图像边缘信息丢失，优化了对图像中小目标的分割准确度。

76 基于多重注意力和schatten-p范数的息肉分割网络

李苏，刘国奇，刘栋，赵曼琪

2024, 39(1):223-235. DOI: 10.16337/j.1004-9037.2024.01.020

[摘要](454) [HTML](373) [PDF 4.76 M](712)

摘要:
自动准确的息肉定位分割方法可以在结直肠癌病变早期及时地发现息肉，大大降低癌变几率。编解码结构作为近年来息肉分割中最主流的网络结构，已经得到了很大的改进，如提高模型捕获全局上下文特征和局部特征的能力，使用深层特征对浅层解码做指导。但是息肉形状和大小不一，在编码时，由于卷积特性容易过于陷入局部信息挖掘，而失去远程信息依赖关系；还有一些息肉图像存在对比度低、空间复杂的特性，导致息肉与背景两者极易混淆。本文提出了基于多重注意力和schatten-p 范数的息肉分割网络。其中，轴向多重注意力模块利用轴向注意力补充图像中的远程上下文关系，同时补充对边缘、背景信息的关注以实现特征互补，在注意全局特征的同时加强对局部细节特征的捕捉；利用矩阵奇异值和矩阵隐含信息的关联性，引入schatten-p 范数作约束，从矩阵角度分析数据，辅助模型辨别前景和背景。通过设置大量实验，证明了本文提出方法的有效性，并且MASNet在Kvasir-SEG数据集上对比不同的方法，取得了较好的分割结果。

77 基于语义分割和融合残差U-Net的单视光学遥感影像三维重建方法

黄桦，朱宇昕，章历，陈志达，张乙志，王博

2024, 39(2):348-360. DOI: 10.16337/j.1004-9037.2024.02.008

[摘要](565) [HTML](630) [PDF 6.12 M](813)

摘要:
从单视遥感图像进行三维重建本身是一个解不唯一的非适定问题，往往需要大量的人工经验来补充缺失信息以构建完整三维模型。为了解决这一问题，提出了一种基于语义分割和融合残差U-Net的单视遥感影像三维重建方法。该方法包括语义分割和单视遥感影像高度估计两个阶段。语义分割阶段使用U-Net确定地物属性，在此基础上改进U-Net对遥感影像进行高度估计，并联合语义特征进行锚定高度回归以提高重建精度。针对改进U-Net，通过嵌入不同数量与通道的残差块，强化编码器的特征提取能力，并修改解码器输出层使其适应于高度回归任务，从而实现逐像素预测遥感影像的数字表面模型（Digital surface model， DSM）高度值。在公开的US3D数据集上得到了均方根误差（Root mean square error，RMSE）为2.751 m、平均绝对误差（Mean absolute error，MAE）为1.446 m的结果，重建结果均优于其余网络，证实该方法实现了基于单视遥感影像的三维估计，能够重建地物的分布结构。

78 基于事件信息与深度学习的高动态范围三维重建

王杰，魏振东，王启江，张启灿，王亚军

2024, 39(2):337-347. DOI: 10.16337/j.1004-9037.2024.02.007

[摘要](737) [HTML](751) [PDF 3.90 M](829)

摘要:
采用光学三维成像技术测量金属零件、黑色物体以及半透明物体等高动态范围（High dynamic range，HDR）表面的三维轮廓是一个极具挑战性的问题。目前，传统方法对存在较低反射以及半透明区域的场景进行重建还有一定的局限性，半透明物体的内部反射噪声很难消除。现有基于深度学习的方法通常使用相对较强的激光强度，这可能会损坏样品，同时会出现采集图像过曝现象，需要对激光强度进行繁琐的调整。针对这些问题，本文提出基于事件信息和深度学习算法的高动态场景三维测量方法。事件相机通过异步记录单个像素的亮度变化，无需等待全局曝光时间，具有高动态响应范围，能够充分采集到HDR场景的激光条纹反射信息。引入深度卷积神经网络（Deep convolutional neural network，DCNN）来消除半透明物体的内部噪声以及金属物体高反光的过曝影响，同时增强弱激光条纹图像质量。实验结果表明，本文方法能够应用低功率线激光扫描成功实现HDR场景的高质量三维重建。

79 基于快速分解后向投影算法的小天体快速三维成像

胡超然，韦明川

2024, 39(2):312-323. DOI: 10.16337/j.1004-9037.2024.02.005

[摘要](435) [HTML](511) [PDF 3.64 M](695)

摘要:
雷达成像技术凭借其快速、无损伤以及高分辨率的特点，在深空探测领域得到了日益广泛的关注。针对合成孔径雷达（Synthetic aperture radar， SAR）三维成像过程中运算效率低的问题，基于小天体弱引力和快速自旋的特点，提出了一种适用于慢飞越观测模式的快速分解后向投影（Fast factorized back-projection， FFBP）三维成像算法。首先，分析了慢飞越模式下的等效运动模型，基于运动模型将二维极坐标系成像域扩展至三维球坐标系成像域，对三维FFBP算法中的孔径划分以及图像融合问题进行了深入分析，推导了子孔径二维划分规则和图像递归融合方法，并给出了具体实现流程。最后通过数值仿真和实测数据验证了算法的有效性。实验结果表明，所提成像算法可大幅提升运算效率，根据不同的孔径划分方式，相较于后向投影（Back-projection， BP）算法，可实现30~50倍的加速比，并获得与经典BP算法近似的成像性能。

80 基于改进级联R-CNN的钢材带状碳化物检测与分级

郝亮，周诗洋，莫允扬，陈勇勇，徐勇，苏敬勇

2024, 39(5):1228-1239. DOI: 10.16337/j.1004-9037.2024.05.014

[摘要](565) [HTML](537) [PDF 4.23 M](522)

摘要:
在钢铁行业中，碳化物是钢材中一种非常重要的组成成分，其在钢材中的分布对于评估钢材的质量具有很高的参考价值。然而，目前棒材碳化物的检测手段主要为人工检测，成本高昂且缺乏稳定性。引入人工智能领域的深度学习技术，收集并标注了3 192张高质量钢铁棒材带状碳化物图像与11个完整样品数据，创建了工业场景下的棒材带状碳化物目标检测数据集（Banded carbide dataset on object detection for steel bar， BCDOD）。使用深度学习领域中常见的目标检测方法对数据集进行了实验分析，针对应用场景与数据的特点，引入旋转数据增强、Focal Loss函数与负样本微调对级联R-CNN模型进行改进，提升了模型的性能，平均精度达到96%。同时，在完整样品数据取得了100%的识别准确率，取得了较为理想的效果，弥补了人工智能技术在碳化物金相检测领域的空缺。

81 一种基于特征融合的息肉分割双解码模型

吴港，全海燕

2024, 39(4):954-966. DOI: 10.16337/j.1004-9037.2024.04.015

[摘要](426) [HTML](447) [PDF 2.84 M](568)

摘要:
在结直肠癌的早期筛查中，通过对结肠镜图像进行自动化的息肉检测和分割可以提高诊断效率和准确性。由于肠道内部环境的复杂性以及图像质量的限制，自动化的息肉分割仍然是一个具有挑战性的问题。针对这一问题，提出了一种基于Transformer和空洞卷积特征融合的息肉分割双解码模型（Dual decoded polyp segmentation model fusing Transformer and dilated convolution， FTDC-Net）。该模型以ResNet50作为编码器，以便能够更好地提取图像深层次特征。使用 Transformer 编码模块，它的自注意力（Self-attention）机制能够捕捉输入之间的长距离依赖关系，模型中使用了不同的空洞卷积（Dilated-convolution）来扩大模型的感受野，让模型能捕捉到结肠镜图像更大范围内的信息。本文网络模型的解码部分使用双解码结构，包含一个自动编码器分支，自动编码器可以重构输入，另一个编码分支用于分割结果。模型中，自动编码器的输出被用于生成一个注意力图作为注意力机制，该图将被用于指导分割结果。在Kvasir-SEG和ETIS-LARIBPOLYPDB标准数据集上进行了实验验证，实验结果表明FTDC-Net能有效地分割出结肠息肉，相比目前主流息肉分割模型，在各项评价指标上均取得了较高的提升。

82 基于机载视频的无人机降落区域检测研究

曹亚楠，李明磊，李佳，陈广永，叶方舟

2024, 39(6):1445-1454. DOI: 10.16337/j.1004-9037.2024.06.013

[摘要](479) [HTML](297) [PDF 2.58 M](282)

摘要:
提升无人机的自主着陆能力对于提高无人机的作业效率和野外生存能力具有重要意义。本文提出了一种基于机载视频的无人机降落区域自动检测方法，目的是在缺乏场景先验知识的情况下，提高无人机的自主避障着陆能力。本文将多视图几何约束方法的深度学习网络融入到视觉同步定位与制图（Simultaneous localization and mapping，SLAM）算法中，旨在构建场景的三维地图，同时主动判别潜在障碍物。随后，提出了一种顾及降落区域面积及平坦度等因素的降落区域检测算法，通过体素网格地图的空间分析方式，判别出无人机着陆区域。在不同类别场景中分别进行实验，结果表明了提出方法的准确性。

83 基于时空依赖关系和特征融合的弱监督视频异常检测

柳德云，李莹，周震，吉根林

2024, 39(1):204-214. DOI: 10.16337/j.1004-9037.2024.01.018

[摘要](484) [HTML](449) [PDF 2.44 M](776)

摘要:
弱监督视频异常检测由于抗干扰性强、数据标注要求低，成为视频异常事件检测研究的热点。在现有的工作中，大多数弱监督视频异常检测方法认为各个视频段独立同分布，单独判断每个视频段是否异常，忽略了视频段间的时空依赖关系。为此，提出了一种基于时空依赖关系和特征融合的弱监督视频异常检测方法，在保留视频段原始特征的同时，使用视频段之间的索引距离和特征相似程度拟合视频段的时间和空间依赖关系，构建视频段的关系特征。通过融合原始特征和关系特征，更好地表达视频的动态特性和时序关系。在UCF-Crime和ShanghaiTech 两个基准数据集上进行了大量实验，实验结果表明所提方法的AUC指标优于其他方法，AUC值分别达到了80.1%和94.6%。

84 基于多核扩展卷积的无监督视频行人重识别

刘仲民，张长凯，胡文瑾

2024, 39(5):1192-1203. DOI: 10.16337/j.1004-9037.2024.05.011

[摘要](555) [HTML](443) [PDF 3.15 M](470)

摘要:
行人重识别旨在跨监控摄像头下检索出特定的行人目标。由于存在姿态变化、物体遮挡和背景干扰的不同成像条件等问题，导致行人特征提取不充分。本文提出一种利用多核扩展卷积的无监督视频行人重识别方法，使得提取到的行人特征能够更全面、更准确地表达个体差异和特征信息。首先，采用预训练的ResNet50作为编码器，为了进一步提升编码器的特征提取能力，引入了多核扩展卷积模块，通过增加卷积核的感受野，使得网络能够更有效地捕获到局部和全局的特征信息，从而更全面地描述行人的外貌特征；其次，通过解码器将高级语义信息还原为更为底层的特征表示，从而增强特征表示，提高系统在复杂成像条件下的性能；最后，在解码器的输出中引入多尺度特征融合模块融合相邻层中的特征，进一步减少不同特征通道层之间的语义差距，以产生更鲁棒的特征表示。在3个主流数据集上进行离线实验，结果表明该方法在准确性和鲁棒性上均取得了显著的改进。

85 计算成像在全息存储相位恢复中的应用研究进展

郝建颖，林雍坤，刘宏杰，陈瑞娴，宋海洋，林达奎，林枭，谭小地

2024, 39(2):297-311. DOI: 10.16337/j.1004-9037.2024.02.004

[摘要](744) [HTML](601) [PDF 5.25 M](4659)

摘要:
全息存储技术作为一种三维体存储、二维面数据传输的数据存储技术，具有存储密度高、数据传输快等特点，是解决海量数据长期存储的有力方案之一。传统全息存储方法受到光电探测器只对强度响应的限制，通常采用纯振幅编码进行调制，但仅利用振幅信息无法完全发挥全息技术本身优势，如何简单快速、稳定精确地解码相位信息是全息存储技术面临的现实问题。计算成像因其算法多变、高感知维度等特点为全息存储技术的相位恢复问题提供了新的思路。本文主要从迭代计算相位恢复和深度学习相位重建角度回顾近年来利用计算成像技术解决全息存储相位恢复问题的一些工作，从存储密度提升、数据读取速度提升以及数据读取稳定性等角度对工作进行了分析，并对该方向未来发展做出展望。

86 计算增强光学相干层析成像技术研究进展

乔正钰，黄勇，郝群

2024, 39(2):248-270. DOI: 10.16337/j.1004-9037.2024.02.002

[摘要](989) [HTML](687) [PDF 8.05 M](1203)

摘要:
光学相干层析成像（Optical coherence tomography， OCT）作为一种重要的无损断层三维成像技术，应用场景广泛。不断发展的场景需求对OCT技术的性能提出了新的要求，包括分辨率提升、焦深解耦、像差校正及分辨率各向异性改善等。在过去的十几年内，一系列基于计算成像的方法被证明能有效实现上述性能提升。本文围绕上述OCT成像4个性能提升需求，总结综述了代表性的计算成像方法。分析对比了相应计算成像方法之间的优劣，并对未来发展趋势进行展望，旨在为计算成像方法在 OCT 领域的进一步研究与应用提供参考。

87 人工智能辅助的磁共振成像在评估乳腺癌新辅助化疗中的应用综述

刘凯文，金莹莹，王守巨

2024, 39(4):794-812. DOI: 10.16337/j.1004-9037.2024.04.003

[摘要](929) [HTML](881) [PDF 2.75 M](863)

摘要:
新辅助化疗已成为乳腺癌标准治疗策略，而磁共振成像是评估乳腺癌对新辅助化疗反应的首选影像学方法。虽然磁共振成像能提供关于肿瘤位置、大小及微环境等详细信息，但肿瘤的多样性变化给乳腺癌新辅助化疗的精准评估带来挑战。基于机器学习和深度学习的人工智能方法展现出识别磁共振成像数据中复杂模式的能力。通过临床影像特征分析、影像组学分析和生境分析等方法，人工智能技术已显著提升乳腺癌新辅助化疗评估的性能和效率，有助于实现个性化治疗策略。本文介绍了乳腺癌新辅助化疗评估所用的磁共振成像数据及性能指标，总结了人工智能技术在此领域的应用进展，同时探讨了当前人工智能技术在实际应用中的挑战和未来可能的研究方向。

88 弥散磁共振成像在中医诊疗中的机遇与挑战

吴烨，和岚翔，张鑫媛，伏云鹤，刘小明，何建忠

2024, 39(4):776-793. DOI: 10.16337/j.1004-9037.2024.04.002

[摘要](844) [HTML](958) [PDF 937.74 K](705)

摘要:
弥散磁共振成像（Diffusion magnetic resonance imaging，dMRI）是一种通过测量水分子在不同方向上的弥散情况来获取微观结构信息的先进医学影像技术，在临床辅助诊疗中的应用日益广泛。在中医诊疗领域，dMRI技术同样展现了其独特的潜力和价值，为中医“辨证施治”提供了更为客观的依据。在中医诊疗中，dMRI不仅能够帮助医生更准确地诊断疾病，还能监测疾病的发展过程以及治疗效果，为中医“治未病”和“个体化治疗”提供了有力的支持。然而，dMRI技术在中医诊疗领域的应用也面临着诸多挑战。本文集中回顾了近几年dMRI技术在中医诊疗中的应用，并探讨了高级dMRI技术在中医诊疗领域的广阔前景和潜力，同时也讨论了当前dMRI应用的局限性以及dMRI在中医诊疗应用中的挑战。本研究将促进医工交叉，尤其是中医-智能影像技术领域的交流与合作，并推动dMRI技术在中医诊疗中的深入应用和发展。

89 多视图低秩子空间的图结构学习多站点自闭症诊断方法

黄剑辉，马迪，张礼

2024, 39(4):984-995. DOI: 10.16337/j.1004-9037.2024.04.017

[摘要](306) [HTML](330) [PDF 2.19 M](349)

摘要:
自闭症谱系障碍（Autism spectrum disorder，ASD）是一种最常见且具有遗传性的神经发育障碍疾病，具有社交沟通缺陷等多种症状。准确识别生物标记物对ASD的早期干预起到至关重要的作用。现有大量方法利用了多站点影像数据来增加样本量，从而提高了方法诊断的准确性，但是多站点间由于成像装置、成像参数和数据处理流程存在的差异造成的数据异质性影响往往被忽略。为了解决上述问题，本文提出了一种基于多视图低秩子空间的图结构学习多站点自闭症诊断方法（MVLL-GSL）。首先构建具有不同拓扑结构信息的多视图脑网络，然后分别将视图中不同类的样本分别投影到各自的低秩子空间，从而降低数据异质性的影响，最后使用图结构学习和多任务图嵌入学习相结合，并融入先验子网络和多视图一致性正则化约束，旨在从多视图低秩子空间中获得更具判别性和一致性的特征。使用自闭症公开数据库 ABIDE（Autism brain imaging data exchange）对提出的方法进行验证。实验结果表明，MVLL-GSL方法提高了ASD的诊断性能，并解释了不同先验子网络与ASD发病机制的关联性。

90 基于双向融合纹理和深度信息的目标位姿检测

张亚炜，付东翔

2024, 39(5):1214-1227. DOI: 10.16337/j.1004-9037.2024.05.013

[摘要](426) [HTML](359) [PDF 4.29 M](475)

摘要:
针对在硬件设备资源有限的情况下，深度相机在非结构化场景如何获取物体精确的位姿信息问题，提出一种基于双向融合纹理和深度信息的目标位姿检测方法。在学习阶段，两个网络采用全流双向融合（FFB6D）模块，纹理信息提取部分引入轻量的 Ghost 模块，减少了网络的计算量，并加入能增强有用特征的注意力机制CBAM，深度信息提取部分扩展了局部特征并多层次特征融合，获取更全面的特征；在输出阶段，为提高效率利用实例语义分割结果过滤背景点，再进行3D关键点检测，最终通过最小二乘拟合算法得到位姿信息。在LINEMOD、Occlusion LINEMOD和YCB-Video公共数据集上验证，其精度分别达到了99.8%、66.3%和94%，且参数量减少了31%，表明改进的位姿估计方法在保证精度的同时，也减少了参数量。

91 基于背景修复的动态SLAM

李嘉辉，范馨月，张干，张阔

2024, 39(5):1204-1213. DOI: 10.16337/j.1004-9037.2024.05.012

[摘要](543) [HTML](334) [PDF 3.14 M](512)

摘要:
视觉同时定位与地图构建（Simultaneous localization and mapping，SLAM）过程中，动态物体引入的干扰信息会严重影响定位精度。通过剔除动态对象，修复空洞区域解决动态场景下的SLAM问题。采用Mask-RCNN获取语义信息，结合对极几何方法对动态对象进行剔除。使用关键帧像素加权映射的方式对RGB和深度图空洞区域进行逐像素恢复。依据深度图相邻像素相关性使用区域生长算法完善深度信息。在TUM数据集上的实验结果表明，位姿估计精度较ORB-SLAM2平均提高85.26%，较DynaSLAM提高28.54%，在实际场景中进行测试依旧表现良好。

92 多目标跟踪中基于SOT和重匹配的防遗漏机制

张毅锋，张嘉成，李元浩

2024, 39(6):1479-1492. DOI: 10.16337/j.1004-9037.2024.06.016

[摘要](524) [HTML](354) [PDF 3.57 M](289)

摘要:
数据关联是多目标跟踪（Multiple object tracking， MOT）中的重要步骤，一般需要根据特征相似性实现目标和检测物体之间的身份匹配。部分目标或检测物体可能在匹配结束后仍处于孤立状态，可能导致轨迹中断或身份错乱的遗漏现象。为改善MOT的精度和稳定性，抑制数据关联中的遗漏现象，提出了一种基于高性能单目标跟踪器（Single object tracker， SOT）和重匹配的防遗漏机制。该机制运用Transformer和扩散模型，设计了一款契合MOT需求的SOT用于追踪遗漏目标，并通过记忆目标信息对遗漏检测物体实施重匹配。通过消融实验验证了SOT和重匹配方法在防遗漏机制中的作用，并在标准数据集上测试了该机制对MOT算法跟踪性能的影响。结果表明，各算法加入该机制后性能获得全面改善，该机制可有效抑制MOT中的遗漏现象。

93 基于金字塔分割注意力和联合损失的表情识别模型

谷瑞，顾家乐，宋翠玲

2024, 39(6):1493-1504. DOI: 10.16337/j.1004-9037.2024.06.017

[摘要](359) [HTML](392) [PDF 2.10 M](319)

摘要:
如何提取多尺度特征和建模远程通道间的语义依赖仍是表情识别网络面临的挑战。本文提出一种基于金字塔分割注意力的残差网络（Residual network based on pyramid split attention， PSA-ResNet）模型，该模型将ResNet50残差模块中的3×3卷积替换成金字塔分割注意力，以有效提取多尺度特征，增强跨通道语义信息的相关性。同时，为缩小同类表情之间的差异，扩大不同类表情之间的距离，在训练过程中引入了Softmax loss和Center loss联合损失函数优化模型参数。本文所提出的方法在Fer2013和CK+两个公开的数据集上进行仿真实验，分别取得了74.26%和98.35%的准确率，进一步证实了该方法相比前沿算法具有更好的表情识别效果。

94 基于自适应平滑KF-PDA算法的舰船单目标跟踪

任明亮，贾志强，盛庆红，孙珠磊

2024, 39(6):1470-1478. DOI: 10.16337/j.1004-9037.2024.06.015

[摘要](432) [HTML](296) [PDF 1.48 M](257)

摘要:
针对概率数据互联（Probability data association， PDA）算法在杂波环境下计算复杂度高的问题，设计了一种基于PDA算法的数据关联方法，当波门内量测点数量大于阈值时，采用PDA算法更新目标状态；当波门内量测点数量小于等于阈值时，采用最近邻思想筛选目标量测点，接着利用卡尔曼滤波（Kalman filter， KF）算法实现杂波环境下的快速滤波更新。在此基础上，通过自适应区间平滑方法，动态修正平滑区间，实现整体状态估计的反向平滑，从而提升算法的精度。不同杂波环境下的实验结果表明，本文方法相较于PDA算法与KF-PDA算法，在保证跟踪效率的同时，有效提升了系统状态的估计精度，验证了该方法的鲁棒性和有效性。

[function_title]