2021, 36(1):1-21. DOI: 10.16337/j.1004-9037.2021.01.001
摘要:近年来,深度学习被广泛应用于各个领域并取得了显著的进展,如何利用深度学习高效管理呈爆炸式增长的三维模型一直是一个研究热点。本文介绍了发展至今主流的基于深度学习的三维模型检索算法,并根据实验得出的算法性能评估分析了其优缺点。根据检索任务的不同,可将主要的三维模型检索算法分为两类:(1)基于模型的三维模型检索方法,即检索对象与被检索对象都是三维模型,按照对三维模型的表示方式不同,可进一步分为基于体素、基于点云和基于视图的方法;(2)基于二维图像的跨域三维模型检索方法,即检索对象是二维图像,被检索对象是三维模型,包括基于二维真实图像和基于二维草图的三维模型检索方法。最后,对基于深度学习的三维模型检索算法目前存在的问题进行分析和讨论,并展望未来发展的新方向。
2021, 36(1):22-34. DOI: 10.16337/j.1004-9037.2021.01.002
摘要:随着动漫产业的快速发展,动漫人脸的生成成为一项关键技术。由于动漫人脸具有的高度简化和抽象的独特风格以及倾向于具有清晰的边缘、平滑的阴影和相对简单的纹理,现有方法中的损失函数面临很大的挑战,同时绘画的风格迁移技术无法获得满意的动漫结果。因此,本文提出了一种新颖的适用于动漫图像的损失函数,该函数的语义损失表示为VGG网络高级特征图中的正则化形式,以应对真实图像和动漫图像之间不同的风格,具有的边缘增强的边缘清晰损失可以保留动漫图像的边缘清晰度。4个公开数据集上的实验表明:通过本文提出的损失函数可以生成清晰生动的动漫人脸图像;在CK+数据集中,本文方法相比于现有的方法识别率提高了0.43%(宫崎骏风格)和3.29%(新海诚风格);在RAF数据集中,本文方法识别率提高了0.85%(宫崎骏风格)和2.42%(新海诚风格);在SFEW数据集中,本文方法识别率提高了0.71%(宫崎骏风格)和3.14%(新海诚风格);在Celeba数据集中也显示了本文方法优异的生成效果。实验结果说明本文方法结合了深度学习模型的优点,使检测结果更加准确。
2021, 36(1):35-44. DOI: 10.16337/j.1004-9037.2021.01.003
摘要:由于水下显著性检测数据集不足,导致基于深度学习的水下图像显著性检测网络容易出现过拟合的问题,从而影响显著性检测网络的性能。针对上述问题,本文引入图像风格转换方法,提出一种基于CycleGAN的水下显著性检测网络。网络生成器由图像风格转换子网络和显著性检测子网络构成。首先,通过无监督的级联方式对风格转换子网络进行风格转换训练,并利用该网络对陆地图像和水下图像进行风格转换,构建训练和测试图像数据集,以解决水下显著性检测数据集不足的问题;然后,使用陆地及其风格转换后的显著性数据集对显著性检测子网络进行训练,以增强网络的特征提取能力;最后对两个图像风格的输出结果进行融合优化,以提高显著性检测网络性能。实验结果表明,本文提出的水下显著性检测网络相比于单纯的陆地和水下图像显著性检测网络,其检测平均绝对误差和F值至少分别提高了10.4%和2.4%。
2021, 36(1):45-52. DOI: 10.16337/j.1004-9037.2021.01.004
摘要:多模态磁共振影像数据采集过程中会出现不同程度的模态数据缺失,现有的补全方法大多只针对随机缺失,无法较好地恢复条状及块状缺失。针对此问题,本文提出了一种基于多向延迟嵌入的平滑张量补全算法分类框架。首先,对缺失数据进行多向延迟嵌入操作,得到折叠后的张量;然后通过平滑张量CP分解,得到补全的张量;最后利用多向延迟嵌入的逆向操作,得到补全的数据。该算法在BraTS脑胶质瘤影像数据集上进行了高低级别肿瘤分类实验,并与7种基线模型进行了比较。实验结果表明,本文提出方法的平均分类准确率可达91.31%,与传统补齐算法相比具有较好的准确性。
2021, 36(1):53-62. DOI: 10.16337/j.1004-9037.2021.01.005
摘要:AVS3作为中国第三代国家数字音视频编码技术标准,在消除视频时域/空域冗余信息方面发挥了重要的作用,但在消除感知冗余方面仍存在进一步优化的空间。本文提出一种数据驱动的AVS3像素域最小可觉差(Just noticeable distortion,JND)预测模型,在尽量保证视觉主观质量的前提下,对AVS3视频编码器进行优化。首先基于主流的大型JND主观数据库,获取符合人眼视觉特性的像素域JND阈值;然后基于深度神经网络构建像素域JND预测模型;最后通过预测的像素域JND阈值建立残差滤波器,消除AVS3的感知冗余,降低编码比特率。实验结果表明,与AVS3的标准测试模型HPM5.0相比,在人眼主观感知质量几乎无损的情况下,所提出的像素域JND模型最高可节省21.52%的码率,平均可节省5.11%的码率。
2021, 36(1):63-75. DOI: 10.16337/j.1004-9037.2021.01.006
摘要:光流信息是图像像素的运动表示,现有光流估计方法在应对图像遮挡、大位移和细节呈现等复杂情况时难以保证高精度。为了克服这些难点问题,本文建立一种新型的卷积神经网络模型,通过改进卷积形式和特征融合的方式来提高估计精度。首先,加入调整优化能力更强的可形变卷积,以便于提取相邻帧图像的大位移和细节等空间特征;然后利用基于注意力机制生成特征关联层,将相邻两帧的特征进行融合,以其作为由反卷积和上采样构成的解码部分的输入,旨在克服基于特征匹配等估计光流传统方法精度低的缺点;最后将得到的估计光流通过多网络堆栈的循环优化模型实现最终的光流估计。实验表明,本文网络模型在处理遮挡、大位移和细节呈现等方面的表现优于现有方法。
2021, 36(1):76-84. DOI: 10.16337/j.1004-9037.2021.01.007
摘要:常规的非均匀照明图像增强方法在增强低光照区域细节时,容易对图像过度增强而导致结果失真。本文从一种新的角度提出了Retinex模型的一种扩展形式,并用于非均匀照明图像的增强。该算法将中心环绕Retinex模型输出作为感知反射率,将图像分解为感知光照图像和感知反射率图像,通过调整感知光照图像,再重新组合感知光照和感知反射率图像,得到增强结果。与近几年来多种图像增强算法的主客观评估对比实验结果表明,该算法对非均匀光照图像具有良好的增强效果,能够有效增强图像亮度和细节,提高图像质量。
2021, 36(1):85-94. DOI: 10.16337/j.1004-9037.2021.01.008
摘要:针对数据挖掘模型中存在的隐私泄漏问题及现有隐私保护技术的不透明性,本文将差分隐私与图像生成模型生成对抗网络(Generative adversarial network, GAN)相结合,提出了一种更具普适性的支持图像数据差分隐私保护的生成对抗网络模型(Image differential privacy-GAN, IDP-GAN)。IDP-GAN通过差分隐私的拉普拉斯实现机制,将拉普拉斯噪声合理地分配到判别器的仿射变换层的输入特征以及输出层的损失函数的多项式近似系数中。在实现差分隐私保护的同时,有效地减少了训练过程中隐私预算的消耗。标准数据集MNIST和CelebA上的实验验证了IDP-GAN可以生成更高质量的图像数据,此外用成员推理攻击实验证明了IDP-GAN具有较好的抗攻击能力。
2021, 36(1):95-102. DOI: 10.16337/j.1004-9037.2021.01.009
摘要:针对现实场景中遮挡人脸检测精度低的问题,提出了一种基于汇聚CNN和注意力增强网络的遮挡人脸检测方法。首先,在主网络的多层原始特征图上,通过有监督学习的方法增强原始特征图中人脸可见部分的响应值。然后,将多个增强特征图组合成附加增强网络与主网络汇聚设置,以加快对多尺度遮挡人脸的检测速度。最后,将有监督信息分散到各个尺寸的特征图上进行监督学习,为不同尺寸的特征图设置了基于锚框尺寸的损失函数。在WIDER FACE和MAFA数据集上的实验结果表明,该方法的检测精度高于当前主流人脸检测方法。
2021, 36(1):103-113. DOI: 10.16337/j.1004-9037.2021.01.001
摘要:行人再识别技术目前逐步被应用于视频监控、智能安防等领域。监控设备与日俱增,给研究工作提供了海量数据支持,但人工标注或检测器识别难以避免地引入带有噪声的数据标签。在进行大规模深度神经网络训练时,伴随数据量增加,标签的噪声给模型训练带来不可忽视的损害。为解决行人再识别的噪声标签问题,本文结合噪声、非噪声数据训练差异化特征,提出一种噪声标签自适应的行人再识别方法,不需要使用额外的验证集以及噪声比例、类型等先验信息,完成对噪声数据的筛选过滤。此外,本文方法自适应地学习噪声样本权重,进一步降低噪声影响。在含噪声的Market1501、DukeMTMC-reID两个数据集上,主流模型受噪声影响严重,本文提出的方法可以在此基础上提高约10%的平均精度。
2021, 36(1):113-121. DOI: 10.16337/j.1004-9037.2021.01.011
摘要:针对实际场景中人脸表情识别训练和测试数据来自不同场景从而导致识别性能显著下降的问题,提出了一种基于稀疏子空间迁移学习的跨域人脸表情识别方法。首先,引入稀疏重构的思想来获得一个共同的投影矩阵,同时对重构系数矩阵施加
2021, 36(1):122-132. DOI: 10.16337/j.1004-9037.2021.01.012
摘要:基于监控视频的弱外观多目标跟踪是建设智慧生物实验室的一个重要内容。但是,由于遮挡、目标外观差别细微等因素的影响,容易出现漏检、误检等问题,导致跟踪失败。此外,基于深度学习的相关算法需要大量的计算量,在嵌入式平台上难以达到实时性。因此,本文提出了一种新的轻量级多目标跟踪算法,以YOLOv3作为基础目标检测网络,提出基于归一化层权重评价的层剪枝算法压缩检测网络计算量,以提高该算法在嵌入式平台上的运算速率。同时,基于已有的跟踪结果,对当前帧检测结果进行校正,实现对漏检目标的补偿校正,用于提高检测的准确性。最后利用卷积神经网络来提取目标特征,融合目标特征及候选框与预测框间的交并补(Intersection-over-union, IoU),进行数据关联。实验结果表明,本文提出的轻量级多目标跟踪算法与已有的多目标跟踪算法相比取得了较好的跟踪结果,且在仅损失较少精度的情况下保持较高的网络压缩率,适于嵌入式平台前端实现。
2021, 36(1):133-146. DOI: 10.16337/j.1004-9037.2021.01.013
摘要:鲁棒主成分分析(Robust principal component analysis,RPCA)模型中秩函数和
2021, 36(1):147-155. DOI: 10.16337/j.1004-9037.2021.01.014
摘要:无载体隐写通过提取载体特征,与信息序列进行映射,从而无需修改载体即可实现对秘密信息的隐藏,因此,具有极强的抗隐写分析能力,但是已有算法在隐藏容量方面仍然有限,且大多需要构建大样本图像库。本文提出一种基于混沌块置乱和离散小波变换(Discrete wavelet transform,DWT)的无载体信息隐藏算法,从秘钥中提取混沌变换的相关参数,对载体图像进行混沌块置乱生成多张新图像,再对其进行分块DWT变换,根据相邻图像块低频DWT系数之间的关系生成对应的哈希序列,并构建相应索引库。将载体图像及秘钥发送给接收方,实现秘密信息的传递。实验表明,与现有算法相比,该算法获得了隐藏容量和隐藏成功率的较大提升,具有较强的鲁棒性。同时,该算法架构简单,传输负载小,具有较强的实用价值。
2021, 36(1):156-163. DOI: 10.16337/j.1004-9037.2021.01.015
摘要:高光谱遥感影像波段众多,包含丰富的辐射、空间和光谱信息,是多种信息的综合载体,应用广泛。但是传统的高光谱影像地物分类方法多着重于光谱维度的特征提取,却忽略了空间维度上的特征,进而影响了分类的准确性。三维卷积神经网络(Three-dimensional convolutional neural network, 3D-CNN)可以同时在3个维度上对数据进行卷积处理,故本文采用3D-CNN深度网络进行高光谱影像地物分类,并针对3D-CNN网络存在的问题,提出了一种基于改进的3D-CNN的高光谱遥感影像地物分类方法。本文方法对提取到的空间和光谱特征实现融合复用,尽可能发挥特征的价值。此外,本文引入浅层特征细节保存网络的思想,提出一种综合浅层特征细节保存的影像分类深度网络模型,进一步提高了高光谱影像地物分类的准确度。在Tensorflow框架下对2个常用的高光谱遥感影像数据集(Indian Pines和Pavia University)的实验结果表明,相比基础的3D-CNN网络,本文方法的分类精度提高了近2%,而且类别边界更准确。
2021, 36(1):164-175. DOI: 10.16337/j.1004-9037.2021.01.016
摘要:针对大厚比的复杂结构件数字射线成像(Digital radiography, DR),单一透照能量不能完整体现全部信息的问题,提出一种基于区域特征的脉冲耦合神经网络(Pulse coupled neural network, PCNN)多幅图像融合算法。以航空发动机涡轮叶片为研究对象,首先在获取多幅递增管电压透照子图基础上,经非下采样轮廓波变换(Non-subsampled contourlet transform, NSCT)分解为一个低频子带和多个尺度下的高频子带;其次采用PCNN算法,用各子带的改进空间频率中方向特征最明显的分量调整连接强度;然后低频子带采用区域均方差、高频子带采用改进的拉普拉斯能量和作为外部激励,点火映射图的判决遵循取大原则;最后通过NSCT逆变换得到融合结果图。实验结果表明,以熵、标准差、平均梯度、清晰度和空间频率作为客观评价指标,与基于拉普拉斯金字塔变换等经典融合算法相比均有所提升。本文研究方法性能优越,丰富了融合图像的细节信息,可获得更高质量的DR融合图像。
2021, 36(1):176-183. DOI: 10.16337/j.1004-9037.2021.01.017
摘要:红外图像诊断是电力系统故障诊断的重要方式,但目前仍依靠人工辅助框图来实施图像中目标的检测。为提升检测效率,本文借鉴并改进在目标分割任务中表现优异的Mask-RCNN方法,利用图像自动语义分割识别红外图像中的一个或多个电力设备,并提取设备轮廓。为了缓解标注样本相对不足的问题,研究Mask-RCNN的迁移学习机制,设计并实现了训练数据重要性采样、参数迁移映射等方法,使改进后的方法适应于红外图像电力设备检测任务。在实际采集数据集上的实验表明,改进后的算法能在仅有少量像素级标注样本的条件下,较好地提取出电力设备的轮廓,并进一步识别出设备类别。所提模型和算法为进一步的设备分区和故障区域检测提供了精确有效的预处理手段。
2021, 36(1):184-198. DOI: 10.16337/j.1004-9037.2021.01.018
摘要:在深入研究可变长扩频因子(Orthogonal variable spreading factor,OVSF)码递归构造原理、码树结构模型、数学理论基础以及分配原则的基础上,针对宽带码分多址(Wideband code division multiple access,WCDMA)信号非合作接收情况,提出了一种基于快速沃尔什-哈达玛变换的OVSF码盲识别算法。该算法利用OVSF码的继承关系、正交特性以及数据的循环移位,并结合快速沃尔什-哈达玛变换,消除了数据解扩模糊性,降低了计算复杂度。理论分析和实验结果表明:本文算法在非合作和无先验信息以及低信噪比情况下,可对WCDMA系统下行信道中的多个OVSF码进行快速解扩与盲识别,具有很好的可靠性、有效性和实用性。实测中,本文算法8.2 ms可完成3帧数据内20个OVSF扩频码的同时识别,识别准确率在95%以上,具有很高的工程应用价值。
您是本站第 访问者
通信地址:南京市御道街29号 南京航空航天大学(明故宫校区)
邮编:210016 传真:025-84892742
电话:025-84892742 E-mail:sjcj@nuaa.edu.cn
技术支持:北京勤云科技发展有限公司
网站版权: © 《数据采集与处理》 编辑部