2022, 37(2):247-278. DOI: 10.16337/j.1004-9037.2022.02.001
摘要:近年来,深度学习在计算机视觉各个领域中的应用成效显著,新的深度学习方法和深度神经网络模型不断涌现,算法性能被不断刷新。本文着眼于2016年以来的一些典型网络和模型,对基于深度学习的计算机视觉研究新进展进行综述。首先总结了针对图像分类的主流深度神经网络模型,包括标准模型及轻量化模型等;然后总结了针对不同计算机视觉领域的主流方法和模型,包括目标检测、图像分割和图像超分辨率等;最后总结了深度神经网络搜索方法。
2022, 37(2):279-287. DOI: 10.16337/j.1004-9037.2022.02.002
摘要:障碍人群的问题行为给个体、家庭和整个社会带来了沉重的心理压力和经济负担。为此,本文致力于探索利用可穿戴设备内置的9轴运动传感器结合先进的人工智能技术对障碍人群的问题行为进行感知的可行性,以期防止事故发生,降低看护成本。首先,对采集数据进行分析和预处理,提取共108维特征;其次,在特征选择过程中,分别采用原理性分析和随机森林两种方法,划分为3个特征子集,其目的是在保证识别精度的前提下降低时间开销;最后,采用两种验证方法,利用6种分类器进行评价。实验结果表明,特征融合能有效提高分类器的识别率;特征选择能在较低性能损失的前提下,保证分类器的识别率;综合考虑运算开销和识别精度,特征子集3更适用于问题行为识别,轻量梯度提升机(Light gradient boosting machine,LightGBM)具有明显的性能优势,10倍交叉验证的平均识别率可达 93%。
2022, 37(2):288-297. DOI: 10.16337/j.1004-9037.2022.02.003
摘要:语种识别的关键是从语音片段中提取有用的特征。通过延时神经网络(Time-delayed neural network, TDNN)可以提取包含丰富上下文信息的特征向量,有效提高系统性能。本文提出一种ECAPA(Emphasized channel attention)-TDNN+对比预测编码(Contrastive predictive coding,CPC)模型的多任务学习语种识别网络。ECAPA-TDNN为主干网络,提取语音全局特征,改进的CPC模型为辅助网络,对ECAPA-TDNN提取的帧级特征进行对比预测学习,通过联合损失函数进行优化训练。在东方语种竞赛数据集AP17-OLR的10类语种上进行了实验。实验结果表明,本文提出的网络在1 s,3 s和全长(All)测试集测得的识别准确率相比于基础网络都有明显的提高。
2022, 37(2):298-307. DOI: 10.16337/j.1004-9037.2022.02.004
摘要:人工智能方法的高性能通常需要有充足的数据来训练模型参数。如何在数据量不足的情况下提升模型的性能,即小样本学习,是人工智能领域的重要研究方向之一。本文提出了基于图像插值的小样本学习策略,并在手写数字图像识别任务中验证了该策略的可行性。系统研究了全连接神经网络和卷积神经网络对MNIST和USPS手写数字图像识别的小样本学习性能。计算结果表明,基于图像插值的数据增强方法可以显著提升神经网络在小样本数据中的特征提取能力和学习效率,且选择合适的图像插值缩放系数可以进一步优化神经网络的小样本学习性能。
2022, 37(2):308-320. DOI: 10.16337/j.1004-9037.2022.02.005
摘要:白化是一种能够去除数据各属性间相关性的数据预处理方法。最近提出的二维白化重构方法(Two-dimensional whitening reconstruction, TWR)是一种针对单张图片的白化方法,阐述了TWR方法等价于基于图像列的ZCA白化,即TWR具有去除图像列内相关性的作用;但是图像局部块内的相关性往往远大于列内,因此本文从去除图像局部块内相关性的角度出发,提出了两种TWR的改进方法:基于重组的TWR(Reshaped-based TWR, RTWR)方法和基于块的TWR(Patch-based TWR, PTWR)方法。RTWR首先将图像进行重新组合使得每个列向量对应着原始图像的子块,然后将TWR预处理作用在重组后的图像上;而PTWR方法则将TWR直接作用在图像的每个子块上。在ORL、CMU PIE、AR三个人脸数据集上的实验结果表明,RTWR和PTWR预处理比TWR预处理更有利于后续分类性能的提高。
2022, 37(2):321-335. DOI: 10.16337/j.1004-9037.2022.02.006
摘要:频谱数据通常以多维度为特征,例如频率、时间、空间与信号强度等,这为采集以及可视化数据带来挑战。本文通过引入电磁频谱态势来表征信号功率谱密度在电磁空间的分布情况来实现目标区域内的频谱态势感知。目前频谱数据的获取方式通常为在目标区域内布置大量离散分布传感器,这导致采样效率低下,采样成本上升,在资源受限的情况下,上述采样方式并不可取。因此,本文从提高采样效率与降低采样成本出发,提出利用无人机采样实现目标区域内的信号功率数据获取,得到缺损二维、三维频谱态势,进一步提出一种模型和数据混合驱动的电磁频谱态势测绘方法,从而实现目标区域内部完整频谱态势的恢复。仿真结果表明,所提方法可以有效地完成目标区域内电磁频谱态势测绘,其补全精度与测绘效果均好于传统插值算法与张量补全算法。
2022, 37(2):336-345. DOI: 10.16337/j.1004-9037.2022.02.007
摘要:针对上行链路非正交多址接入(Non-orthogonal multiple access, NOMA)中的用户配对问题,提出了一种基于双边匹配模型的上行链路NOMA用户配对方案,与现有的NOMA用户配对方案不同,本方案根据用户信道增益采取预分组,避免了信道增益差距巨大的用户配对,同时避免信道增益差距微小的用户配对,以提高系统整体性能;考虑信道增益过小的用户在现实场景中无法通信,设置一个信道增益门限值作为能否通信的判决条件,分组后采用信道增益差值作为偏好度进行组间两两配对。仿真结果表明,相较于现有的传统NOMA配对方案和经典的正交多址接入(Orthogonal multiple access, OMA)网络,本文所提方案有效地提高了系统的遍历和速率;在信道增益门限值发生变化时,本文所提方案依然优于其他方案。
2022, 37(2):359-370. DOI: 10.16337/j.1004-9037.2022.02.009
摘要:磁声发射(MAE)是铁磁性材料磁化过程中产生的声发射信号,在构件应力检测和微观损伤检测中有着广泛的应用。针对MAE信号非稳态、复杂性、衰减性等特点,提出海鸥算法结合变分模态分解(SOA-VMD)的去噪方法,为克服海鸥算法求解过程中易陷入局部最优解问题,利用柯西变异算子产生随机迭代过程,使改进算法即柯西变异海欧算法(CVSOA)跳出早熟收敛。采用以幅值谱熵为适应度函数,优化VMD算法中分解模态个数K和二次惩戒因子
2022, 37(2):371-382. DOI: 10.16337/j.1004-9037.2022.02.010
摘要:针对工业物联网因海量数据交换导致的频谱短缺问题,本文将认知无线电技术运用到工业物联网中,提出一种认知工业物联网(Cognitive industrial internet of things, CIIOT)中基于改进麻雀算法和功率控制的频谱分配策略。该策略以最大化公平性和能量效率为前提,首先使用一种基于改进地图指南针算子和步长因子的二进制麻雀搜索算法(Improved binary sparrow search algorithm, IBSSA)对CIIOT用户进行频谱分配;然后使用基于接收信噪比(SINR)的闭环功率控制算法对通信过程中的用户进行动态功率调整,达到发射功率最佳,最后将系统能量效率和公平性作为评价指标,与二进制麻雀算法(Binary sparrow algorithm, BSSA)和二进制蝙蝠算法(Binary bat algorithm, BBA)进行比较。仿真结果表明,相比BSSA和BBA算法,IBSSA算法可以获得更高的系统能量效率和用户公平性,说明本文提出的优化策略明显提高了认知工业物联网的公平性和能量效率。
2022, 37(2):383-395. DOI: 10.16337/j.1004-9037.2022.02.011
摘要:随着全媒体时代的到来和社交网络的发展,流行度预测在舆情监测和数据话语权的争夺上开始发挥重要的作用。现有的流行度预测研究多集中于外文媒体,对以微博为代表的国内主流媒体进行流行度预测是一个新兴且具有挑战的方向。本文针对微博这一国内社交媒体平台进行研究,通过对微博内容及微博用户的特征分析,设计了多种流行度预测方案,同时,提出了一种基于XGBoost的微博流行度预测算法,将流行度预测问题转换为互动值档位分类问题,在分类式框架下将提取融合后的特征用于模型训练,可以较为准确地对有用户信息的微博的流行度情况进行预测。本文的算法在微博流行度预测数据集中得到验证,并且取得了准确率高达85.69%的优越效果。
2022, 37(2):396-404. DOI: 10.16337/j.1004-9037.2022.02.012
摘要:为进一步提高语音欺骗检测的准确率,提出一种融合LSTM-GRU网络的语音逻辑访问攻击(语音转换、语音合成)检测方法。融合LSTM-GRU网络是由长短期记忆网络( Long short-term memory,LSTM)层、门控循环神经单元(Gated recurrent unit,GRU)层、丢弃层、批归一化层和全连接层串联结合的一种混合网络,其中LSTM层可以解决语音序列中的长时依赖问题,GRU层则可降低模型参数量。实验在ASVspoof2019 LA数据集上进行,提取20维的梅尔倒谱系数特征用于模型训练,在测试阶段使用训练好的LSTM-GRU模型对测试集中的语音进行欺骗检测。与GRU网络及LSTM网络的比较结果表明:LSTM-GRU网络在3种网络模型中正确识别率最高,等错误率(Equal error rate, EER)比ASVspoof2019挑战赛所提供基线系统低27.07%,对逻辑访问攻击语音检测的平均准确率达到98.04%,并且融合LSTM-GRU网络具备训练时间短、防止过拟合及稳定性高等优点。结果证明本文方法可有效应用于语音逻辑访问攻击检测任务中。
2022, 37(2):405-414. DOI: 10.16337/j.1004-9037.2022.02.013
摘要:针对现有大坝病害检测方法只能粗略定位裂缝所在区域的问题,提出了一种基于通用目标检测器的大坝裂缝提取方法。首先,设计了一个二目标检测器,把裂缝区域和水渍区域作为两个独立的目标在图像上同时检测出来;其次,建立和同一裂缝关联的裂缝区域和水渍区域几何位置关系;最后,对裂缝框中包含的水渍框上边界进行点均匀采样,对采样点进行曲线拟合得到裂缝曲线。实验结果表明:提出的算法不仅能够准确检测裂缝框和水渍框,而且能完整地拟合出裂缝曲线,并在毫米级宽度的大坝病害检测中进行了有效验证。
2022, 37(2):415-425. DOI: 10.16337/j.1004-9037.2022.02.014
摘要:自然场景中文本的形状、方向和类别等变化丰富,场景文本检测仍然面临挑战。为了能够更好地将文本与非文本分隔并准确定位自然场景图像中的文本区域,本文提出一种局部与全局双重特征融合的文本检测网络,通过跳跃连接的方式实现多尺度全局特征融合,对恒等残差块进行改进实现局部细粒度特征融合,从而减少特征信息丢失,增强对文本区域特征提取力度,并采用多边形偏移文本域与文本边缘信息相结合的方式准确定位文本区域。为了评估本文方法的有效性,在现有经典数据集ICDAR2015和CTW1500上进行了多组对比实验,实验结果表明在复杂场景下该方法文本检测的性能更加卓越。
2022, 37(2):426-436. DOI: 10.16337/j.1004-9037.2022.02.015
摘要:自动驾驶是目前计算机视觉任务中难度较大的一类任务,而道路场景下的语义分割是自动驾驶的核心技术之一。本文针对经典分割网络中分辨率恢复方式简单,导致细节信息不完整、目标边缘模糊的问题,提出一种基于强化语义流场的上采样方法。该方法通过学习相邻特征图之间的语义流场,使生成图语义信息更细致,边界处更清晰。同时针对道路场景中目标尺度变化处理困难、小目标难以识别的问题,提出一种新的多级特征融合方法,充分融合深层语义信息与浅层细节信息,以适应不同尺度的目标。本文采用CamVid为数据集进行实验,并进行数据增强。实验表明本文提出的两种方法均显著提升了准确度,整体网络与PSPNet、Deeplabv3+等多种模型相比,准确率更高,分割效果更接近真实值。
2022, 37(2):437-445. DOI: 10.16337/j.1004-9037.2022.02.016
摘要:声学回声消除中存在的双端讲话情况会导致回声消除器的性能发生恶化,而传统的双端话音检测及其控制算法无法有效应对双讲。针对这一问题,提出一种根据频谱信扰比(近端话音功率谱值和回声功率谱值之比)调整自适应步长的方法。为减少计算量以及降低处理时延,采用分段频域块最小均方(Partitioned frequency block least mean square, PFBLMS)算法作为自适应滤波算法,因而系统的自适应步长在频域上进行调整。首先建立频谱信扰比和相干函数之间的关系,通过计算出的相干函数值得到步长因子,最后根据步长因子实时调整每个频点的自适应步长。此外,还结合双滤波器和稀疏控制算法进一步提高系统的鲁棒性和收敛性能。仿真实验表明,该系统在双讲状态下依然能够保证良好的回声抑制能力,并能够及时跟踪回声信道的变化。相比于基于归一化互相关函数的双端话音检测算法以及开源项目Speex中的回声消除算法,系统在双讲情况下的回波抑制比(Echo return loss enhancement, ERLE)和语音质量得分(Perceptual evaluation of speech quality, PESQ)均有所提高。
2022, 37(2):446-455. DOI: 10.16337/j.1004-9037.2022.02.017
摘要:在现代创伤救治中,根据患者伤情进行合理而准确的院前评估并制定相应的救治决策对降低患者伤残率与死亡率具有重要意义。为了改善人工制定决策的缺陷,实现准确合理的标准化创伤救治决策制定,本文利用多标签学习思想,在对创伤救治决策进行深入分析与研究的基础上,将整体救治决策进行子决策划分,并提取出子决策对应的判定因素作为标签集。为了更好地考虑标签间的关联,将Classifier Chains算法的链式思想与多标签K近邻(Multi-label K-nearest neighbor,ML-KNN)算法融合,提出一种层链多标签学习算法,称为层链多标签K近邻算法(Layer chain ML-KNN,LCML-KNN)。LCML-KNN算法将标签依特点划分为两个层链,在第一层链的预测标签信息输出后对其进行独热编码,转化后的标签看作新特征放入第二层链进行预测与判断。LCML-KNN算法不仅更好地考虑了标签间的关联性,而且通过标签转化扩充了特征维数。在两个创伤类数据集上与现有各类多标签算法进行实验对比,结果验证了LCML-KNN算法的鲁棒性和优越性。
2022, 37(2):456-462. DOI: 10.16337/j.1004-9037.2022.02.018
摘要:为了提高个性化推荐系统性能,提出了一种基于深度受限玻尔兹曼机的个性化推荐方法。首先通过提取推荐系统的用户和资源特征构建多层受限玻尔兹曼机(Restricted Boltzmann machine,RBM)网络,从而形成深度受限玻尔兹曼机个性化推荐模型;其次通过可视和隐藏层的边缘概率分布求解待推荐训练样本的最大似然度;然后结合对比散度(Contrast divergence,CD)重构来获得RBM主要参数更新方式,并通过可视和隐藏层的正反向更新,来获得稳定的RBM结构;最后利用计算用户资源评分值实现个性化推荐。实验结果表明,在训练样本稀疏度合理范围内,与常用个性化推荐算法比较,所提方法通过合理控制RBM深度和设置合适的隐藏层节点数,能够获得更优的均方根误差(Root mean squared error,RMSE)性能。
2022, 37(2):463-470. DOI: 10.16337/j.1004-9037.2022.02.019
摘要:针对风洞流量测量中传统静态软测量模型估计精度低、鲁棒性差等问题,提出了注意力机制(Attention mechanism, Attention)、长短时记忆神经网络(Long short-term memory, LSTM)和卡尔曼滤波(Kalman filtering, Kalman)结合的Attention-LSTM-Kalman软测量模型:通过LSTM网络建立静态软测量模型,在此基础上,提出一种基于注意力机制的改进方案,考虑到系统的动态特性,使用卡尔曼滤波动态调整软测量模型输出序列。实验结果表明,静态预测模型LSTM的预测效果优于循环神经网络(Recurrent neural network, RNN)和门控循环单元(Gated recurrent unit, GRU)等模型;基于LSTM、Attention-LSTM和Attention-LSTM-Kalman的3种模型的对比预测测量结果表明,注意力机制能有效提高模型精准度,引入卡尔曼滤波改善了模型的动态测量特性。该模型方案在风洞系统的流量测量验证了其可行性和有效性。
您是本站第 访问者
通信地址:南京市御道街29号 南京航空航天大学(明故宫校区)
邮编:210016 传真:025-84892742
电话:025-84892742 E-mail:sjcj@nuaa.edu.cn
技术支持:北京勤云科技发展有限公司
网站版权: © 《数据采集与处理》 编辑部