2021, 36(5):831-849. DOI: 10.16337/j.1004-9037.2021.05.001
摘要:自动说话人验证(Automatic speaker verification,ASV)技术的发展正在深刻地影响和改变着当前的人机交互系统,ASV作为一些智能设备的语音核心功能,可以接受目标说话人的语音并准确识别出该说话人的身份。近年来,人工智能技术的快速进展推动了ASV系统实现跨越式发展。然而,随着人工神经网络和深度学习技术的发展,越来越多的研究者开始研究如何攻击ASV系统。如何通过对原始语音进行一系列处理实现对ASV系统的攻击,是近年来语音领域研究的一个热点问题。目前,对ASV系统的攻击方法大致可分为欺骗攻击(Spoofing attack)和对抗攻击(Adversarial attack)两大类。本文对两大类的典型方法和基本原理进行综述,梳理了目前一些攻击手段中存在的若干问题,揭示了ASV系统存在的安全隐患,对今后ASV系统安全性的发展做了简要的展望,并为未来进一步提高ASV系统的安全性和可靠性提供了参考。
2021, 36(5):850-871. DOI: 10.16337/j.1004-9037.2021.05.002
摘要:多组分痕量气体检测在工业、军事、农业和医疗等领域均有着重要的研究和应用价值。高性能光声光谱技术因其灵敏度高、响应快、选择性高及非接触式实时连续测量等优点受到人们的青睐。本文首先对多组分气体监测需求和光声光谱技术的主要优势和基本原理进行阐述;然后从光源分类的角度出发,介绍了现有多组分气体测量技术的最新研究进展,概括光声光谱中常用的探测方式,包括多路复用技术和干涉型傅里叶变换红外光谱等,并对其具体的适用范围和优缺点进行了对比分析。同时,针对实际应用环境中气体传感系统主要存在的光谱干扰和吸附效应的问题,介绍了相应的解决方法。最后,对光声光谱多组分探测方法的未来发展方向进行了总结和展望。
2021, 36(5):872-883. DOI: 10.16337/j.1004-9037.2021.05.003
摘要:近年来,随着人们对视听体验的要求不断提高,三维(空间)音频技术被广泛应用于娱乐影音等各领域,并取得显著进展。如何便捷地创造一个具有沉浸式空间听觉体验的环境是一直以来的研究热点。因此综述了主流三维声场重建的相关技术,并分析了其优缺点,主要讨论了三维声场的表达与维度、不同扬声器下的三维声场重建以及相应的混响均衡技术。最后,归纳了三维声场重建技术目前存在的问题,并展望未来发展的新方向。
2021, 36(5):884-890. DOI: 10.16337/j.1004-9037.2021.05.004
摘要:针对广义旁瓣相消器(Generalized sidelobe canceller,GSC)存在非相干噪声消除性能不佳的缺陷,提出了采用后置Kalman滤波器改进的GSC去噪算法。该算法通过归一化最小均方算法校正自适应噪声对消器,并将滤除方向性干扰噪声后的语音信号输出到Kalman滤波器中,对残余背景噪声进行迭代最小均方误差(Minimum mean square error,MMSE)估计,抑制非相干噪声与麦克风阵元所产生的热噪声。经过在不同信噪比条件下客观语音质量评估(Perceptual evaluation of speech quality,PESQ)及语谱图分析后证明,与传统的GSC以及后置谱减法的改进GSC相比,本算法在噪声消除上的表现更为优越,且增强后信号也更接近目标信号。
2021, 36(5):891-897. DOI: 10.16337/j.1004-9037.2021.05.005
摘要:光学相干层析-血管内超声联合(Optical coherence tomography intravascular ultrasound, OCT-IVUS)成像技术能同时弥补光学相干涉成像的低成像深度与超声成像的低分辨率,能够较为全面地进行血管内的易损斑块识别,但受血管内超声(Intravascular ultrasound, IVUS)技术超声激发重复频率限制,OCT-IVUS成像难以在高帧率成像的同时获得高成像线数,从而影响显示分辨率。为提升IVUS成像速度,同时不降低图像显示的分辨率,尝试应用高重频超声激发技术的方法解决这一难题。本文设计了一种50 kHz的高重频超声激发电路,并在此设计基础上研制了一种50 f/s的高速超声内窥成像系统;进而对系统性能进行测试。激发电路高压脉冲测试以及信噪比(Signal noise ratio, SNR)测试结果表明:激发电路可用于25 MHz超声换能器的激发,具有较高的SNR;应用此激发电路所研制的超声内窥成像系统能够在不降低显示分辨率的前提下提高成像速度,该系统技术能有效检出易损斑块,促进OCT-IVUS的临床应用,对心血管疾病的早期发现、诊断和预防具有一定价值。
2021, 36(5):898-920. DOI: 10.16337/j.1004-9037.2021.05.006
摘要:人脸表情合成技术旨在保留人脸身份信息的情况下,对人脸表情进行重建,从而生成具有新表情的源人脸图像。深度学习的发展为表情合成提供了全新的解决方案,本文从特征提取、生成对抗网络的表情合成和实验评估方面综述了人脸表情合成技术的发展。首先,介绍了人脸特征的提取,这是表情合成任务中的一项关键技术,人脸特征可客观全面地描述人脸表情状态。其次,分析了表情合成领域中主流的基于深度学习的方法,主要针对生成对抗网络(Generative adversarial network,GAN)的发展现状,探讨了基于生成对抗网络的表情合成方法。通过对人脸数据集及实验评估方法的深入研究,总结出广泛使用的人脸表情合成数据集以及多种客观评价方法。最后根据现有方法所存在的问题,提出了未来工作的研究方向。
2021, 36(5):921-931. DOI: 10.16337/j.1004-9037.2021.05.007
摘要:基于深度学习的骨导语音盲增强已经取得了较好的效果,但仍存在模型体积大、计算复杂度高等问题。为此提出一种融合卷积网络和残差长短时记忆网络的轻量级骨导语音增强深度学习模型,该模型在保持语音增强质量的前提下,能有效提升骨导语音盲增强的效率。该模型借助卷积网络参数量小、特征提取能力强等优点,在语谱图频率维度引入卷积结构,从而深入挖掘时频结构的细节和高低频信息间的关联关系以提取新型特征,并将此新型特征输入改进后的长短时记忆网络中,用于恢复高频成分信息并重构语音信号。通过在骨导语音数据库上实验,表明所提模型可以有效改善高频成分的时频结构,在提升增强效果的同时,降低了模型体积和推理的计算复杂度。
2021, 36(5):932-938. DOI: 10.16337/j.1004-9037.2021.05.008
摘要:传统的语音文档分类系统通常是基于语音识别系统所转录的文本实现的,识别错误会严重影响到这类系统的性能。尽管将语音和识别文本融合可以一定程度上减轻识别错误的影响,但大多数融合都是在表示向量层面融合,没有充分利用语音声学和语义信息之间的互补性。本文提出融合声学特征和深度特征的神经网络语音文档分类,在神经网络训练中,首先采用训练好的声学模型为每个语音文档提取包含语义信息的深度特征,然后将语音文档的声学特征和深度特征通过门控机制逐帧进行融合,融合后的特征用于语音文档分类。在语音新闻播报语料集上进行实验,本文提出的系统明显优于基于语音和文本融合的语音文档分类系统,最终的分类准确率达到97.27%。
2021, 36(5):939-949. DOI: 10.16337/j.1004-9037.2021.05.009
摘要:针对数字助听器中回声消除算法计算复杂度高的问题,提出了一种基于集员滤波(Set membership filtering, SMF)理论的变步长基于L0范数的改进比例归一化最小均方误差算法(L0-norm constrained improved proportional NLMS, L0-IPNLMS)算法。该算法将集员滤波的时变步长引入到L0-IPNLMS算法中,不仅提高了系统的收敛特性,而且充分利用了集员滤波理论的数据选择更新特性,在误差幅度有界的前提下进行滤波器系数的更新,减少了不必要的迭代次数,降低了数字助听器的功耗。仿真实验表明,与L0-IPNLMS算法相比,结合集员滤波和L0范数的改进比例归一化最小均方误差算法(L0-Norm constrained improved proportional NLMS based on set membership filtering theory, SM-L0-IPNLMS)算法在保留稀疏性的同时,计算复杂度降低了15.3%,在以随机信号和真实语音作为输入信号时收敛速度分别提高了28%、32.8%,失调量分别降低了1 dB、3 dB,均方误差分别降低了0.66 dB和1.68 dB,回声损失值则分别提升了0.7 dB和1.79 dB。此外,算法在低信噪比的输入条件下也具有较强的鲁棒性。
2021, 36(5):950-959. DOI: 10.16337/j.1004-9037.2021.05.010
摘要:针对基于逻辑回归的隐半马尔可夫模型中希尔伯特(Hilbert)变换提取的心音包络具有较大毛刺,提出一种结合支持向量机(Support vector machine, SVM)和香农能量的隐半马尔可夫模型(Hidden semi-Markov model, HSMM)心音分割算法。首先采用小波降噪的方法对心音进行降噪,接着根据R峰和T波标记心音,提取香农能量包络等特征,然后对结合逻辑回归模型(Logistic regression, LR)的HSMM相关参数进行训练,并借助Viterbi算法推测出最可能的状态。最后,通过SVM模型识别第一心音S1和第二心音S2。该算法无需设置硬阈值,有效地抑制了噪声,更有助于包络的提取。实验结果表明,提出的算法分割精确度较参考算法得到显著的提升,具有良好的抗噪性能,取得了更好的分割效果。
2021, 36(5):960-968. DOI: 10.16337/j.1004-9037.2021.05.011
摘要:为了对环境声音进行更好的识别和分类,提出了基于多级残差网络(Multilevel residual network, Mul-EnvResNet)的环境声音分类方法。对声音事件进行时标和基频压扩之后,提取其梅尔频率倒谱系数(Mel-frequency cepstral coefficients, MFCCs),以及它们的差分作为特征参数送入Mul-EnvResNet对声音事件进行分类。实验数据集采用ESC-50,将Mul-EnvResNet模型与端到端的卷积神经网络(EnvNet)、基于注意力机制的循环神经网络(Attention based convolutional recurrent neural network, ACRNN),以及受限卷积玻尔兹曼机的无监督滤波器组模型(Convolutional restricted Boltzmann machine, ConvRBM)进行对比实验。实验结果表明, Mul-EnvResNet取得了89.32%的最佳分类准确率,相较上述3种模型在分类准确率上分别有18.32%、3.22%、2.82%的提升,相较于其他的声音分类方法也均有明显的优势。
2021, 36(5):969-977. DOI: 10.16337/j.1004-9037.2021.05.012
摘要:针对欠定盲源分离(Underdetermined blind source separation, UBSS)问题,采用基于密度的空间聚类(Density based spatial clustering of applications with noise, DBSCAN)算法估计聚类中心时易陷入局部最优,因此由聚类中心坐标构成的混合矩阵的精度降低,导致信号分离结果不理想。本文在DBSCAN基础上提出布谷鸟自适应搜索群优化算法(Cuckoo adaptive search swarm optimization of density based spatial clustering of applications with noise, CASSO-DBSCAN),该算法依据Levy飞行策略增强全局自适应搜索能力,并利用群体学习思想精细寻优得到最优解,从而更加精准地估计聚类中心。通过语音信号的盲源分离仿真实验对该算法进行验证,结果表明,该算法能够有效改善欠定混合矩阵的估计精度,具有良好的鲁棒性,证明了其可行性。
2021, 36(5):978-985. DOI: 10.16337/j.1004-9037.2021.05.013
摘要:针对复杂的水下环境导致水声通信噪声出现异常值的问题,提出一种基于因子图结合卡方检测的多AUV协同定位算法。建立因子图模型将全局函数估计问题转化为局部函数和积估计问题,利用卡方检测测距噪声异常值。所提算法在测距噪声存在异常值情况下,与传统Kalman滤波算法相比定位误差大幅减小。该研究进行了数学仿真验证,验证了所提算法可以有效提高系统的定位稳定性,处理测距噪声异常值对定位性能的影响。
2021, 36(5):986-995. DOI: 10.16337/j.1004-9037.2021.05.014
摘要:数据中心的高能耗低能效问题正受到广泛关注与研究,但目前没有公开的数据中心内服务器能耗数据集供研究人员使用,且现有过滤式特征选择并不能满足运维人员的需求。为此,提出了一套模拟数据中心内服务器运行状态的仿真环境架构,基于该架构采集了服务器运行各类任务时的多项性能指标和能耗数据。然后将基于因果关系的特征选择应用于能耗数据集的特征分析中,构建出可解释的特征子集和能耗预测结果。实验结果表明,因果特征子集大小约为过滤式特征子集大小的1/3到1/6,并且使用因果特征子集训练的模型在75%的情况下都取得了最优预测精度。
2021, 36(5):996-1006. DOI: 10.16337/j.1004-9037.2021.05.015
摘要:构造绿色云数据中心的两个主要目标是低能量消耗与物理资源利用效率的充分利用,为此需要采用虚拟机分配策略来完成优化。本文提出了基于改进花授粉算法的虚拟机分配策略(Flower pollination algorithm based virtual machine allocation, FPA-VMA)。FPA-VMA中一朵花或一个配子就对应于虚拟机映射到物理主机分配优化问题中的一个解;并且描述了云数据中心云客户端的资源请求模型和多维物理资源的能量消耗模型。FPA-VMA在花授粉的动态切换概率阶段的策略可以平衡全局最优解搜索和局部最优解搜索之间的切换,同时改善资源分配的全局收敛能力。真实的虚拟机数据的访问测试结果标明:FPA-VMA比常见的虚拟机分配优化策略有更低的能量消耗和更高的物理资源利用效率。
2021, 36(5):1007-1019. DOI: 10.16337/j.1004-9037.2021.05.016
摘要:低能量消耗与物理资源的充分利用是绿色云数据中心构造的两个主要目标,需要采用虚拟机迁移模型来完成优化,为此提出了融合虚拟机选择和放置的虚拟机迁移模型INTER-VMM(Interrelation approach in virtual machine migration)。INTER-VMM设计了云数据中心的基于多维物理资源约束的能量消耗模型,是一种将主机负载检测、虚拟机选择及放置结合起来考虑的虚拟机迁移策略。在虚拟机选择中采用HPS(High CPU utilization selection)选择法,选择超负载物理主机上CPU利用率最高的一个虚拟机,让其进入候选迁移虚拟机列表中。在虚拟机放置中采用空间感知分配(Space aware placement, SAP)放置法,考虑了充分利用物理主机空余空间使用效率的方法。仿真结果表明,INTER-VMM比近几年来常见的虚拟机迁移策略具有更好的性能指标,对云服务提供商具有很好的参考价值。
2021, 36(5):1020-1029. DOI: 10.16337/j.1004-9037.2021.05.017
摘要:由于移动无线传感器网络支持节点的移动性,使其面临更加复杂的安全性挑战,很难防御一些极具破坏力的攻击,比如节点复制攻击和女巫攻击等。本文提出了在移动异构无线传感器网络模型下一种安全高效的密钥管理方法。所提方法采用椭圆曲线密码学加密算法实现移动节点位置信息到基站的安全上传,以及基于密钥哈希的消息认证码来实现消息源的身份认证。基站则对收集的移动节点位置信息进行统计分析来协助完成固定节点与移动节点间的身份认证及会话密钥建立。实验结果表明,所提方法在密钥建立过程节省了网络资源,同时可有效防御攻击者发起重放攻击、节点复制攻击和女巫攻击等,增强了网络安全性。
2021, 36(5):1030-1040. DOI: 10.16337/j.1004-9037.2021.05.018
摘要:金融市场对于社会经济的发展非常重要,因此金融时间序列预测(Financial time series prediction, FTSP)一直是人们研究的焦点。至今,许多基于统计分析和软计算的方法被提出以解决FTSP问题,其中大多数方法将金融时间序列(Financial time series, FTS)视为或转化为平稳序列进行处理。但是,由于绝大部分FTS是非平稳的,因此这些方法通常存在伪回归或预测性能不佳等问题。本文提出了一种自适应增量集成学习(Self-adaptive incremental ensemble learning, SIEL)算法,用于解决非平稳金融时间序列预测(Non-stationary FTSP, NS-FTSP)问题。SIEL算法的主要思想是为每个非平稳金融时间序列(Non-stationary FTS, NS-FTS)子集增量地训练一个基模型,然后使用自适应加权规则将各基模型组合起来。SIEL算法的重点在于数据权重和基模型权重的更新:数据权重基于当前集成模型在最新数据集上的性能进行更新,其目的不是为了数据采样,而是为了权衡误差;基模型权重基于其所处环境进行自适应更新,且基模型在越新环境下的性能应具有越高的权重。此外,针对NS-FTS的特征,SIEL算法提出了一种能协调新旧知识以及应对环境重演的策略。最后,给出了SIEL算法在3个NS-FTS数据集上的实验结果,并将其与已有算法进行了对比。实验结果表明,SIEL算法能很好地解决NS-FTSP问题。
2021, 36(5):1041-1049. DOI: 10.16337/j.1004-9037.2021.05.019
摘要:输电线路的绝缘子定期巡检是必不可少的一项任务,而传统的人工巡检存在着效率低、工作强度大等问题。因此,本文设计了一种改进的U-Net模型实现对绝缘子的分割,并使用改进的YOLOv5实现在复杂背景下对爆破绝缘子的定位。本文基于U-Net图像语义分割模型,提出一种改进的网络结构SERes-Unet。模型引入残差结构减少卷积过程中存在的梯度消失、结构信息损耗的影响,引入注意力机制对特征权重进行校正,从而提升网络性能。为实现对高分辨率图像的爆破绝缘子检测,提出将图片进行切割再进行检测,再通过非极大值抑制(Non-maximum suppression,NMS)进行筛选,获取图像全部爆破绝缘子的位置。本文设计的多组实验验证了模型的有效性和高效性。本文方法绝缘子分割精度达到0.96,爆破绝缘子检测精确率达到0.97,召回率达到0.99。
2021, 36(5):1050-1061. DOI: 10.16337/j.1004-9037.2021.05.020
摘要:针对海量网站中博彩类违法网站的检测问题,提出了一种基于BERT-BiLSTM与多分类器决策级融合的网站分类方法。该方法通过以下方式来提升分类性能:首先采用网页标签标题、超链接标题等优先的网页特征文本提取方法提升特征文本内容的丰富度;其次提出基于BERT-BiLSTM的文本分类模型,该模型具有良好的语句特征表示能力,从而提升分类性能;最后将网站标题、关键词和网页文本3种网站不同描述维度的分类结果进行决策级融合,进一步提升整个系统的性能与鲁棒性。通过采用多种策略生成疑似博彩网站的域名,提升该方法主动捕获博彩类违法网站的能力。实验结果以及在现实网络空间中的运行结果都充分验证了本文方法的有效性。
2021, 36(5):1062-1072. DOI: 10.16337/j.1004-9037.2021.05.021
摘要:语音情感识别(Speech emotion recognition, SER)是计算机理解人类情感的关键之处,也是人机交互的重要组成部分。当情感语音信号在不同的介质传播时,使用深度学习模型获得的识别精度不高,识别模型的迁移能力不强。为此,设计了一种融合图像显著性和门控循环的声波动方程情感识别(Image saliency gated recurrent acoustic wave equation emotion recognition, ISGR-AWEER)模型,该模型由图像显著性提取和基于门控循环的声波动模型构成。前者模拟注意力机制,用于提取语音中情感表达的有效区域,后者设计了一个声波动情感识别模型,该模型模拟循环神经网络的流程,可以有效提升跨介质下语音情感识别的精度,同时可快速地实现跨介质下的模型迁移。通过实验,在交互情感二元动作捕捉(Interactive emotional dyadic motion capture, IEMOCAP)情感语料库和自建多介质情感语音语料库上验证了当前模型的有效性,与传统的循环神经网络相比,情感识别精度获得了25%的改善,并且具有较强的跨媒介迁移能力。
您是本站第 访问者
通信地址:南京市御道街29号 南京航空航天大学(明故宫校区)
邮编:210016 传真:025-84892742
电话:025-84892742 E-mail:sjcj@nuaa.edu.cn
技术支持:北京勤云科技发展有限公司
网站版权: © 《数据采集与处理》 编辑部