2017, 32(2):205-220. DOI: 10.16337/j.1004-9037.2017.02.001
摘要:低资源语音识别是当今语音界研究的热点问题之一,也是多语言小语种语音识别技术在实际应用中所面临的重要挑战之一。本文回顾并总结了低资源语音识别的 发展历史和研究现状,重点介绍了低资源语音识别在声学特征、声学模型和语言模型方面的若干关键技术研究进展。具体内容包括发音特征、多语言瓶颈特征、子空间高斯混合模型、卷积神经网络声学模型和递归神经网络语言模型,然后介绍了针对低资源语音识别的公开关键词搜索(Open keyword search,OpenKWS)评测,最后对低资源语音识别进行了总结和展望。
2017, 32(2):221-231. DOI: 10.16337/j.1004-9037.2017.02.002
摘要:首先对深度学习的发展历史以及概念进行简要的介绍。然后回顾最近几年基于深度学习的语音识别的研究进展。这一部分内容主要分成以下5点进行介绍:声学模型训练准则,基于深度学习的声学模型结构,基于深度学习的声学模型训练效率优化,基于深度学习的声学模型说话人自适应和基于深度学习的端到端语音识别。最后就基于深度学习的语音识别未来可能的研究方向进行展望。
2017, 32(2):232-245. DOI: 10.16337/j.1004-9037.2017.02.003
摘要:压缩感知技术在 许多领域都有广阔的应用前景。压缩感知关键技术主要包括稀疏矩阵的选取,观测矩阵的构造以及重构算法的设计。语音信号不同于一般信号,通常在观测矩阵和重构算法中有特殊的结构特征。在实际的应用中,噪声难以避免,而压缩感知系统中,重构系统是非线性的,且对噪声敏感,因而研究具有抗噪能力的鲁棒性压缩感知系统具有重要意义,也是压缩感知技术能否真正实用的关键之一。本文首先介绍了压缩感知的基本概念,然后分析各种噪声对压缩感知带来的影响,侧重从语音信号的观测矩阵和重构技术入手,介绍具有鲁棒性的压缩感知投影算子和重构算法,最后对未来可能的研究方向进行了展望。
2017, 32(2):246-257. DOI: 10.16337/j.1004-9037.2017.02.004
摘要:早期的谎言测试技术易受个人和环境影响,同时反测谎技术对其影响也很大。基于脑电信号的测谎技术虽然能够直接观察撒谎行为发生时内部相关脑区的神经活动,更加客观地揭示撒谎活动的内部规律,但是此类技术所需的专业设备庞大而贵重。相比之下,语音测谎技术具有时空跨越性和高隐蔽性等优点。本文介绍当前测谎技术的发展情况和基本原理,介绍并分析了当前的非语音测谎指标和声学相关指标的类型及特点;然后介绍了目前公开的几种语音相关的测谎数据库,并重点阐述了语音测谎分类算法的研究进展;最后从汉语测谎语料库建立、语音特征表达、反测谎技术研究、理论研究和配套工作开展等方面对语音测谎技术进行了展望。
2017, 32(2):258-265. DOI: 10.16337/j.1004-9037.2017.02.005
摘要:在信号的传输过程中,由于信号反射和折射,导致多径传输产生相干信号。此时信号协方差矩阵出现秩缺,导致传统的超分辨波达方向估计(Direction of arrival,DOA)算法失效。针对相干信号的DOA估计算法被提出,这些算法通过利用阵列导向矢量的特殊性质,对协方差矩阵的秩进行恢复,从而达到解相干的目的。围绕着减小阵列孔径损失、增加可处理信号数量和提高估计精度等目标,新的相干信号DOA估计算法不断被提出,成为阵列信号处理方向的一个研究热点。本文介绍了相干信号的产生和其对DOA估计的影响,给出了相干信号的阵列模型,根据解相干方式的不同,将各种相干信号的DOA估计算法进行分类,并逐类进行阐述,最后展望了相干信号DOA估计未来的研究方向。
2017, 32(2):266-277. DOI: 10.16337/j.1004-9037.2017.02.006
摘要:非负组合模型在人工智能、数据挖掘和智能信息处理研究领域具有十分重要的应用意义,已经逐渐成为声源分离中最常使用以及最具代表性的模型之一。内含于其中的非负成分的加性组合与人类听觉系统的感知机理高度契合。利用非负组合模型进行声源分离的技术正在变得越来越流行。 本文从被称作非负矩阵分解的最基本的非负组合模型开始,首先回顾了非负组合模型的基本原则,包括需要求解的基本问题、目标函数的度量以及求解相关问题的常用方法。在此基础上,系统地讨论了非负矩阵分解在声源分离不同应用领域的拓展。最后 指出并讨论非负组合模型研究中有待进一步研究的开放问题。
2017, 32(2):278-285. DOI: 10.16337/j.1004-9037.2017.02.007
摘要:针对H.264标准推荐使用的快速运动估计算法——非对称十字型多层次六边形格点搜索(Unsymmetrical cross multi-hexagon grid search, UMHexagonS)算法搜索速度慢的问题,提出了一种改进算法。在起始搜索点的预测环节,建立预测矢量集,并根据预测矢量集的长度信息决定后续的搜索策略;在全局搜索环节,利用预测运动矢量之间的相关性适当跳过某些搜索步骤,并更换一些搜索模板;并且,根据整数变换和量化的特性检测全零系数块,提前终止运动估计过程。实验结果表明,在量化步长为28时,本文算法比UMHexagonS算法平均减少了34.80%的运动估计时间,同时编码性能基本不变。该算法在不同量化步长的条件下能够适应不同运动强度的视频序列,是一种适合H.264的速度快且性能好的快速运动估计算法。
2017, 32(2):286-292. DOI: 10.16337/j.1004-9037.2017.02.008
摘要:超声Lamb波在工业无损检测与 评价中具有广阔的应用前景。但受制于超声导波多模式频散与混叠的影响,如何实现高分辨率超声导波的模式分离与频散曲线提取,进而定量分析材料的健康状况一直是研究的热点与难点。本文旨在将现代信号处理中广泛采用的谱估计技术应用于超声Lamb波阵列信号分析,并通过提取频散曲线定量测量板厚度。以经典参数谱估计法中的Yule-Walker法与Burg法为例,实验测量和分析了3 mm,4 mm和 5 mm厚铝板中的宽带多模式Lamb波信号,准确地提取了铝板中的宽带Lamb波频散曲线,并比较了两种经典谱估计方法与二维傅氏变换法的性能,最终实现了铝板厚度估计。
2017, 32(2):293-299. DOI: 10.16337/j.1004-9037.2017.02.009
摘要:针对传统相机捕获的图像去运动模糊性能不稳定的问题,对编码相机的原理和编码策略进行研究,提出了一种基于相机优化编码和图像有效边缘的点扩展函数(Point spread function,PSF)估计与去运动模糊方法。首先,对传统相机的alpha蒙板去模糊方法进行研究,并将其扩展到编码相机的去运动模糊;然后,对影响去模糊性能的编码因素进行分析,找出适宜于PSF估计和可 逆性的最优化编码;最后,对一种基于有效边缘和最大后验分布的PSF估计方法进行改进,并以有效的边缘梯度为空间先验信息采用由粗到精的迭代方式完成图像的去运动模糊。基于仿真模糊图像与真实模糊图像的实验结果表明,本文方法能够有效地估计PSF,并且去运 动模糊方法的性能优于当前技术条件下的其他方法。
2017, 32(2):300-306. DOI: 10.16337/j.1004-9037.2017.02.010
摘要:全维大规模三维多输入多输出天线(3D-MIMO)系统可以显著地提高系统的空间分辨率和功率效率,降低干扰。基于平面大规模天线阵列,本文提出了一种考虑大尺度衰落且δdB衰落波束覆盖区域的动态覆盖区域非对称的、新颖的3D-MIMO动态自适应的直积码本设计方法。本文方法从基站覆盖的边缘开始,逐次计算每个码字,加入码本,码本的覆盖区域逐渐扩大,直到码本满足基站的覆盖要求。通过对比传统的DFT码本,分析了所提码本的特性,结果显示所设计的码本可以有效地将水平面分割成环形区域,并提高了小区边缘的波束覆盖密度。最后分析了所提方法设计码本的大小与衰减值δdB以及天线数的关系。
2017, 32(2):307-313. DOI: 10.16337/j.1004-9037.2017.02.011
摘要:当广义旁瓣抵消器(Generalized sidelobe canceller,GSC)结构的语音增强算法对语音信号的入射方向角估计不准确时,阻塞矩阵(Blocking matrix,BM)不能完全阻塞目标语音,使得部分语音通过阻塞矩阵,在后期多输入抵消器(Multiple-input canceller,MC)模块中和参考信号相抵消,造成目标语音的损失。针对广义旁瓣抵消器因信号到达方向(Direction of arrival,DOA)估计误差而导致语音泄漏的问题,本文提出了一种麦克风阵列语音增强的优化算法,先对经过时延补偿的信号进行频谱调整,再利用MC模块输出与BM模块输出存在相关性的特点,对阻塞矩阵进行自适应调整,使方向估计参数更趋近于真实目标语音方向,以减少阻塞矩阵中目标语音的泄漏。仿真结果表明,该算法 可以有效减少阻塞矩阵中目标语音的泄漏、增强系统的鲁棒性以及提高语音增强效果。
2017, 32(2):314-320. DOI: 10.16337/j.1004-9037.2017.02.012
摘要:针对现有自适应滤波算法中数据处理效率低的问 题,提出了基于并行技术和流水线的最小均方误差(Least mean square,LMS)自适应滤波算法。该算法构建基 于并行技术的多输入多输出滤波器结构,成倍提高系统滤波处理速度;设计基于流水线的LMS 自适应滤波权系数求解方法,有效改善了权系数计算效率。最后利用现场可编程门阵列(Field programmable gate array,FPGA)对该算法进行了验 证,结果表明,对于四级并行流水线四阶LMS自适应滤波器,其数据处理速率提高了约8倍,在相同的数据处理速率下,其功耗可降低约84%,从而提高了LMS自适应滤波处理速率,降低了系统功耗,实现了高速、超高速数据流的实时自适应滤波 处理。
2017, 32(2):321-329. DOI: 10.16337/j.1004-9037.2017.02.013
摘要:随着现代战场中无源探测系统能力的不断提升,机载雷达的生存环境受到日益严峻的威胁和挑战。针对当今电子战中对射频(RF)隐身技术的需求,提出了一种基于协同噪声干扰的机载雷达射频隐身性能优化算法。本文首先以电子对抗中的功率准则为基础,研究了协同噪声干扰对机载雷达射频隐身性能的影响;然后建立了雷达信号截获概率模型,并提出了一种基于协同噪声干扰的机载雷达射频隐身性能优化算法,通过自适应地调整机载雷达的发射功率和协同干扰机的噪声干扰信号功率,在满足系统资源和性能要求的前提下,最小化截获概率;最后通过仿真实验验证了所提算法的可行性和有效性。
2017, 32(2):330-336. DOI: 10.16337/j.1004-9037.2017.02.014
摘要:结合自相位调制引入负啁啾和超奈奎斯特镜像混叠技术,实现了一个大容量、大功率预算的长距离无源光网络(Long reach passive optical networks,LR-PON)系统。引入镜像混叠后,混叠部分的子载波将引入分集,提出采用分数采样和逐子载波最大比值合并(Maximum ratio combining,MRC)算法来获得分集增益。仿真和实验结果表明通过使用大入纤功率和镜像混叠,可将10 GHz 带宽正交相移键控(Quadrature phase shift keying,QPSK)调制的正交频分复用(Orthogonal frequency-division multiplexing,OFDM)信号传输距离由45 km扩展至超过80 km。本文还使用自适应调制技术实现了速率大于32 Gb/s、功率预算超过32 dB的LR-PON系统。
2017, 32(2):337-345. DOI: 10.16337/j.1004-9037.2017.02.015
摘要:虽然基于机器视觉的铁路基础设施的自动化检测技术已经被广泛使用,然而护栏作为保障列车安全运行免受异物入侵的重要组成部分,针对护栏的缺失检测仍依靠传统的人工检视方法。本文基于全景拼接技术,获取了铁路沿线护栏的全景图,并通过提取护栏全景图的灰度均值和方差等统计特征构建了全景图像的二维直方图,在此基础上提出了基于灰度方差的二维直方图的最大熵值分割方法,从而实现了栏杆位置的自动识别和缺损检测。实 验结果验证了该方法的准确性和有效性,且取得了87.5%的查准率和92.1%的查全率。
2017, 32(2):346-353. DOI: 10.16337/j.1004-9037.2017.02.016
摘要:为了有效利用不同关键词检测系统的互补性,解决不同系统检测结果置信度得分不在同一范围的问题,提出了一种基于得分规整和系统融合的语音关键词检测方法。首先,为了克服连续语音识别系统中因剪枝错误而引起的关键词丢失问题,应用了关键词相关的软Beam宽度剪枝策略裁剪词图;其次,在系统融合前采用得分归一化方法,使得不同系统关键词检测结果置信度得分在同一范围;最后,通过系统融合处理将不同系统的关键词输出进行整合,得到最终的关键词检测结果。实验结果表明,经过得分归一化处理后,关键词检测性能的实际查询词权重代价(Actual term-weighted value, ATWV)平均相对提升30%;系统融合后关键词的检测性能,相比于得分归一化处理后的最佳单一系统,得到了10%的提升。
2017, 32(2):354-362. DOI: 10.16337/j.1004-9037.2017.02.017
摘要:针对平面高斯神经(Plane-Gaussian, PG)网络采用k-平面聚类算法得到网络参数,使得网络训练时间过长,且易陷入局部极小值的问题,借鉴极限学习机(Extreme learning machine, ELM)中网络参数随机选择的方式,提出了随机投影下的平面高斯神经网络(Plane-Gaussian network based on random projection, RandPG)。该网络采用随机投影的方式确定隐层激活函数的参数,然后利用Moore-Penrose广义逆求解输出层权值。理论上证明该网络具有全局逼近性。同时,对呈直线型和平面型的人工数据集以及UCI标准数据库中的分类数据集进行测试,结果表明,RandPG网络提供了一种简便的参数学习方法,并且在继承了PG网络对呈子空间分布的数据分类具有优势的情况下,显著提高了网络的学习速度。
2017, 32(2):363-374. DOI: 10.16337/j.1004-9037.2017.02.018
摘要:真实世界的对象 具有多义性,具有非单一的多种标记。对于多标记的学习,现阶段的工作虽然能够利用标记间的重用评分分析多标记间的关系,但是尚不能直观挖掘出多标记的关系结构,也不能准确掌握多标记的主从关系以及多标记的重要性排名情况。而非负矩阵分解(Nonnegative matrix factorization,NMF)方法能对有关联的节点进行有效的社团划分,发掘关联节点的潜在关系,因此利用NMF方法对多标记关系进行社团结构分解成为有价值的研究内容。本文提出多标记社团发现算法,有效地对多标记进行挖掘,发现其中的社团结构,得到多标记的社团关系,并且能够对多标记节点的重要程度排序,分析多标记的主从结构,验证多标记关系算法的有效性,挖掘出其中隐藏的价值,这对于多标记 的研究具有重要意义。
2017, 32(2):375-381. DOI: 10.16337/j.1004-9037.2017.02.019
摘要:多基线干涉合成孔径雷达(Interferometic synthetic aperture radar,InSAR)利用长短基线之间的关系,能够获得优于单基线InSAR的高程测量结果。本文针对多基线InSAR的数据特点,提出了基于信号子空间估计的多基线InSAR干涉相位图滤波方法。该方法将不同长度基线下所获得干涉相位图中同一像素单元信号作为一个训练样本,通过信号子空间的估计完成多基线InSAR干涉相位图滤波。仿真实验结果表明,本文方法可以在运算时间相当的情况下,获得优于回转均值滤波算法和回转中值滤波算法的滤波性能,是一种可满足实时处理要求的有效的多基线InSAR干涉相位图滤波方法。
2017, 32(2):382-389. DOI: 10.16337/j.1004-9037.2017.02.020
摘要:异常轨迹检测是轨迹数据挖掘研究领域的一个重要研究内容,基于演化计算的异常轨迹检测算法(Top-k evolving trajectory outlier detection, TOP-EYE)是一种有效的异常轨迹检测算法。不同于其他算法采用的轨迹距离计算方法,TOP-EYE算法 从轨迹的方向和密度角度出发,采用演化计算的方式检测异常。为了提高TOP-EYE算法对海量轨迹数据集异常检测的效率,本文在其基础上提出了基于MapReduce的异常轨迹检测并行算法(Parallel detecting abnormal trajectory based on TOP-EYE, PDAT-TOP ),利用MapReduce并行计算的优势提高了异常轨迹检测的效率。将算法PDA T-TOP在Hadoop平台上加以实现,实验结果表明,算法PDAT-TOP能够有效地检测异常轨迹,并且具有较高的可扩展性和加速比。
2017, 32(2):390-398. DOI: 10.16337/j.1004-9037.2017.02.021
摘要:主动式网络路径可用带宽测量是目前网络路径带宽测量使用的主要方法,与被动式网络路径可用带宽测量相比,具有更高的灵活性且部署方便。为解决主动式网络路径可用带宽测量定义不明确、通用性不强、协议不规范和结果不准确等问题,规范定义了探测通信协议和报文结构,建立了较为完整、统一和规范的主动式网络路径可用带宽测量框架,提出了序列时延增加度和基于序列时延增加度的离群区间计算方法,改进了网络背景流量分析方法,降低了背景流量对网络路径可用带宽测量的干扰,最后使用NS2仿真对比验证了该算法的有效性。
2017, 32(2):399-407. DOI: 10.16337/j.1004-9037.2017.02.022
摘要:针对视觉词典在图像表示与检索方面的应用需求,本文提出了一种基于多视觉词典与显著性加权相结合的图像检索方法,实现了图像多特征的显著性稀疏表示。该方法首先划分图像为小块,提取图像块的多种底层特征,然后将其作为输入向量,通过非负稀疏编码分别学习图像块多种特征对应的视觉词典,将得到的图 像块稀疏向量经过显著性汇总方法引入空间信息并作显著性加权处理,形成整幅图像的稀疏表示,最后采用提出的SDD距离计算方式进行图像检索。在Corel和Caltech通用图像集上进行仿真实验,与单一视觉词典的方法对比,结果表明本文方法能够有效提高图像检索的准确率。
2017, 32(2):408-416. DOI: 10.16337/j.1004-9037.2017.02.023
摘要:文本分割在文本摘要、信息检索等诸多领域都有重要的应用。主题模型是该领域研究中的重要方法,但目前基于主题模型的方法普遍依赖于主题个数的人工设置。针对此问题,本文提出了一种基于分层狄利克雷过程(Hierarchical Dirichlet process,HDP)模型的文本分割方法。首先使用HDP模型获取文本在主题空间的向量表示,然后将主题向量用于C99分割算法实现文本分割,最后使用两种优化策略对结果进行优化。实验结果表明,基于HDP模型的方法能够摆脱对人工设置主题个数的依赖,有效提高了文本分割的性能。
2017, 32(2):417-423. DOI: 10.16337/j.1004-9037.2017.02.024
摘要:在遥感图像中,灾区建筑物的检测对灾情获取和灾后应急救援具有重要意义。针对灾区高分辨率遥感图像中建筑物检测的问题,提出了一种改进 的基于形态学特征的多方向和多尺度分割方法,以实现灾区建筑物的自动化检测。首先将形态学算子的重建、粒度和方向等性质 整合到建筑物的亮度、大小和对比度等特征中,对遥感图像进行初步的分割并提取高亮和高对比度的建筑物,然后结合图像的区 域边缘信息,进一步提取潜在的建筑物。实验结果表明,所提方法对灾区高分辨率图像中的建筑目标有较高的检测率和较低的误检率。
2017, 32(2):424-430. DOI: 10.16337/j.1004-9037.2017.02.025
摘要:在火焰检测中对火焰运动区域提取和闪烁特征分析大都分开进行,本文在提取运动区域的同时分析该区域的闪频特性,即将火焰的运动特征和闪烁特征同时提取。首先基于Ohta颜色空间找出图像中具有火焰颜色的疑似区域,其次根据视频图像某个位置在一段时间内变化的程度和次数是否都达到一定程度提取具有闪烁特性的运动区域,最后根据具有火焰颜色的连通区域是否包含这种运动区域,且颜色区域与运动区域的面积比例是否达到一定比值,来判断该连通区域是否为火焰。实验结果表明该方法在提取运动区域的同时能排除不具火焰闪烁特征的前景,且能在运动区域提取不完整的情况下保持较高的火焰检测率和较低的误检率。
您是本站第 访问者
通信地址:南京市御道街29号 南京航空航天大学(明故宫校区)
邮编:210016 传真:025-84892742
电话:025-84892742 E-mail:sjcj@nuaa.edu.cn
技术支持:北京勤云科技发展有限公司
网站版权: © 《数据采集与处理》 编辑部