2015, 30(2):239-243. DOI: 10.16337/j.1004-9037.2015.02.001 CSTR:
摘要:信号、数据和信息相关理论及其应用是《数据采集与处理》杂志30年来主要的刊登内容。从早期的A/D转换到DSP,FPGA处理芯片,从分形技术、小波理论到语音信号识别和图像信号处理,从神经网络到深度学习,从无线通信技术到光通信技术,《数据采集与处理》杂志就像一面镜子,折射出信号、数据和信息处理技术的飞速发展。本文对信号、数据和信息处理的历史、发展状况进行了梳理,并对其未来发展方向进行了展望。本文的结论将是《数据采集与处理》未来刊登内容的重要遵循依据。
2015, 30(2):244-251. DOI: 10.16337/j.1004-9037.2015.02.002 CSTR:
摘要:回顾《数据采集与处理》所经历的初创阶段、调整阶段以及稳定发展阶段三个发展阶段,介绍了其创刊30年来载文量、基金论文比、学科分布、影响因子、SJR指标等总体发展状况,总结30年以来的办刊理念和办刊思路,提出应从加强选题策划、加大约稿力度、优化审稿流程、规范编辑出版方面入手提升期刊质量,探索《数据采集与处理》发展的新思路。
2015, 30(2):252-265. DOI: 10.16337/j.1004-9037.2015.02.003 CSTR:
摘要:佩戴数字助听器是解决听力言语残病的主要途径。随着数字信号处理相关技术的广泛应用,近年来应用于数字助听器的各种算法和技术得到了显著的发展。依据目前主流数字助听器的系统结构,本文从响度补偿、噪声抑制和回声消除等几个方面回顾了近年来国内外相关算法的研究和实现方案。同时,针对不同问题和不同解决策略分别进行了对比与分析。最后讨论了现阶段数字助听器算法方案存在的问题,并对未来的相关技术和发展方向进行了预测与展望。
2015, 30(2):266-274. DOI: 10.16337/j.1004-9037.2015.02.004 CSTR:
摘要:基于生物特征的身份认证已得到学术界及企业的高度重视,指纹、人脸识别应用已非常普遍,但对于非现场身份认证,语音相对其他生物特征,具有用户接受程度高、拾音设备简单、随时随地可用、数据量小、计算复杂度低等优势,因此基于声纹的身份认证系统应用越来越广泛。另一方面,由于录音回放攻击简单易行,不需要任何专业知识,且随着廉价、高质量的录音/播放装置的日益增多,回放录音与原始音的相似度越来越高,已成为声纹认证系统最主要的攻击手段之一,因此如何识别录音回放等攻击成为说话人认证系统必须面对的问题。本文对录音回放检测方法进入了全面的介绍,通过对各种方法的分析,表明其研究尚处于起步阶段,但需求日益旺盛。
2015, 30(2):275-288. DOI: 10.16337/j.1004-9037.2015.02.005 CSTR:
摘要:压缩感知技术,特别是语音压缩感知技术逐渐成为信号处理领域的研究热点。当前的语音压缩感知关键技术主要包括适合语音信号的稀疏分解矩阵构造,观测矩阵的选择和重构算法的设计。稀疏分解矩阵的重要代表是正交基、基于语音特性的线性预测矩阵和过完备字典。观测矩阵方面主要采用随机观测矩阵分析语音压缩感知性能;重构算法方面重点研究当观测序列或语音信号本身含有噪声时鲁棒的语音压缩感知重构算法。本文对上述语音压缩感知的3大关键技术进行了介绍和对比分析,并对语音压缩感知的应用进行了总结,最后对未来可能的研究热点进行了展望。
2015, 30(2):289-298. DOI: 10.16337/j.1004-9037.2015.02.006 CSTR:
摘要:光声成像是一种低功率、非电离的成像方式,既具有声学方法对深层组织成像分辨率高的优点,又具有光学方法在功能成像、分子成像方面具有高对比度的优势。本文回顾了近年来,光声成像技术在生物医学领域的研究进展,介绍了光声成像的基本成像原理。以此为基础,本文介绍了光声成像的两种主要成像方案:光声断层成像和光声显微镜,并且讨论了光声成像在获取生物组织化学成分信息和微结构信息方面的优越性;最后,本文对光声成像技术的优点和应用前景进行了总结。
2015, 30(2):299-306. DOI: 10.16337/j.1004-9037.2015.02.007 CSTR:
摘要:基于声学矢量传感器(Acoustic vector sensor,AVS)和空间声源稀疏表示理论,进行了鲁棒的高精度语者声源到达角(Direction of arrival,DOA)估计方法研究。考虑混响和加性噪声影响,本文推导了AVS接收信号的向量化的协方差矩阵模型,设计了过完备字典,依此建立声源的空间稀疏表示模型,最终通过求解稀疏空间谱获得鲁棒的DOA估计。本文进行了大量的不同混响和加性噪声条件下的仿真实验和实际环境中的DOA估计实验,实验结果表明,本文提出的语者声源DOA估计方法在信噪比5~30 dB范围内可获得均方根误差(Root mean square error,RMSE)小于1°的估计精度。在实际环境中也取得了2~10°误差的DOA估计结果。
2015, 30(2):307-318. DOI: 10.16337/j.1004-9037.2015.02.008 CSTR:
摘要:为了提高深度模型的编码重构性能,本文为传统对比散度(Contrastive divergence,CD)添加了基于交叉熵的重构误差约束。利用改进后的算法训练了重构性深度自编码机(Reconstructive deep auto encoder,RDAE),并用RDAE替换混合激励线性预测编码(Mixed excitation linear prediction, MELP)语音编码器中 LSF参数的矢量量化方法。测试结果表明,改进后的算法在损失一定模型似然度的条件下获得了重构性能的提升,当RDAE隐藏层结点设为19 bit时,本文方法所测得的加权LSF距离、重构语音质量、谱失真指标在训练集和测试集上均优于25 bit矢量量化方法,即利用本文方法改进的MELP编码器,在不降低语音质量的条件下,可将MELP编码速率从2.4 kb/s降低至2.1 kb/s,编码速率降低了12.5%。
2015, 30(2):319-327. DOI: 10.16337/j.1004-9037.2015.02.009 CSTR:
摘要:超声背散射信号对松质骨的微观结构极其敏感。骨小梁间距(Trabecular bone spacing,TbSp)是用于表征松质骨微结构的一个重要参数。为了能从松质骨超声背散射信号中准确获得松质骨TbSp,本文提出了一种希尔伯特变换和基频估计法相结合的TbSp估计算法。将该算法应用于离体松质骨的超声背散射信号,获得相应的TbSp值,并与显微CT测得的TbSp进行比较。结果表明,HFE算法在信号频率较高时(5 MHz和10 MHz),估计结果更准确(误差<3%)且稳定(标准偏差<4%);TbSp较大时,估计结果更为准确;TbSp的估计值与标准值在不同频率下均有显著的相关性(r2=0.75~0.99, p<0.01, n=16)。HFE算法估计TbSp具有准确性和稳定性,可用来表征松质骨TbSp。
2015, 30(2):328-335. DOI: 10.16337/j.1004-9037.2015.02.010 CSTR:
摘要:基于人机交互的实际应用场景,提出了一种交互目标声源三维定位与语音增强算法。该算法首先在广义相关法的基础上提出一种声达时延差的估计方法,通过由6个麦克风构成的平行均匀线阵接收模型,实现对目标声源的三维定位;然后在交互目标声源定位的基础上,通过调整时延波束叠加的权值,实现对目标语音的增强。仿真实验结果表明,文中提出的算法能够准确定位目标声源并对目标语音进行有效增强。在信噪比大于1.5 dB 的环境中,该算法可使目标声源达到98%以上定位精度,5 dB 以上信噪比改善,同时算法运算量小且易于硬件实现。
2015, 30(2):336-343. DOI: 10.16337/j.1004-9037.2015.02.011 CSTR:
摘要:语音转换是指在保持源说话人语义内容不变的前提下,通过改变源说话人的个性特征,使其听起来像目标说话人的语音。本文提出一种自适应粒子群优化算法训练径向基函数神经网络进行语音特征建模,以获取说话人谱包络的映射关系;此外,考虑到说话人谱包络参数与基频有着密切的联系,利用基于径向基函数神经网络的联合谱包络基频变换方法,将谱包络参数与基频联合进行建模和转换,使得转换后的基频含有更多的说话人个性特征。最后,运用主、客观方法对获得的转换语音进行性能测试。实验表明,与主流的基于高斯混合模型的语音转换相比,使用自适应粒子群优化的径向基函数神经网络方法能够获得更好的转换性能,且更加适用于男声到女声的转换。
2015, 30(2):344-349. DOI: 10.16337/j.1004-9037.2015.02.012 CSTR:
摘要:针对波达方向估计中传统互功率谱法声源方位估计准确性差、方位模糊的问题,提出了一种基于圆形麦克风阵列的声源定位改进算法,并进行了实验验证。在该改进算法中,先设计了十二元圆形麦克风阵列,由麦克风对接收语音信号的时延与相位得到相位旋转因子,再将其引入到语音信号的互功率谱中,新定义了圆形集成互功率谱,由该功率谱进行声源方位估计。仿真与实测实验结果表明,本文的圆形集成互功率谱法对声源方位进行估计,估计的准确度高于传统互功率谱法。
2015, 30(2):350-358. DOI: 10.16337/j.1004-9037.2015.02.013 CSTR:
摘要:针对腹部复杂的内部结构、各组织之间存在相互浸润,使得腹部磁共振(Magnetic resonance, MR)图像存在大量弱边缘的问题,以及使用传统水平集(Level set)方法对肝脏进行分割时易在弱边缘处产生泄露,采取阈值分割等算法进行预处理以获取更好的分割效果,并使用一种改进的水平集方法分割提取三维腹部MR图像中的肝脏。使用阈值分割进行粗分割可以有效减少干扰,将粗分割的结果进行亮度映射,增强边缘信息,然后将预分割的结果作为初始水平集,使用改进的水平集方法对其进行进一步分割。实验证明多种算法的有效结合能够改善传统水平集分割方法在弱边缘处过度演化的问题,获得较为理想的分割效果,拓展了水平集方法的应用。
2015, 30(2):359-364. DOI: 10.16337/j.1004-9037.2015.02.014 CSTR:
摘要:噪声功率谱估计是语音增强算法的基本组成部分,传统算法大多采用启发式的估计方法,因而不能保证噪声估计值的统计最优。提出了一种基于极大似然的非监督噪声功率谱估计方法,采用隐马尔可夫模型(Hidden Markov model, HMM)在每个子带建立语音和非语音对数功率谱的统计模型,模型包含语音和非语音两个高斯分量,其中非语音高斯分量的均值表示噪声功率谱估计值,根据最大期望(Expectation maximization, EM)算法得到包括噪声均值在内的HMM参数集。针对语音信号可能出现的长时缺失,对HMM引入了一些约束条件,保证了模型的稳定性。实验表明,该方法获得的极大似然噪声估计优于基于启发式的经典方法获得的噪声估计。
2015, 30(2):365-371. DOI: 10.16337/j.1004-9037.2015.02.015 CSTR:
摘要:研究将深度神经网络有效地应用到维吾尔语大词汇量连续语音识别声学建模中的两种方法:深度神经网络与隐马尔可夫模型组成混合架构模型(Deep neural network hidden Markov model, DNN-HMM),代替高斯混合模型进行状态输出概率的计算;深度神经网络作为前端的声学特征提取器提取瓶颈特征(Bottleneck features, BN),为传统的GMM-HMM(Gaussian mixture model-HMM)声学建模架构提供更有效的声学特征(BN-GMM-HMM)。实验结果表明,DNN-HMM模型和BN- GMM-HMM模型比GMM-HMM基线模型词错误率分别降低了8.84%和5.86%,两种方法都取得了较大的性能提升。
2015, 30(2):372-381. DOI: 10.16337/j.1004-9037.2015.02.016 CSTR:
摘要:差分麦克风阵列为实现小尺寸阵列条件下的声源定位提供了一条重要技术途径。语音信号具有稀疏性,利用该特性可实现基于差分麦克风阵列的多声源方位估计,其中的典型方法为直方图法。针对差分麦克风阵列,本文提出了一种基于时频掩蔽和模糊聚类分析的短时平均复声强多声源方位估计方法。分析了不同阵列尺寸条件下时频掩蔽频带范围的选择问题。该方法具有闭式解,在强混响噪声环境下的性能优于直方图法,并且受阵列尺寸变化的影响较小。为了改善直方图法的性能, 基于时频掩蔽的思想,文中还给出了一种修正的直方图方法。混响噪声环境下的仿真实验结果验证了本文所提方法的有效性。
2015, 30(2):382-389. DOI: 10.16337/j.1004-9037.2015.02.017 CSTR:
摘要:提出了一种改进的仿射投影算法。该算法建立了步长因子与误差能量之间一种新的非线性函数关系,根据误差能量的变化自动调整步长因子,以达到加快滤波器收敛速度、降低稳态失调的目的;在对误差能量的估计中提出了遗忘因子选择规则,提高了误差能量估计的准确性。对提出的算法进行的数学分析,为其快速收 敛性提供了理论依据。实验仿真表明,与传统的自适应算法以及固定步长的仿射投影算法相比,提出的改进仿射算法在收敛速度、稳态失调等方面有明显改善。
2015, 30(2):390-398. DOI: 10.16337/j.1004-9037.2015.02.018 CSTR:
摘要:为了提高语音查询项检索效率,提出了一种在加权有限状态转换器(Weighted finite-state transducer,WFST)框架下以混淆网络代替词格建立索引的技术。在索引建立阶段,首先将词格转化为混淆网络并用自动机形式表示,然后利用自动机构建基于时间的因子转换器,最后将所有因子转换器进行联合及优化得到索引。在查询阶段,将查询项转化为自动机形式后与索引进行合成运算得到表示查询结果的自动机。实验结果表明,在保证系统检测正确率的前提下,与直接以词格建立的WFST索引相比,以混淆网络建立的WFST索引尺寸更小,检索速度更快,因而系统性能更好。
2015, 30(2):399-407. DOI: 10.16337/j.1004-9037.2015.02.019 CSTR:
摘要:本文为在传统的说话人识别理论研究中“较少的特征参数量不能与较高的识别率共存”的难题找到了一种解决方案。本文基于压缩感知的理论,利用行阶梯观测矩阵进行信号的投影,改变了传统的梅尔频率倒谱系数(Mel-frequency cepstral coefficient, MFCC)参数,从而提出了一种新的识别参数CS-MFCC(Compressed sensing-MFCC)。该参数不仅使得参数存储量降低到少于原存储量的1/n(n为行阶梯观测矩阵的压缩比),而且明显提高了系统的鲁棒性。通过仿真 实验证明了当压缩比n为4时,平均识别率能够提高到96%以上。
2015, 30(2):408-416. DOI: 10.16337/j.1004-9037.2015.02.020 CSTR:
摘要:在多媒体传感网中进行视频信息隐藏有很多局限性。为了增强在多媒体传感网中进行隐秘通信的安全性,本文从提高隐写效率和降低节点能耗入手,在分析研究以往相近研究的基础上,提出了一种新的视频信息隐藏算法。算法结合了H.264/AVC (Advanced video codec)标准视频流的数据特性,提出了调整覆盖码矩阵简化计算复杂度的新思想和避免误差漂移的隐写策略。算法运用了新的分类编码方法;对于不同类型的数据特征,引进并设计了针对多媒体传感网应用限制条件的覆盖编码方法。实验证明:该算法能够降低嵌入误差,有效抵抗统计分析;减少了数据通信冗余,同时计算复杂度由传统的幂次复杂度降低到线性复杂度。
2015, 30(2):417-423. DOI: 10.16337/j.1004-9037.2015.02.021 CSTR:
摘要:提出一种机载雷达杂波抑制的级联降维空时自适应算法,即,先对全空时两维接收数据进行预滤波处理,将杂波局域化,降低杂波自由度;然后对预处理输出的信号的相关矩阵进行子阵划分,求解低维权向量,进一步降低运算量和采样要求。理论分析和实验仿真结果表明,所提算法具有良好的收敛性能和杂波抑制能力,并且对于阵元随机幅相误差和杂波起伏具有很好的容差能力。基于实测数据的实验验证了算法的有效性和稳健性。
2015, 30(2):424-433. DOI: 10.16337/j.1004-9037.2015.02.022 CSTR:
摘要:为数字化修复唐卡文物,需先解决破损区域分割问题。针对裂痕型唐卡破损区域破损程度不等,与邻近区域颜色有反差的特点,提出基于最大熵和局部优先度的算法。首先采用最大熵阈值法分割破损唐卡灰度图像,去除伪破损区域,得到破损程度较深区域;然后采用本文提出的新算法—基于局部优先度的过渡区算法分割唐卡灰度图像,去除伪破损区域,得到破损区域的过渡区区域;合并这两类区域得到最终的分割结果。实验结果表明本文算法不仅能对破损唐卡实现有效分割,对壁画等其他破损图像也能很好分割。该算法具有一定的有效性和鲁棒性。
2015, 30(2):434-440. DOI: 10.16337/j.1004-9037.2015.02.023 CSTR:
摘要:针对标准的C-SVM(C-support vector machine)算法在处理很多实际分类问题时,对识别错误代价损失差异很大的极端情况表现出的局限性,提出一种通用的 广义支持向量机算法。根据识别错误后所付出的代价,可以把最优分类面向代价损失低的一方进行推移,留给代价损失高的一方更大的空间,提高其识别率,从而减小识别错误后带来的代价损失。该方法进一步提高了标准C SVM的适用性以及样本的正确识别率,将新算法应用到高分辨雷达距离像的识别中,实验证明,广义C-SVM能取得比传统C-SVM更好的识别效果。
2015, 30(2):441-451. DOI: 10.16337/j.1004-9037.2015.02.024 CSTR:
摘要:提出一种用户报文时间序列分解的方法。首先对信息时间序列进行采样,利用不同类型采样信号经低通滤波器后衰减程度不同的特性,用低通滤波器发现和提取序列突发成分;然后基于向量之间的欧几里得距离,用遍历和匹配方法提取周期子序列;最后将报文序列分解为突发成分、周期成分和随机成分。该方法无需解析报文内容,分解出的周期成分可以用来分析用户一般性行为,突发成分可以用来检测突发异常。仿真实验结果表明,该方法能够有效区分序列中的各类成分。
2015, 30(2):452-463. DOI: 10.16337/j.1004-9037.2015.02.025 CSTR:
摘要:针对视频目标跟踪中遮挡问题处理不佳和快速运动目标易丢失的问题,提出一种云自适应PSO(CAPSO)优化粒子滤波的视频目标跟踪算法。算法利用粒子滤波预测目标区域在视频下一帧图像的位置,结合颜色直方图统计特性,引入CAPSO算法并根据粒子适应度值将粒子集分成三个子群,分别采用不同的惯性权重生成 策略,普通种群的惯性权重由X条件云发生器自适应地调整,利用云模型云滴的随机性和稳定倾向性特点,使惯性权重满足快速寻优能力又具有随机性。通过CAPSO优化,降低了粒子滤波重采样帧数,减少了算法的运算量,同时提高了搜索精度,能较好处理目标遮挡问题。并且CAPSO算法通过采用这三种不同的惯性权重生成策略,可自适应地平衡算法的全局和局部搜索能力来调节粒子的搜索范围,有效地解决了快速运动目标易丢失的问题。仿真实验结果表明,新算法对视频目标跟踪中的遮挡和快速运动目标易丢失的情况具有较好的实时性和准确性。
2015, 30(2):464-468. DOI: 10.16337/j.1004-9037.2015.02.026 CSTR:
摘要:短文本信息流在传递公开信息时携带了丰富且具有极大价值的信息资源。根据短文本信息流特点,利用训练数据集中的信息熵来构建决策树检测模型进行热点话题检测,该方法先是计算出各话题类别的平均信息量和每个特征词对于短文本信息流进行划分的信息增益率,再通过选择具有最大信息增益率的特征词进行测试,完 成自上而下的决策树建树过程,最后利用叶子结点的类型确定热点话题。在真实短信文本信息流上实验表明,该方法具有明显的检测稳定性和较高的数据处理效率。
您是本站第 访问者
通信地址:南京市御道街29号 南京航空航天大学(明故宫校区)
邮编:210016 传真:025-84892742
电话:025-84892742 E-mail:sjcj@nuaa.edu.cn
技术支持:北京勤云科技发展有限公司
网站版权: © 《数据采集与处理》 编辑部