2016年第31卷第2期文章目次

2016, 31(2):231-241.

摘要 (1146) HTML (0) PDF 552.86 K (1045) 评论 (0) 收藏

摘要:声学事件检测是指对连续音频信号流中具有明确语义的片段进行检测与标定的过程。它是机器对环境声音场景进行识别和语义理解的重要基础，并将在未来类人机器人声音环境的语义理解、无人车行车周边环境的声音感知等方面发挥重要的作用。本文分别从与声学事件检测相关领域的发展历程以及应用需求出发，对声学事件检测的历史进行了回顾，介绍了典型的研究工作，并分析了未来的发展方向。在相关领域的分析中，重点介绍语音识别、基于计算的音乐处理及基于听觉特性的声音处理等方面的工作；在应用需求方面，介绍机器的环境声音感知与多媒体信息检索方面的工作；最后分析本领域的研究现状，并展望其未来的发展趋势。

数字助听器语音处理算法研究进展与展望

邹采荣梁瑞宇谢跃

2016, 31(2):242-251.

摘要 (605) HTML (0) PDF 561.92 K (1065) 评论 (0) 收藏

摘要:全球老龄化使听力障碍成为高发性慢性疾病，而佩戴助听器是老年性聋患者听力干预和康复最有效的手段之一。随着数字信号处理技术和电子技术的飞速进步，近年来应用于数字助听器的各种算法和技术得到了显著的发展。其中声场景分类、滤波器分解、噪声抑制和回声消除是助听器的4个基本算法。基于对这些算法的研究，本文从算法基本原理、当前研究现状、算法特点以及存在的问题进行分析介绍。此外，通过分析现阶段数字助听器算法中存在的问题，介绍了3个助听器信号处理方面的最新研究方向——听觉仿生、听觉认知和自验配助听器。本文最后对未来研究进行了展望。

音频取证若干关键技术研究进展

包永强梁瑞宇丛韫高冲红王青云

2016, 31(2):252-259.

摘要 (950) HTML (0) PDF 528.13 K (1707) 评论 (0) 收藏

摘要:介绍了音频取证领域的最新研究进展、音频真实性的研究状况。对音频取证研究领域的历史进行了回顾，探讨了音频取证的分类，构建了音频取证框架。对音频取证的若干个关键技术进行了总结，包括音频主动取证技术、基于电网频率特征的音频篡改技术、无电网频率成分下的音频篡改检测技术、录音设备的特征参数、模式识别、数据库建设情况以及录音场合识别等。最后对音频取证技术进行了总结和展望。

病理嗓音发声系统的非对称建模研究

陶智曾晓亮顾玲玲张晓俊吴迪薛隆基

2016, 31(2):260-267.

摘要 (328) HTML (0) PDF 1.39 M (938) 评论 (0) 收藏

摘要:为了在病理嗓音识别中为特征参数选择提供依据，提出声带非对称力学建模仿真病变声带并进行分析研究。依据声带的分层结构和组织特性，建立声带力学模型，耦合声门气流，求取模型输出的声门源激励波形。采用遗传粒子群拟牛顿结合优化算法(Genetic particle swarm optimization based on quasi-Newton method, GPSO-QN)将模型输出的声门源和实际目标声门波相匹配，提取优化模型参数。仿真实验结果表明，该声带模型能产生与实际声门源相一致的声门波形，同时也证明了左右声带生理组织间的非对称性是产生病理嗓音的重要原因。

电磁矢量阵中基于平行因子压缩感知的角度估计算法

张小飞李书郑旺

2016, 31(2):268-275.

摘要 (620) HTML (0) PDF 487.69 K (978) 评论 (0) 收藏

摘要:将平行因子框架与压缩感知理论相结合，解决了电磁矢量传感器阵列中的波达方向估计问题。首先将接收信号构建成平行因子模型，然后结合压缩感知理论，对平行因子模型压缩。根据三线性交替最小二乘算法对压缩后的平行因子模型进行分解，最后利用信号的稀疏性，得到波达方向估计。借助压缩过程，本文算法降低了传统的平行因子算法的计算复杂度，节约了存储空间。本文算法无需谱峰搜索，且同时适用于均匀线阵和非均匀线阵。该算法的角度估计性优于ESPRIT算法,且接近传统的基于平行因子模型的角度估计算法，仿真结果证明该算法的有效性。

全双工MIMO中继系统中一种高性能波束成形算法

束锋崔玉荻钱振宇陆造宇周叶胡锦松刘苗

2016, 31(2):276-281.

摘要 (416) HTML (0) PDF 491.68 K (771) 评论 (0) 收藏

摘要:全双工中继系统相比于半双工中继系统可以极大地提高频谱利用率，但是中继收发端之间的信号泄漏严重影响全双工系统的性能。为了抑制基于译码转发的全双工多输入多输出中继系统的自干扰，提高信息传输速率，提出了一种波束成形算法。该算法在中继站采用基于最小均方误差的接收与发射波束成形，并联合两个波束成形矩阵建立迭代结构以得到最优解。仿真表明，同传统的零空间投影与最大化信干比算法相比，提出的算法能够有效提高系统性能。在中高信噪比时，该算法较最大化信干比算法获得0.8 bit/(s·Hz)左右的速率增益；当误码率达到10-3以及更低时，该算法相比于最大化信干比算法能获得1.5 dB左右的信噪比增益。

基于稀疏分解的水下目标回波信号处理方法

孙同晶贺锦鹏谷雨

2016, 31(2):282-288.

摘要 (430) HTML (0) PDF 757.17 K (746) 评论 (0) 收藏

摘要:针对超低信噪比的水下弱信号处理问题，基于稀疏分解理论，重点关注入射信号和回波模型等先验信息如何融入稀疏字典（过完备原子库）的构造，并结合匹配追踪方法，提出基于稀疏分解的水下回波信号处理方法。首先建立水下回波信号亮点模型，得到回波模型和入射信号的关系，对已知的发射信号进行离散化、能量归一化以及移位处理，构造适合回波信号自身特性的过完备原子库；然后基于匹配追踪算法实现水下回波信号的稀疏分解，并将处理结果与常用的匹配滤波方法进行对比分析。仿真结果表明，本文方法不仅能精确重构出原始回波信号，而且在处理超低信噪比水下回波信号时较匹配滤波方法具有明显的优势。

基于信噪比估计和矢量平均的干涉仪抗噪声测向方法

郭东亮黄超李中华张铁军

2016, 31(2):289-295.

摘要 (395) HTML (0) PDF 656.75 K (788) 评论 (0) 收藏

摘要:针对低信噪比条件下干涉仪测向准确度低的问题，提出了一种基于信噪比估计和相位差矢量平均的自适应测向方法。本文方法通过对多次测量的相位差复数矢量求平均来提高相位差的测量精度和稳定性，从而提高测向性能。提出的自适应准则通过估计来波信噪比，可快速确定不同信噪比下矢量平均所需样本量，使处理后信号达到设定信噪比阈值，获得稳定的测向准确度。分析了信噪比阈值对本方法测向性能的影响。本文方法计算复杂性小，对测向实时性影响小。理论分析和仿真结果表明：本方法在低信噪比条件下可以达到很高的测向准确度，对低信噪比条件下的测向性能改善明显。

最长评价短语及其情感评价搭配抽取方法

刘全超黄河燕王亚珅冯冲

2016, 31(2):296-306.

摘要 (406) HTML (0) PDF 719.88 K (859) 评论 (0) 收藏

摘要:提出一种统计和规则相结合的最长评价短语自动识别算法。将评价短语的识别问题转化为序列标注问题，结合条件随机场模型进行简单结构的评价短语识别，在此基础上进一步建立和应用规则库，自动识别结构复杂的最长评价短语，其测试的F值达到72.38%。在最长评价短语自动识别的基础上，构建用于评价对象抽取和情感评价单元抽取的规则库，提出基于规则的评价搭配自动抽取算法，实现评价对象和最长评价短语搭配的自动抽取，在网易汽车门户网站进行了系统测试，得到了较高的准确率。

水声语音通信体验质量的实时测量方法

袁飞陈炜玲李晔程恩

2016, 31(2):307-314.

摘要 (331) HTML (0) PDF 990.59 K (887) 评论 (0) 收藏

摘要:水声语音通信质量的实时测量是保障通信质量的重要环节，利用实时测量结果可及时调整语音业务的调制参数，提高链路的自适应能力。本文提出了一种基于参数表示的语音通信质量实时估测模型，该模型提取语音3个特征参数，即：Mel频率倒谱系数（Mel-frequency cepstum coefficient,MFCC）、线性预测倒谱系数（Linear predictive cepstrum coefficient,LPCC）及加权对数谱（Log spectral deviation,LSD），构建3种特征参数的权重谱失真测度。利用失真测度与接收语音质（Perceptual evaluation of speech quality-mean opinion score，PESQ-MOS）之间的映射关系，建立语音质量估测模型。引入动态MFCC（Dynamic Mel-frequency cepstrtum coefficient,DMFCC）的谱失真测度作为质量估测模型的调节因子，使估测系统具有更好的适应性。实验及海测结果显示，利用本模型估测的语音MOS值与人主观感受误差较小，具有一定的实用性。

基于主要特征抽取的重现概念漂移处理算法

冯超文益民汤凌冰

2016, 31(2):315-324.

摘要 (656) HTML (0) PDF 1.56 M (1126) 评论 (0) 收藏

摘要:针对重现概念漂移检测中的概念表征和分类器选择问题，提出了一种适用于含重现概念漂移的数据流分类的算法——基于主要特征抽取的概念聚类和预测算法（Conceptual clustering and prediction through main feature extraction, MFCCP）。MFCCP通过计算不同批次样本的主要特征及影响因子的差异度以识别重复出现的概念，为每个概念维持且及时更新一个分类器，并依据Hoeffding不等式选择最合适的分类器对当前样本集实施分类，以提高对概念漂移的反应能力。在3个数据集上的实验表明：MFCCP在含重现概念漂移的数据集上的分类准确率，对概念漂移的反应能力及对概念漂移检测的准确率均明显优于其他4种对比算法，且MFCCP也适用于对不含重现概念漂移的数据流进行分类。

基于稀疏特征迁移的语音情感识别

宋鹏金赟查诚赵力

2016, 31(2):325-330.

摘要 (383) HTML (0) PDF 669.37 K (792) 评论 (0) 收藏

摘要:为了解决语音情感识别系统中训练数据和测试数据来自不同数据库所引起的识别率降低的问题，提出了一种基于稀疏特征迁移的语音情感识别方法。通过引入稀疏编码获取情感特征在不同数据库条件下的共同稀疏表示；同时引入最大区分差异（Maximum mean discrepancy, MMD）来衡量不同数据库条件下稀疏表示分布之间的距离，并将其作为稀疏编码目标函数的约束条件，从而获得较为鲁棒的稀疏特征。实验结果表明，相比传统语音情感识别方法，基于稀疏特征迁移的语音情感识别方法显著提高了跨库条件下的情感识别率。

基于区分性准则的Bottleneck特征及其在LVCSR中的应用

刘迪源郭武

2016, 31(2):331-337.

摘要 (445) HTML (0) PDF 446.99 K (714) 评论 (0) 收藏

摘要:基于深层神经网络中间层的Bottleneck(BN)特征由于可以采用传统的混合高斯模型-隐马尔可夫建模(Gaussian mixture model-hidden Markov model, GMM-HMM)，在大规模连续语音识别中获得了广泛的应用。为了提取区分性的BN特征，本文提出在使用传统的BN特征训练好GMM-HMM模型之后，利用最小音素错误率（Minimum phone error, MPE）准则来优化BN网络参数以及GMM-HMM模型参数。该算法相对于其他区分性训练算法而言，采用的是全部数据作为一个大的数据包，而不是小的包方式来训练深度神经网络，从而可以大大加快训练速度。实验结果表明，优化后的BN特征提取网络比传统方法能获得9%的相对词错误率下降。

基于保护间隔的OFDM信号信噪比估计算法

张欣冉代月花张孟伯杨晓静

2016, 31(2):338-346.

摘要 (420) HTML (0) PDF 612.78 K (818) 评论 (0) 收藏

摘要:针对信噪比在OFDM信号处理中的重要作用，提出一种基于保护间隔的OFDM信号信噪比估计算法。通过对信道模型和保护间隔的分析，首先利用相关性函数完成两种不同保护间隔的OFDM信号的判别，然后根据两种不同保护间隔的结构特点，分别提出两种不同的信噪比估计方法，最后将判别结果与相应的信噪比估计算法相结合，完成OFDM信号的信噪比估计。仿真结果表明，该算法不需要辅助数据，在不同的信噪比条件下均具有较好的识别效果。

基于循环神经网络语言模型的N-best重打分算法

张剑屈丹李真

2016, 31(2):347-354.

摘要 (478) HTML (0) PDF 717.95 K (901) 评论 (0) 收藏

摘要:循环神经网络语言模型能够克服统计语言模型中存在的数据稀疏问题，同时具有更强的长距离约束能力，是一种重要的语言模型建模方法。但在语音解码时，由于该模型使词图的扩展次数过多，造成搜索空间过大而难以使用。本文提出了一种基于循环神经网络语言模型的N-best重打分算法，利用N-best引入循环神经网络语言模型概率得分，对识别结果进行重排序，并引入缓存模型对解码过程进行优化，得到最优的识别结果。实验结果表明，本文方法能够有效降低语音识别系统的词错误率。

双扬声器双耳回放系统串扰消除算法的改进

朱天一卢晶陈锴

2016, 31(2):355-361.

摘要 (450) HTML (0) PDF 646.54 K (864) 评论 (0) 收藏

摘要:双扬声器系统的一个典型应用就是实现局部范围的双耳声回放，其目标是在听者每只耳朵处回放相应通道的声信号，需要解决的最重要问题是消除两个扬声器发出信号的串扰。为达到此目的，需设计串扰消除滤波器。通用的串扰消除滤波器是通过对声源到人耳处的传递函数矩阵求逆得到的，其面临的显著问题是会导致较为严重的频谱染色。频谱染色会带来诸多负面效应比如系统鲁棒性变差、最佳听音区范围的缩小和动态范围损失等。本文重点研究基于实测传递函数的两种串扰消除优化方案，通过实验在频谱染色和串扰消除方面对两种方法的性能进行对比，并进一步通过双耳时间差的计算分析判断回放系统的有效性。

基于因子分析和特征映射的耳语说话人识别

张庆芳赵鹤鸣龚呈卉

2016, 31(2):362-369.

摘要 (466) HTML (0) PDF 1.38 M (968) 评论 (0) 收藏

摘要:为了解决耳语音识别系统中训练语音和测试耳语音来自不同发音模式的失配问题，本文提出一种基于联合因子分析(Joint factor analysis,JFA) 与特征映射(Feature mapping,FM)的失配信息补偿算法。该算法首先用联合因子分析法计算说话人发音模式信息，并对发音模式因子和发音模式空间参数进行优化，接着对语音参数用发音模式信息进行特征映射后再进行训练和识别，以减少发音模式对系统的影响。实验结果表明，基于因子分析和特征映射的方法可以有效地提取训练语音中的说话人信息，提高耳语识别系统的识别率。

基于频谱聚合技术的多用户短波机会频谱接入

徐承龙程云鹏董文斌孙浩

2016, 31(2):370-376.

摘要 (390) HTML (0) PDF 1.24 M (953) 评论 (0) 收藏

摘要:研究了分布式短波机会频谱接入系统中的信道探测问题。由于频谱资源的稀缺性，将认知无线电技术应用到短波通信得到了广泛关注。多个次级用户按序感知授权信道,根据感知结果决策出授权信道是否可用，利用频谱聚合技术实现数据传输。然而频谱聚合的能力受到无线通信设备的约束。本文提出一种在硬件受限条件下，考虑次级用户间相互影响的动态的停止方法。在该方法中，信道空闲概率能够随着信道探测过程而改变，并且次级用户能够定期地释放先前时隙感知的信道。仿真结果表明，所提的动态停止方法能够有效提高短波通信系统的网络性能。

基于矢量水听器的非均匀阵列APES波束形成算法

张超然程锦房肖大为

2016, 31(2):377-384.

摘要 (512) HTML (0) PDF 947.51 K (812) 评论 (0) 收藏

摘要:针对传统幅度与相位估计（Amplitude and phase estimation，APES）算法难以应用于非均匀阵列的问题，研究了基于矢量水听器的APES算法。利用矢量水听器能够同时共点测量声压和质点振速的特点，将矢量水听器的声压和解析振速通道作为两个子阵，两路子阵之间只存在一个相位差，且与阵元位置无关，使得APES算法能够应用于任意形状的阵列。推导和分析了矢量APES算法的阵增益及其稳健性。分析和仿真表明：该方法相比于传统APES算法，具有更高的阵增益，且能适用于非均匀阵列；相比于最小方差无失真响应（Minimum variance distortionless response，MVDR）算法，具有更好的稳健性，能解决相干问题及能够获得更准确的信号功率，并用实测数据验证了算法的有效性。

融合自动检错的单元挑选语音合成方法

孙晓辉凌震华戴礼荣

2016, 31(2):385-392.

摘要 (479) HTML (0) PDF 852.16 K (761) 评论 (0) 收藏

摘要:提出了一种融合自动检错的单元挑选语音合成方法。本文方法旨在设计与主观听感更加一致的单元挑选准则，以提高合成语音的自然度。首先利用众包网络平台快速大量地收集测听人对于合成语音的主观评价数据，取代了传统的利用具备语言学知识的专家收集主观评价数据的方法；然后基于这些主观评价数据，提取对应语音的音节时长、单元代价以及声学参数距离等特征，构建基于支持向量机的合成错误检测器；在合成阶段，该检测器被用来对传统单元挑选输出的N条路径行重打分，以确定最优的单元挑选序列。倾向性测听结果表明本文方法可以有效地提高合成语音的自然度。

信道估计误差与同道干扰下的双向中继系统性能分析

胡健伟蔡跃明王磊

2016, 31(2):393-399.

摘要 (605) HTML (0) PDF 527.11 K (918) 评论 (0) 收藏

摘要:分别在瑞利衰落环境和瑞利莱斯混合衰落环境下，研究了双向中继系统在同时受到信道估计误差和同道干扰影响下的中断概率性能。首先，给出了系统模型以及系统协议；然后，基于得到的接收端信干噪比表达式，分别推导了双向中继系统在单一瑞利衰落环境和瑞利莱斯混合衰落环境下的中断概率表达式；最后，分析了双向中继系统受信道估计误差和同道干扰影响时的最佳中继位置选择，并得出了最佳中继位置的闭式表达式。数值仿真验证了所推导的中断概率表达式以及最佳中继位置表达式的正确性，揭示了信道估计误差和同道干扰对系统性能的影响，表明当信道估计质量阶数小于1时性能将明显下降，当衰落因子增大时性能将得到提高。

认知网络中基于功率分配的收发联合迭代结构

李蠡陈宇束锋余海桂林卿康棋桔

2016, 31(2):400-406.

摘要 (511) HTML (0) PDF 516.77 K (890) 评论 (0) 收藏

摘要:在认知无线电网络中，为保证主用户的通信质量，解决认知网络和主网络之间的干扰问题，进一步提高认知网络性能，本文提出一种基于广义信泄噪比的功率分配方案。为了获取更高的和速度，在认知网络发射和接收端引入波束成形矩阵，在此基础上发展了一种联合交替迭代结构，该结构将发射波束成形、功率分配和接收波束成形串联成迭代环。仿真结果表明，该迭代环收敛速度快，相比传统波束成形等功率分配方案的和速率和误码率均有明显提高。

基于声学分段模型的无监督语音样例检测

李勃昊张连海郑永军

2016, 31(2):407-414.

摘要 (425) HTML (0) PDF 711.43 K (857) 评论 (0) 收藏

摘要:提出一种基于声学分段模型的无监督语音样例检测方法。该方法首先利用高斯混合模型（Gaussian mixture model, GMM)将训练数据频谱参数转换为后验概率特征向量，采用层次聚类算法确定后验概率的边界信息，得到声学分段；然后通过kmeans算法将片段聚类并添加标签，构建基于后验概率的声学分段模型。检索时以模型对查询样例与检索文档的解码序列代替测量矩阵以降低检索时间，通过基于最小编辑距离的动态匹配检索查询项，最小编辑距离的代价函数由模型相似度距离矩阵修正。实验结果表明，相比GMM及传统声学分段模型，本文提出的方法性能更好，检索速度得到显著提升。

快速检索

卷期检索

友情链接