• 2014年第29卷第2期文章目次
    全 选
    显示方式: |
    • 实用语音情感识别中的若干关键技术

      2014, 29(2):157-170.

      摘要 (619) HTML (0) PDF 1.30 M (2275) 评论 (0) 收藏

      摘要:本文介绍了语音情感识别领域的最新进展和今后的发展方向,特别是介绍了结合实际应用的实用语音情感识别的研究状况。主要内容包括:对情感计算研究领域的历史进行了回顾,探讨了情感计算的实际应用;对语音情感识别的一般方法进行了总结,包括情感建模、情感数据库的建立、情感特征的提取,以及情感识别算法等;结合具体应用领域的需求,对实用语音情感识别方法进行了重点分析和探讨;分析了实用语音情感识别中面临的困难,针对烦躁等实用情感,总结了实用情感语音语料库的建立、特征分析和实用语音情感建模的方法等。最后,对实用语音情感识别研究的未来发展方向进行了展望,分析了今后可能面临的问题和解决的途径。

    • 深度语音信号与信息处理:研究进展与展望

      2014, 29(2):171-179.

      摘要 (1351) HTML (0) PDF 1.08 M (1535) 评论 (0) 收藏

      摘要:论文首先对深度学习进行简要的介绍,然后就其在语音信号与信息处理研究领域的主要研究方向,包括语音识别、语音合成、语音增强的研究进展进行了详细的介绍。语音识别方向主要介绍了基于深度神经网络的语音声学建模、大数据下的模型训练和说话人自适应技术;语音合成方向主要介绍了基于深度学习模型的若干语音合成方法;语音增强方向主要介绍了基于深度神经网络的若干典型语音增强方案。论文的最后我们对深度学习在语音信与信息处理领域的未来可能的研究热点进行展望。

    • 近场结构化头相关传输函数的测量与分析

      2014, 29(2):180-185.

      摘要 (497) HTML (0) PDF 1.09 M (1134) 评论 (0) 收藏

      摘要:本研究采用脉冲发生器作为点声源,通过控制水平角、仰角和距离等三维空间参数,测量了一种高空间分辨率的结构化头相关传递函数,其中包括头传递函数、头和耳廓传递函数以及头和躯干传递函数。基于测得的结构化头相关传递函数,分析了各结构对头相关传递函数的影响,并结合本研究测得的结构化头相关传递函数和2009年测得的完整头相关传递函数,基于两种加性法则计算分析了耳廓传递函数,分析结果表明两种方法得到的耳廓相关传递函数具有高相关度,验证了头相关传递函数是由头、躯干和耳廓的传递函数叠加而成的合理性。

    • 坐标变换并行软切换盲均衡算法及其DSP实现

      2014, 29(2):186-190.

      摘要 (465) HTML (0) PDF 934.27 K (1083) 评论 (0) 收藏

      摘要:针对超指数迭代盲均衡算法(SEI)均衡高阶非常模QAM信号时均方误差较大甚至失效的缺陷,提出了一种坐标变换指数迭代并行软切换盲均衡算法(CTSEI-DD)。该算法将坐标变换引入到超指数迭代盲均衡算法中,并与判决引导DD算法结合,以软切换方式并行运行,充分发挥了坐标变换、超指迭代数算法及DD算法的优点,收敛速度快、均方误差小,适合于对高阶非常模QAM信号进行有效均衡。在利用Matlab工具对该算法性能进行验证并获得该算法中各参数值的基础上,在集成开发环境(CCS)中,编写C语言代码并进行调试,在TMS320VC5509芯片实现了该算法。

    • 基于抽头稀疏化的最小二乘频率不变波束形成器设计

      2014, 29(2):191-197.

      摘要 (712) HTML (0) PDF 4.27 M (1180) 评论 (0) 收藏

      摘要:频率不变波束形成器(Frequency-Invariant Beamformer, FIB)在宽带声信号的无失真采集和处理中具有重要应用。基于空间响应变化函数的最小二乘方法是近年来FIB设计中的代表性方法,本文研究表明该方法的性能受FIR (Finite impulse response)滤波器抽头长度的影响,增大抽头的长度可有效提高FIB设计的性能。但随滤波器抽头长度的增大,波束形成器的实现复杂度亦变大。针对这一问题,本文提出了一种基于FIR滤波器抽头稀疏化的最小二乘FIB设计方法,利用信号稀疏表示理论中的迭代加权l1范数优化实现了低复杂度最小二乘FIB设计,并通过设计实例验证了所提方法的有效性。

    • 基于稀疏编码的鲁棒说话人识别

      2014, 29(2):198-203.

      摘要 (662) HTML (0) PDF 409.82 K (1077) 评论 (0) 收藏

      摘要:目前的说话人识别系统在噪声环境下性能将急剧下降,为了解决这一问题,提出一种新的基于稀疏编码的说话人识别方法。该方法用一个通用背景字典(Universal Background Dictionary,UBD)刻画说话人语音的共性,并为每个说话人和环境噪声训练相应的字典来刻画说话人和环境的特殊变化。这些字典拼接成一个大字典,然后将待测试语音稀疏分解在这个大字典上以实现说话人识别。为了提高说话人字典的区分能力,通过从说话人字典中移除与通用背景字典原子相似的原子来优化说话人字典。为了跟踪变化的噪声,采用带噪声的语音在线更新噪声字典。在各种噪声条件下的实验表明,所提出的方法在噪声环境下具有较强的鲁棒性。

    • 基于隐马尔科夫模型的中文发音动作参数预测方法研究

      2014, 29(2):204-210.

      摘要 (691) HTML (0) PDF 871.89 K (1095) 评论 (0) 收藏

      摘要:发音动作参数描述发音过程中唇、舌、颚等发音器官的位置与运动。本文对给定文本与语音情况下中文发音动作参数的预测方法进行研究。首先,设计了基于电磁发音仪的发音动作参数采集与预处理方法,通过头部运动规整与咬合面规整保证了发音动作参数的可靠性;其次,将隐马尔科夫模型应用于中文发音动作参数预测,采用包含声学参数与发音动作参数的双流模型结构实现从声学参数到发音动作参数的映射,并且分析对比了建模过程中不同上下文属性、模型聚类方式以及流间相关性假设对于中文发音动作参数预测性能的影响。实验结果表明,当采用三音素模型、双流独立聚类并且考虑流间相关性的情况下,可以获得最优的预测性能。

    • 基于核Fisher判别和加权码书映射的音频信号削波修复方法

      2014, 29(2):211-221.

      摘要 (430) HTML (0) PDF 1.89 M (1058) 评论 (0) 收藏

      摘要:本文基于核Fisher判别(Kernel Fisher Discriminant, KFD)和加权码书映射(Weighted Codebook Mapping, WCBM),提出了一种MDCT(Modified Discrete Cosine Transform)域的音频信号削波修复方法。首先根据音频信号的MDCT系数提取子带包络等四种削波特征参数;其次,利用这些特征参数训练检测音频信号出现削波的核Fisher分类器;最后,利用子带包络的WCBM来修复音频信号的削波。测试结果表明,本文所提方法能有效修复音频信号的削波,其性能优于现有的几种削波修复方法。

    • 稀疏低秩模型下的单通道自学习语音增强算法

      2014, 29(2):223-226.

      摘要 (836) HTML (0) PDF 1.59 M (2020) 评论 (0) 收藏

      摘要:针对现有基于字典学习的增强算法依赖先验信息的问题,基于矩阵的稀疏低秩分解提出一种无监督的单通道语音增强算法。该算法首先通过稀疏低秩分解将带噪语音的幅度谱分解为低秩、稀疏和噪声三部分,然后通过对低秩部分进行自学习构建出噪声字典,最后利用所得噪声字典和乘性迭代准则于低秩和稀疏部分中分离出纯净语音。相较于其他基于字典学习的语音增强算法,本文所提算法无需语音或噪声的先验信息,因而更加方便和实用。实验结果显示,本文算法能够在保留语音谐波结构的同时有效抑制噪声,增强效果明显优于鲁棒主成分分析和多带谱减法。

    • 基于GMM和ANN混合模型的语音转换方法

      2014, 29(2):227-231.

      摘要 (593) HTML (0) PDF 613.52 K (958) 评论 (0) 收藏

      摘要:为了克服利用高斯混合模型(GMM)进行语音转换的过程中出现的过平滑现象,考虑到GMM模型参数的均值能够表征转换特征的频谱包络形状,本文提出一种基于GMM与ANN混合模型的语音转换,利用ANN对GMM模型参数的均值进行转换;为了获取连续的转换频谱,采用静态和动态频谱特征相结合来逼近转换频谱序列;鉴于基频对语音转换的重要性,在频谱转换的基础上,对基频也进行了分析和转换。最后,通过主观和客观实验对提出的混合模型的语音转换方法的性能进行测试,实验结果表明,与传统的基于GMM模型的语音转换方法相比,本文提出的方法能够获得更好的转换语音。

    • 基于自适应超高斯混合模型的语音增强算法

      2014, 29(2):232-237.

      摘要 (585) HTML (0) PDF 671.36 K (1029) 评论 (0) 收藏

      摘要:摘要:语音信号的频谱结构复杂性决定了其短时谱分布不能用单一的概率密度函数(probability density function; PDF )准确描述,据此,本文提出了一种采用超高斯混合模型对语音信号幅度谱建模以实现语音增强的新方法。首先,采用超高斯混合模型对语音信号幅度谱的先验分布进行建模,相对于传统的单一模型,该模型能更好地描述语音信号的多类特性;然后,在增强过程中自适应更新混合分量的PDF及其权重,从而克服了传统模型难以跟踪语音信号分布动态变化的缺点。仿真结果表明与传统的短时谱估计算法相比,该算法的噪声抑制性能有较大的提升,增强语音的主观感知质量也有明显改善。

    • 基于核主分量分析和典型相关分析的语音情感识别

      2014, 29(2):238-242.

      摘要 (490) HTML (0) PDF 381.70 K (1139) 评论 (0) 收藏

      摘要:本文提出将KPCA方法用于语音情感识别中,并提出采用KPCA和CCA结合的方法用于情感识别。与传统的PCA方法进行了对比,研究结果表明基于KPCA及KPCA CCA的情感识别有较好的效果。

    • 一种小训练语料下基于均值超矢量聚类的说话人确认方法

      2014, 29(2):243-247.

      摘要 (442) HTML (0) PDF 371.00 K (1463) 评论 (0) 收藏

      摘要:传统特征映射需要大量具有通道标记的语料,近年出现的通道无监督聚类方法也要求每个说话人有多段语音。为此本文讨论了一种新的基于均值超矢量聚类的说话人确认方法,在确保性能的情况下放宽对语料的要求,聚类训练语料是每个说话人只有一段语音的小语料。以女性UBM为基准,对所有女性训练语音均值超矢量相对该UBM的偏移聚类,判别待映射男性语音所属类别后进行特征映射,在特征参数域同时削减掉匹配到的通道信息和一部分女性说话人信息。实验表明,不论从性能还是语料角度,采用本文方法相对其他方法均具备一定优势。

    • 基于替代数据检测的音频信号非线性分析

      2014, 29(2):248-253.

      摘要 (584) HTML (0) PDF 381.68 K (1173) 评论 (0) 收藏

      摘要:针对轻微含噪的音频信号,本文提出了一种基于替代数据检测的非线性分析方法。该方法首先根据音频信号的线性假设生成多组替代数据,然后分别计算原始数据和替代数据的样本峰度,最终根据假设检验方法判断原始音频中是否包含非线性成分。实验结果表明,所提方法能够有效地验证音频信号的非线性特性。相比于传统基于最大Lyapunov指数的非线性分析方法,该方法能更好地区分音频信号和噪声信号。

    • 基于分数倒谱变换的取证语音拼接特征提取与分析

      2014, 29(2):254-258.

      摘要 (482) HTML (0) PDF 2.93 M (1178) 评论 (0) 收藏

      摘要:本文针对语音取证中相同采样率的语音拼接识别进行了初步研究,着重分析了拼接对噪声特征的影响,提出了基于分数倒谱变换的拼接帧检测算法,并提出了语音拼接联合识别模型。实验结果表明,在分数阶因子 为0.2时,分数倒谱变换的拼接帧过零率检测算法优于普通倒谱域方差法,在分数阶因子 为1.2时,分数倒谱变换的拼接帧高频方差检测算法优于普通倒谱域方差法。该方案在语音取证领域具有较高的应用价值和广阔的应用前景。

    • 基于短时能量和最小相对均方误差准则的神经网络语音水印方法

      2014, 29(2):259-264.

      摘要 (433) HTML (0) PDF 432.65 K (1061) 评论 (0) 收藏

      摘要:针对传统最小均方误差(LMS)和最小二乘准则(RLS)的神经网络语音水印的局限性,提出了基于短时能量和最小相对均方误差(LRMS)准则的神经网络语音水印算法。首先在首帧语音中嵌入同步序列,然后求出每帧的短时能量并对大于设定阈值的语音帧进行小波变换,最后利用以LRMS准则构建的神经网络实现水印的嵌入和提取。通过合理设定短时能量阈值,实现了水印容量和鲁棒性的平衡,而采用Levenberg-Marguardt(LM)算法地让网络迅速收敛。理论分析和实验结果表明,与文献[8]相比,本文提出的神经网络方案收敛速度更快,对于噪声,低通滤波,重采样,重量化等攻击有更强的鲁棒性,性能平均提高了5%。

    • 稀疏卷积非负矩阵分解的语音增强算法

      2014, 29(2):265-273.

      摘要 (484) HTML (0) PDF 952.68 K (1520) 评论 (0) 收藏

      摘要:非平稳噪声和低信噪比条件下提高增强语音质量一直以来都是语音增强研究的难题。近年来,卷积非负矩阵分解在语音增强算法中成功应用,本文进一步考虑语音信号在时频域的稀疏性,提出了稀疏卷积非负矩阵分解(Sparse Convolutive Nonnegative Matrix Factorization, SCNMF)的语音增强算法。该算法包括训练和增强两个阶段。训练阶段通过SCNMF算法分别对纯净语音和噪声的频谱进行训练,得到纯净语音和噪声字典,并将其作为增强阶段的先验信息。增强阶段首先通过SCNMF算法对带噪语音的频谱进行分解,然后利用纯净语音和噪声联合字典对语音编码矩阵进行估计,重构增强语音。本文通过实验仿真分析了稀疏因子对增强语音质量的影响。实验结果表明,在非平稳噪声和低信噪比条件下,本文算法增强效果均优于多带谱减、非负矩阵分解、卷积非负矩阵分解等传统的算法。

    • 基于分段动态时间规整的语音样例快速检索

      2014, 29(2):274-279.

      摘要 (505) HTML (0) PDF 831.46 K (1251) 评论 (0) 收藏

      摘要:提出了一种融合下界估计和分段动态时间规整的语音样例快速检索方法。该方法针对缺乏合适的训练数据等语音资源较为有限的语言进行快速检索所设计。此方法首先提取查询样例和测试集的音素后验概率;然后,根据限制条件在测试语句中选定候选分段,并计算查询样例和每个候选分段之间实际动态时间规整得分的下界估计,再运用K最近邻搜索算法搜索与查询样例相似度最高的分段;最后,使用虚拟相关反馈技术对检索结果进行修正。实验结果表明:尽管此方法的检索精度略低于直接运用动态时间规整进行检索的检索精度,但其检索速度大大优于后者,且检索结果经过虚拟相关反馈技术修正后,其检索精度也得到有效提升。

    • 多流信息融合的集外词检索

      2014, 29(2):280-285.

      摘要 (469) HTML (0) PDF 425.75 K (1008) 评论 (0) 收藏

      摘要:针对关键词中的集外词检索任务,本文提出采用音素、音节、词片三种子词单元进行多流信息的联合检索算法, 其中对基于音素的STD(Spoken Term Detection)系统使用基于n元语言模型-加权有限状态机的完全匹配检索降低漏警,对基于音节、词片的STD系统使用模糊匹配检索降低虚警, 最后采用线性逻辑回归(Linear Logistic Regression, LLR)的算法将三个子系统的结果进行融合。在NIST STD 2006语音检索评测的英语电话会话语音测试集上的实验结果表明,相对于最好的单流系统,多流信息融合获得了12%的实际词项权重值(Actual Term Weighted Value, ATWV)相对提升。

    • 融合查询扩展和动态匹配的集外词检测

      2014, 29(2):286-292.

      摘要 (524) HTML (0) PDF 428.49 K (1175) 评论 (0) 收藏

      摘要:目前关键词检测面临的一个主要挑战是集外词问题。由于集外词发音的不确定性导致其检测性能与集内词相差很多。对此,本文提出了一种融合查询扩展和动态匹配的方法来改善集外词检测的性能。首先比较了基于联合多元模型的查询扩展和基于最小编辑距离的动态匹配。考虑到二者潜在的互补性,采用两种融合方法:一种方法是结果融合,分别应用查询扩展和动态匹配并行的检测集外词,然后合并检测结果;另一种是置信度融合,融合最小编辑距离和发音得分构成混合置信度进行集外词的检出与确认。实验结果表明,第二种融合方法的效果更好,系统的品质因数相对提升了19.8%。

    • 基于小波包分解的含噪语音时频特性分析 及端点检测

      2014, 29(2):293-297.

      摘要 (604) HTML (0) PDF 1.27 M (1355) 评论 (0) 收藏

      摘要:针对Hilbert—Huang变换方法在语音处理过程中存在模态混叠问题,本文提出了基于小波包分解的语音时频分析方法。首先对含噪语音进行小波包分解,对各分量分别进行经验模态分解,并运用相关系数阈值准则对固有模态函数进行筛选;然后建立语音信号的Hilbert谱和瞬时能量谱;最后将基于小波包分解的Hilbert—Huang变换瞬时能量谱方法应用于含噪语音的端点检测。实验结果表明:与传统广义维数以及谱熵算法相比,本文方法具有更好的准确性、稳定性和自适应性,能够有效描述语音信号非线性非平稳的时频特性,为语音信号的分析研究提供了一个新的思路。

    • 一种基于过零点的时延测量方法

      2014, 29(2):298-303.

      摘要 (675) HTML (0) PDF 533.63 K (1690) 评论 (0) 收藏

      摘要:信号传输时间(时延)的测量,是雷达、声纳系统的关键技术之一。本文研究了一种基于过零点的时延测量方法,在建立过零点搜索模型的基础上推导得出时延测量的测量结果表达式;定量分析了高斯白噪声条件下过零点时延测量的测量精度,得到测量误差的理论表达式。仿真与实验表明,过零点时延测量精度与信号频率、过零点数目、信噪比密切相关,当信噪比较高时,其测量精度与经典FFT法相当,而优势在于过零点时延测量的算法简单、计算量小,适用于对实时性要求较高的测量场合。

    • 一种改进的基音周期提取算法

      2014, 29(2):304-308.

      摘要 (433) HTML (0) PDF 837.88 K (1562) 评论 (0) 收藏

      摘要:摘 要 基音周期的提取在语音信号处理领域有着广泛的应用。受基于归一化自相关函数基音周期提取算法和多带激励(Multi-Band Excitation, MBE)声码器中基音检测算法的启发,本文提出了一种改进的基音周期提取算法。该算法主要由预处理、时域基音粗估、基音平滑、时变滤波搜索、小数基音周期估计等五个部分组成。实验表明:该算法能达到更高的搜索准确度,得到更加平滑的基音周期曲线;与传统自相关检测算法相比,该算法有很好的抗噪性;

    • 道旁声学信号多普勒畸变校正

      2014, 29(2):309-315.

      摘要 (678) HTML (0) PDF 523.60 K (1136) 评论 (0) 收藏

      摘要:采用道旁声学信号来分析列车滚动轴承故障的方法是该领域故障诊断发展的主要方向,但拾音器和声源的相对运动造成的多普勒效应使得声学信号的频谱发生了畸变,从而无法准确地反映设备状态。为了解决多普勒效应带来的采集信号频谱畸变,准确恢复原信号频谱结构,本文提出一种基于频偏率的变采样技术的方法,在通过外部条件获得信号频偏变化曲线后,根据频偏曲线获得每个采样点的频偏比例,利用变采样技术,通过插值方法获得新采样信号。本文是对作者所提重采样技术校正多普勒频偏方法的深化和提高,该方法能准确恢复原声学信号频偏结构,并通过仿真信号和实验验证了该方法的有效性。

    • 四种典型波束形成声源识别清晰化方法的对比研究

      2014, 29(2):316-326.

      摘要 (504) HTML (0) PDF 3.52 M (1212) 评论 (0) 收藏

      摘要:为准确运用波束形成声源识别结果清晰化方法识别声源,基于仿真模拟的已知单声源、不相干声源、相干声源的识别成像图及性能曲线和进行的扬声器声源识别算例试验,对比分析DAMAS2、FFT-NNLS、CLEAN、CLEAN-SC的性能,结果表明:四种方法在识别单声源、不相干声源时均能有效衰减旁瓣,显著提高分辨率,CLEAN-SC的准确度最高;对于相干声源,DAMAS2、FFT-NNLS的识别准确度高,CLEAN-SC不能识别相干声源;计算效率方面,DAMAS2最高,FFT-NNLS次之,CLEAN、CLEAN-SC略低。对各方法在实际工程中的准确应用具有指导意义。

    • 传输函数和平面波入射角对合成声场的影响研究

      2014, 29(2):327-332.

      摘要 (554) HTML (0) PDF 1.16 M (1206) 评论 (0) 收藏

      摘要:传输函数中的瞬逝部分和平面波入射角影响合成平面波声场的性能。本文通过在波数域使用矩形窗修改传输函数,消除合成声场中的瞬逝声场。在平面波频率和离散次源间隔一定时,利用合成声场抗混叠的条件,分析加窗后的传输函数和平面波入射角对合成平面波声场的影响,仿真结果表明,当给定的平面波入射角使抗混叠频率大于平面波频率时,修改的传输函数可以提高合成平面波声场的性能。

快速检索
检索项
检索词
卷期检索