语音(水声)信号处理

  • 显示方式:
  • 简洁模式
  • 摘要模式
  • 1  一种适用于双讲状态的声学回声消除系统
    周文俊,夏秀渝
    2022, 37(2):437-445. DOI: 10.16337/j.1004-9037.2022.02.016
    [摘要](408) [HTML](773) [PDF 684.84 K](1725)
    摘要:
    声学回声消除中存在的双端讲话情况会导致回声消除器的性能发生恶化,而传统的双端话音检测及其控制算法无法有效应对双讲。针对这一问题,提出一种根据频谱信扰比(近端话音功率谱值和回声功率谱值之比)调整自适应步长的方法。为减少计算量以及降低处理时延,采用分段频域块最小均方(Partitioned frequency block least mean square, PFBLMS)算法作为自适应滤波算法,因而系统的自适应步长在频域上进行调整。首先建立频谱信扰比和相干函数之间的关系,通过计算出的相干函数值得到步长因子,最后根据步长因子实时调整每个频点的自适应步长。此外,还结合双滤波器和稀疏控制算法进一步提高系统的鲁棒性和收敛性能。仿真实验表明,该系统在双讲状态下依然能够保证良好的回声抑制能力,并能够及时跟踪回声信道的变化。相比于基于归一化互相关函数的双端话音检测算法以及开源项目Speex中的回声消除算法,系统在双讲情况下的回波抑制比(Echo return loss enhancement, ERLE)和语音质量得分(Perceptual evaluation of speech quality, PESQ)均有所提高。
    2  融合LSTM-GRU网络的语音逻辑访问攻击检测
    杨海涛,王华朋,牛瑾琳,楚宪腾,林暖辉
    2022, 37(2):396-404. DOI: 10.16337/j.1004-9037.2022.02.012
    [摘要](448) [HTML](1244) [PDF 1.13 M](1649)
    摘要:
    为进一步提高语音欺骗检测的准确率,提出一种融合LSTM-GRU网络的语音逻辑访问攻击(语音转换、语音合成)检测方法。融合LSTM-GRU网络是由长短期记忆网络( Long short-term memory,LSTM)层、门控循环神经单元(Gated recurrent unit,GRU)层、丢弃层、批归一化层和全连接层串联结合的一种混合网络,其中LSTM层可以解决语音序列中的长时依赖问题,GRU层则可降低模型参数量。实验在ASVspoof2019 LA数据集上进行,提取20维的梅尔倒谱系数特征用于模型训练,在测试阶段使用训练好的LSTM-GRU模型对测试集中的语音进行欺骗检测。与GRU网络及LSTM网络的比较结果表明:LSTM-GRU网络在3种网络模型中正确识别率最高,等错误率(Equal error rate, EER)比ASVspoof2019挑战赛所提供基线系统低27.07%,对逻辑访问攻击语音检测的平均准确率达到98.04%,并且融合LSTM-GRU网络具备训练时间短、防止过拟合及稳定性高等优点。结果证明本文方法可有效应用于语音逻辑访问攻击检测任务中。
    3  基于深度残差收缩网络多特征融合语音情感识别
    李瑞航,吴红兰,孙有朝,吴华聪
    2022, 37(3):542-554. DOI: 10.16337/j.1004-9037.2022.03.005
    [摘要](565) [HTML](315) [PDF 1.62 M](1742)
    摘要:
    针对语音情感识别任务中说话者的差异性,计算谱特征的一阶差分、二阶差分组成三通道的特征集输入二维网络。结合卷积神经网络、双向长短时记忆网络以及注意力机制建立基线模型,引入深度残差收缩网络分配二维网络中的通道权重,进一步提高语音情感识别的精度。为提升模型的学习效果,采取特征层融合(特征向量并行和特征向量拼接两种方式)和决策层融合(平均得分和最大得分两种方式)等不同信息融合机制。结果表明:(1)特征层融合中的特征向量并行策略是更有效的方式;(2)本文提出模型在CASIA和EMO-DB数据库下分别取得了84.93%和86.83%的未加权平均召回率(Unweighted average recall, UAR),相较于基线模型,引入深度残差收缩网络后的模型在CASIA和EMO-DB数据库上的未加权召回率分别提高5.3%和6.2%。
    4  基于Tacotron模型和韵律修正的情感语音合成方法
    张昕,胡航烨,曹欣怡,王蔚
    2022, 37(4):909-916. DOI: 10.16337/j.1004-9037.2022.04.018
    [摘要](553) [HTML](467) [PDF 1.78 M](1943)
    摘要:
    语音合成技术日趋成熟,为了提高合成情感语音的质量,提出了一种端到端情感语音合成与韵律修正相结合的方法。在Tacotron模型合成的情感语音基础上,进行韵律参数的修改,提高合成系统的情感表达力。首先使用大型中性语料库训练Tacotron模型,再使用小型情感语料库训练,合成出具有情感的语音。然后采用Praat声学分析工具对语料库中的情感语音韵律特征进行分析并总结不同情感状态下的参数规律,最后借助该规律,对Tacotron合成的相应情感语音的基频、时长和能量进行修正,使情感表达更为精确。客观情感识别实验和主观评价的结果表明,该方法能够合成较为自然且表现力更加丰富的情感语音。
    5  基于临界频带的交互性双支路单通道语音增强模型
    叶中付,赵紫微,于润祥
    2023, 38(2):262-273. DOI: 10.16337/j.1004-9037.2023.02.003
    [摘要](184) [HTML](216) [PDF 1.25 M](1107)
    摘要:
    针对目前主流的双支路单通道语音增强方法只关注全频带信息而忽略子频带信息这一问题,设计了一种基于人耳临界频带的交互性双支路模型。主要做法为,在复数谱支路上实施模拟人耳临界频带的划分方法对信号进行分频带处理,提取子带信息;在幅度补偿支路上直接对信号的全频带进行处理,提取全频带信息。复数谱支路负责初步恢复干净语音的幅度和相位,同时,该支路上学到的子带中间特征会被特定的模块传递给幅度补偿支路进行补偿;幅度补偿支路上的输出会对复数谱支路上输出的幅度做进一步的补偿,达到恢复干净语音频谱的目的。实验结果表明,提出的模型在恢复语音质量和可懂度方面优于其他先进的单通道语音增强模型。
    6  一种轻量级全频带语音增强网络模型
    胡沁雯,侯仲舒,乐笑怀,卢晶
    2023, 38(2):274-282. DOI: 10.16337/j.1004-9037.2023.02.004
    [摘要](456) [HTML](258) [PDF 1.31 M](1192)
    摘要:
    基于深度神经网络的全频带语音增强系统面临着计算资源需求高以及语音在各频段分布不平衡的困难。本文提出了一种轻量级全频带网络模型。该模型在双路径卷积循环网络模型的基础上,利用可学习的频谱压缩映射对高频段频谱信息进行有效压缩,同时利用多头注意力机制对频域的全局信息进行建模。实验结果表明本文模型只需0.89×106的参数即可实现有效的全频带语音增强,验证了本文模型的有效性。
    7  多尺度富有表现力的汉语语音合成
    高洁,肖大军,徐遐龄,刘绍翰,杨群
    2023, 38(6):1458-1468. DOI: 10.16337/j.1004-9037.2023.06.019
    [摘要](254) [HTML](67) [PDF 1.51 M](582)
    摘要:
    常见的增强合成语音表现力方法通常是将参考音频编码为固定维度的韵律嵌入,与文本信息一起输入语音合成模型的解码器,从而向语音合成模型中引入变化的韵律信息,但这种方法仅提取了音频整体级别的韵律信息,忽略了字或音素级别的细粒度韵律信息,导致合成语音依然存在部分字词发音不自然、音调语速平缓的现象。针对这些问题,本文提出一种基于Tacotron2语音合成模型的多尺度富有表现力的汉语语音合成方法。该方法利用基于变分自编码器的多尺度韵律编码网络,提取参考音频整体级别的韵律信息和音素级别的音高信息,然后将其与文本信息一起输入语音合成模型的解码器。此外,在训练过程中通过最小化韵律嵌入与音高嵌入之间的互信息,消除不同特征表示之间的相互关联,分离不同特征表示。实验结果表明,该方法与单一尺度的增强表现力语音合成方法相比,听力主观平均意见得分提高了约2%,基频F0帧错误率降低了约14%,该方法可以生成更加自然且富有表现力的语音。
    8  基于倒谱图像的语音回声隐写分析方法
    唐军豪,杜庆治,龙华,邵玉斌,李一民
    2023, 38(6):1469-1481. DOI: 10.16337/j.1004-9037.2023.06.020
    [摘要](222) [HTML](65) [PDF 2.88 M](819)
    摘要:
    语音信号回声隐写后其倒谱系数会在回声延迟出产生峰值,传统回声隐写分析主要采用倒谱系数的统计特征作为隐写检测特征,然而在低回声幅度时隐写信号倒谱系数的峰值并不明显,基于统计特征的方法检测性能并不理想。本文将倒谱分析与图像识别技术结合,提出了一种基于倒谱图像的语音回声隐写分析方法,对语音信号分帧加窗后进行倒谱计算,然后以时间为横轴,倒谱序列点为纵轴,倒谱系数幅值为灰度级生成倒谱图像,将生成的倒谱图像作为隐写检测的输入,采用残差神经网络作为分类器进行回声隐写分析。实验结果表明,在3种经典回声隐写算法上低回声幅度时检测准确率分别达到98.2%、98.6%和96.1%,本文方法在低回声幅度时检测准确率相较传统回声隐写分析方法有较大提升,解决了传统回声隐写分析方法在低回声幅度检测效果不佳的问题。
    9  基于声学模型共享的零资源韩语语音识别
    王皓宇,JEON Eunah,张卫强,李科,黄宇凯
    2023, 38(1):93-100. DOI: 10.16337/j.1004-9037.2023.01.007
    [摘要](390) [HTML](252) [PDF 1.22 M](1511)
    摘要:
    精准的语音识别系统通常使用大量的有标注语音数据训练得到,但现有的开源大规模数据集只包含一些广泛使用的语言,诸多小语种则面临着训练数据不足的问题。声学模型共享方法给出了这个问题的一种解决方法,它利用不同语种间的相似性,可以实现不需要小语种语音数据的语音识别。本文将声学模型共享方法扩展到韩语语音识别上,利用汉语声学模型构建韩语和汉语之间的音素映射关系。在不使用任何韩语语音数据的情况下构建的语音识别系统在Zeroth测试集上的字错误率达到了27.33%。同时本文还测试了不同映射方式之间的差异,结果表明这种共享模型的音素映射应当采用将目标语言词汇映射为源语言音素的方式。
    10  基于联合图学习的多通道语音增强方法
    张鹏程,郭海燕,王婷婷,杨震
    2023, 38(2):283-292. DOI: 10.16337/j.1004-9037.2023.02.005
    [摘要](180) [HTML](124) [PDF 1.30 M](1137)
    摘要:
    考虑到通道间存在的空间关系影响着其降噪问题,图信号处理可以捕获该潜在关系,若直接采用其空间物理分布图,无法实时反映其时变特性,因此本文提出了一种基于联合图学习的多通道语音增强方法。首先,提出一种联合时间-空间图学习方法,以最小化多通道含噪语音信号在空间图上的平滑度、参考通道信号在语音帧内图上的平滑度、空间图的稀疏度和帧内图的稀疏度之和为目标,优化阵列空间图和语音帧内图。基于学习的空间图和帧内图,构建多通道语音信号的时间-空间联合图。在此基础上,将多通道语音图信号进行联合图傅里叶变换,进而采用固定波束形成(Fixed beam forming,FBF)方法进行增强。实验结果表明,与传统的FBF方法相比,所提出的基于联合图学习的FBF(Joint graph learning based FBF, JGL-FBF)方法显著提升了增强语音的信噪比(Signal-to-noise ratio, SNR)和主观语音质量评估(Perceptual evaluation of speech quality, PESQ)。另外,实验结果也表明,JGL-FBF方法的语音增强性能会受到时延补偿准确性的影响。
    11  基于预训练与音素字节对编码的越南语识别
    沈之杰,郭武
    2023, 38(1):101-110. DOI: 10.16337/j.1004-9037.2023.01.008
    [摘要](437) [HTML](349) [PDF 893.81 K](1368)
    摘要:
    基于无监督预训练技术的wav2vec 2.0在许多低资源语种上获得了良好的性能,成为研究的热点。本文在预训练模型的基础上进行越南语连续语音识别。将语音学信息引入到基于链接时序分类代价函数(Connectionist temporal classification,CTC)的声学建模中,选取音素与含位置信息的音素作为基础单元。为了平衡建模单元数目以及模型的精细程度,采用字节对编码(Byte-pair encoding,BPE)算法生成音素子词,将上下文信息结合到声学建模过程。实验在美国NIST的BABEL任务低资源的越南语开发集上进行,所提算法相对wav2vec 2.0基线系统有明显改进,识别词错误率由37.3%降低到29.4%。
    12  音频隐写方法综述:从传统到深度学习
    张雄伟,葛晓义,孙蒙,宋宫琨琨,李莉
    2023, 38(5):995-1016. DOI: 10.16337/j.1004-9037.2023.05.001
    [摘要](565) [HTML](599) [PDF 1.93 M](1854)
    摘要:
    数字音频作为网络空间中广泛应用的媒体,是承载秘密信息的良好载体,常被用来构建实时性强、复杂度低、不可感知性好的隐蔽通信。音频隐写作为确保网络信息安全和数据保密通信的关键技术手段之一,正受到越来越多学者的关注。本文对音频隐写方法的发展脉络进行了系统性梳理。首先,介绍了音频隐写的基本内容,对问题描述、常用数据格式、工具和评价指标等进行总结。其次,按照嵌入域的不同,将传统音频隐写方法分为时域方法、变换域方法和压缩域方法,并分析其优缺点;根据隐写载体的不同,将基于深度学习的隐写方法划分为嵌入载体式、生成载体式和无载体式音频隐写,并对这3种音频隐写方法进行了对比分析。最后,指出了当前音频隐写进一步的研究方向。