网刊加载中。。。

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

一种轻量级全频带语音增强网络模型  PDF

  • 胡沁雯
  • 侯仲舒
  • 乐笑怀
  • 卢晶
南京大学声学研究所,近代声学教育部重点实验室,南京210093

中图分类号: TP301

最近更新:2023-04-06

DOI:10.16337/j.1004⁃9037.2023.02.004

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
EN
目录contents

摘要

基于深度神经网络的全频带语音增强系统面临着计算资源需求高以及语音在各频段分布不平衡的困难。本文提出了一种轻量级全频带网络模型。该模型在双路径卷积循环网络模型的基础上,利用可学习的频谱压缩映射对高频段频谱信息进行有效压缩,同时利用多头注意力机制对频域的全局信息进行建模。实验结果表明本文模型只需0.89×106的参数即可实现有效的全频带语音增强,验证了本文模型的有效性。

引 言

在过去10年中,基于深度神经网络 (Deep neural networks, DNN)的数据驱动语音增强方法取得了较大的进

1,与传统的信号处理方法相比,这类方法在噪声抑制和语音保留上都具有更好的效果。大多数语音增强系统专注于处理宽带(采样率16 kHz)或窄带(采样率8 kHz)语音,而全频段(采样率48 kHz)语音增强方法仍有待探索,以便应用于需要高保真音频的场景。直接将宽带处理网络的频率维度拓宽以应用于全频段语音增强是不可取的,这将导致内存需求和计算负担的显著增加,使得其无法应用于计算资源有限的便携语音交互设备。此外,以统一的方式处理所有频带并非最优方式,因为语音的大部分能量和谐频信息均集中在中低频范2。解决方案之一是用频谱包络来压缩频域特3‑4,但采用该方案的网络模型受制于频域低分辨率。此外,使用针对不同频段优化的子网5可以专注于低频处理,以显著提高语音增强性能,但它在处理机制上很难减小模型尺寸。

本文基于宽带的双路径卷积循环网络模型(Dual path convolutional recurrent network, DPCRN

6,提出了一种轻量级全频带语音增强网络模型。DPCRN是一个非常有竞争力的轻量级语音增强模型,在第3届深度噪声抑制挑战赛(Deep Noise Suppression‑3,DNS‑37中排名第3位,比前两名的模型具有更少的参数和更低的计算负担:DPCRN需要0.8×106 参数和 3.7×109 乘加数(Multiply‑accumulate operation,MAC),第1名模型需要6.4×106 参数和 6.0×109 MAC,第2名模型需要5.2×106 参数和 52.5×109 MAC。DPCRN模型分别在两条路径上,即处理频域信息的块内路径和处理时域信息的块间路径上,均使用循环神经网络 (Recurrent neural network,RNN)进行建模。为了更好地利用频谱之间的内在联系,本文模型中引入了注意力机制,即用多头注意力(Multi‑head attention,MHA)网8取代用于块内处理的RNN,而在块间处理上依然保留RNN。为了更有效地处理语音分布稀疏的高频分量,本文还将一个可学习的频谱压缩映射(Spectral compression mapping,SCM)及其反演变换分别添加到网络预处理和后处理中,可以有效地压缩整个模型的大小。该模型被命名为频谱压缩映射双路径注意力循环网络(Spectral compression mapping‑dual path attention recurrent network, SCM‑DPARN)。在只有0.89×106参数的条件下,SCM‑DPARN模型可以获得与其他高性能全频带模型类似的语音增强效果。

1 SCM‑DPARN模型

1.1 问题描述和模型结构

时频(Time‑frequency,T‑F)域含噪语音可以描述为

X(t,f)=S(t,f)+N(t,f) (1)

式中:t表示时帧序数;f表示频点序数;S(t,f)N(t,f)分别表示该时频点的纯净语音和噪声成分,且S(t,f)是可能带有混响的信号。下文在指代整个频谱图时省略tf序数。

本文的处理目标不考虑去混响,因此模型的目标是对带混响语音S进行估计,其估计值为S˜。具体的方法是将输入的噪声语音X直接映射到S˜上,而非间接地进行掩膜估计。模型的训练由最小化在S˜S上计算的损失函数L来实现,表达式为

S˜=X (2)
L=LossS˜,S (3)

式中为作用于复频谱的网络函数。使用基于映射的方法直接估计目标频谱的实部和虚部,其好处在于即使输入信号经过低通滤波,网络也可以恢复原始语音的部分高频段频谱。

与DPCRN

6类似,本文模型由1个编码器、1个双路径处理模块和2个解码器组成,如图1所示。编码器连接在1.2节描述的频谱压缩映射层之后,包含多个二维卷积层;而每个解码器包含多个转置二维卷积层,其后分别连接一个逆频谱压缩映射 (inverse Spectral compression mapping,iSCM)层,用以重建频谱的实部或虚部。在编码器和解码器中的相应层之间使用残差连​​接。编解码器的结构示意图如图2所示。

图1  本文提出的SCM-DPARN模型整体结构图

Fig.1  Network architecture of the proposed SCM-DPARN model

图2  编码器结构和解码器结构示意图

Fig.2  Structures of the encoder and the decoder

1.2 频谱压缩映射

在全频带语音增强任务上,如果保持频谱的分辨率不变,将宽带网络直接扩展成全频带模型,模型计算量将至少提高到原来的3倍,同时它会将三分之二的计算资源分配给信息量较少的高频段(8~24 kHz),从而显著增加计算负担和学习困难。因此,有必要引入频谱信息映射策略来有效压缩高频段。SCM 层的设计遵循梅尔尺度滤波器组的类似形式。梅尔尺度滤波器通过对数函数将频率转换为梅尔尺

9‑10。为了进一步保留关键的中低频段信息,模型完整保留低于5 kHz的频段信息,只对高于5 kHz的频段以对数形式进行拉伸映射。映射曲线定义为

qc(m)=q(m)0 kHzq(m)5 kHz2 500lnq(m)-2 5002 500+25 kHz<q(m)24 kHz (4)

式中: m 为频点的索引;qm为原始频谱中第m个频点的物理频率;qc(m)为该频点在变换域对应的数值。考虑将一个F维谱压缩成Fc维频谱,在变换域中重新采样Fc个均匀分布的点qckk=1,2,,Fc。上述的对数映射和重新采样的变换过程可以描述为

xcomp=WSCMx xRF xcompRFc (5)
WSCM=IK×K0K×F-KGRFc×F (6)
G=gK+1,gK+2,,gk,,gFcTRFc-K×F (7)
gkm=0qm<q(qck-1)qm-q(qck-1)q(qck)-q(qck-1)q(qck-1)<qmq(qck)q(qck+1)-qmq(qck+1)-q(qck)q(qck)<qmq(qck+1)0qm>q(qck+1) (8)

式中: x 为原始频谱;xcomp为变换后的频谱;K为对应于5 kHz阈值的频点的索引;gk为第 k个三角滤波器;q(qck)式(4)中对数函数的逆映射,即q(qck)=2 500eqck2500-2+1m=1,2,,F;k=K+1,K+2,,Fc

这种变换依然具有局限性。式(4)的对数映射能够更合理地在不同频段分配计算资源,但它并不能有效匹配高频范围内语音频谱的稀疏分布。因此,直接采用这种压缩模式将导致高频部分不能得到有效处理,在高频段有较大的噪声残留。

为了更有效地适应高频范围内语音的稀疏分布,模型中使用一个部分可学习的压缩矩阵W˜SCM来实现频谱压缩映射,并且该压缩矩阵由WSCM来进行初始化。其中低频带映射W˜SCMlow=I  0RK×F是固定的,高频带部分W˜SCMhighRFc-K×F由网络进行学习,并且由式(7)中的G来进行初始化。相应地,逆频谱压缩映射iSCM也通过可学习矩阵W˜iSCMRF×Fc实现,且W˜iSCM采用随机初始化。

1.3 双路径注意力循环网络

原始的 DPCRN 在两个不同的路径上使用了RNN,即块内RNN和块间RNN。这里的“块”指代单帧的频谱。块内RNN作用于频域,用于对单帧中各频率之间的相关性进行建模;块间 RNN作用于时域,用于对时间依赖关系进行建模。考虑到全频带语音具有明显更宽的频率跨度,用MHA替换块内 RNN,因为它可以更有效地模拟长序列的全局频谱模式。另一方面,时间轴上的全局信息对于语音增强来说不是必需的,因此保留了块间 RNN。

图3给出了DPARN处理模块的详细结构以及MHA的具体结构。在SCM层之后,编码器进一步对频域进行压缩,并且在各时频点上提取维度为C的局部特征向量。在块内MHA的输入上添加三角位置编码(Positional encoding,PE

8。在块内MHA中,时域方向上进行并行处理,注意力层的输入为序列长度为F'C维向量,其中F'表示SCM和卷积编码器压缩后的频率维度,F'<Fc<F。查询向量QRF'×C、键向量KRF'×C和值向量VRF'×C都是与注意力层输入相同的向量。注意力机制由H个平行的注意力头来实现。在每个注意力头中,QKV分别被线性地投影到dqdk(dk=dq)dv维度上,即

图3  DPARN模块和MHA模块的结构示意图

Fig.3  Structures of DPARN module and MHA module

Qh=QWhQ  Kh=KWhK Vh=VWhV   WhQRC×dq WhKRC×dk WhVRC×dv (9)

式中 h 为注意力头的索引。之后将缩放的点积注意力计算应用于QhKhVh,即

AttentionQh,Kh,Vh=softmaxQhKhTdkVh (10)

式(10)计算每2个频率点在投影空间中的相似性,并相应地为值向量的投影值Vh分配权重,再加权求和作为每个注意力头对应的输出。不同注意力头的输出连接起来,并被线性投影回一系列C维向量,即

MHAQ,K,V=Concathead1,head2,,headHWO
headh=AttentionQh,Kh,Vh  WORH×dv×C (11)

在MHA层之后,用一个前馈网络进一步处理每个频点的信息,该前馈网络包括2个全连接层和1个ReLU激活函数层,即

FFNz=max0,zW1+b1W2+b2 (12)

式中:z为前馈网络输入;W1RC×4C W2 R4C×C  b1R4C b2RC

将1个MHA层和1个前馈网络视为1个 MHA 模块。B个重复的MHA模块之后为1个全连接层和1个实例标准化层(Instance normalization,IN)。进一步将输出张量转置之后传入块间RNN中。在块间RNN中,使用长短时记忆网络(Long‑short term memory, LSTM)处理时序关

6,后面依然接有1个全连接层和1个IN层。在每个MHA模块内,以及块间处理部分与块内处理部分之间应用残差连6

1.4 训练目标

网络的学习目标是纯净语音频谱的实部和虚部S=Sreal+iSimag,其中Sreal表示实部,Simag表示虚部。使用功率压缩损失函

11作为训练目标,可以更好地处理低功率时频点中的信息。复数谱在极坐标下可以写为S=SeiθS,其幂压缩谱可以描述为SC=SγeiθS,其中γ为压缩系数,上标C表示功率压缩模式。因此,实部和虚部分别表示为

SrealC=SγcosθS,  SimagC=SγsinθS (13)

网络估计得到的纯净语音的S˜realCS˜imagC遵循相同的定义。用于恢复复数谱和幅度谱的损失函数LRIS˜,SLMagS˜,S分别定义为

LRIS˜,S=SrealC-S˜realCF2+SimagC-S˜imagCF2 (14)
LMagS˜,S=Sγ-S˜γF2 (15)

式中||·||F为矩阵的Frobenius 范数,最终用于训练SCM‑DPARN的损失函数为LRIS˜,SLMagS˜,S之和,表达式为

L=LRIS˜,S+LMagS˜,S (16)

2 仿真实验与结果分析

2.1 消融实验

2.1.1 数据集

首先进行消融实验,以评估SCM层的作用以及DPARN与其他双路径模型相比的优势。所有模型均在一个小数据集上进行训练,其中包括来自英语数据集VCTK

12和法语数据集SIWIS13的纯净语音,以及来自DEMAND14和QUT‑NOISE15的噪声数据。所有音频都以48 kHz采样。纯净语音数据集的大小总共约为45 h。将音频随机分成10 s长的片段,总共生成16 000个纯净语音片段。其中14 500个片段用于训练,其余用于验证。首先将10% 的纯净数据与从openSLR26和openSLR2816中随机选取的房间脉冲响应进行卷积,然后以-5~10 dB (间隔1 dB)的信噪比(Signal‑to‑noise ratio,SNR)将语音片段与噪声片段随机混合,从而生成带噪语音片段。对于带有混响的带噪语音,模型的训练目标为带混响的纯净语音,即在本文的实验中仅以去除加性噪声为目标,不考虑去混响。

对于测试数据集,使用来自DAPS

17的纯净语音和来自Saki18的噪声。测试数据的模拟生成方式和训练数据相同。测试的SNR 级别为{-5 dB, 0 dB, 5 dB, 10 dB}。

2.1.2 参数设置

短时傅里叶变换(Short‑time Fourier transform,STFT) 的窗口长度为25 ms,帧移为12.5 ms。离散傅里叶变换长度为1 200个点,即输入网络的频率特征的维度为601,执行STFT时使用汉宁窗。

在SCM层,Fc=256K=125。编码器包含5个二维卷积层。输出通道维度为{16, 32, 48, 64, 80},卷积核大小为{(5,2),(3,2),(3,2),(3,2),(2,1)},步长为{(2,1),(1,1),(1,1),(1,1),(1,1)},其中第1个数字指代频率轴上的配置,第2个数字指代时间轴上的配置。解码器中的转置卷积层是反向排序的。每个(转置)卷积层后皆为1个批标准化层(Batch normalization,BN)和1个PReLU函数层。残差连接通过在通道维度上进行拼接来实现。在本实验中,DPARN处理块仅由1个块内处理模块和1个块间处理模块组成。在块内MHA中,B=2H=8dk=dq=dv=C/H,其中C = 80;在块间RNN中,LSTM的隐藏层大小为127。

采用预热训练

8来训练SCM‑DPARN。预热法调节学习率从一个很小的值开始,先上升再下降,它能够防止网络权重在一开始波动太大,使其找到一个合适的收敛方向。学习率α随训练步长ψ而变化:α=1C×min1ψ,ψΨ3,其中预热步数Ψ为40 000。实验中使用Adam优化器来进行学习,具体参数β1=0.9β2=0.98ϵ=10-9;压缩参数γ=23

2.1.3 基线模型和评价指标

基线模型包括DPCRN

6与4个变体:带SCM层的DPCRN(SCM‑DPCRN)、使用块内RNN与块间MHA的模型(SCM‑DPRAN)、使用块内MHA和块间MHA的模型(SCM‑DPAAN)。无SCM层的DPCRN 模型使用完整的601维频率特征进行训练,不进行频谱压缩。块间MHA中MHA模块的数量B=2。评估指标包括语音质量感知评估(Perceptual evaluation of speech quality,PESQ)、短时客观可懂度(Short‑time objective intelligibility,STOI) 和尺度不变信号失真比(Scale‑invariant signal‑to‑distortion ratios,SI‑SDR)。

2.1.4 实验结果及分析

消融实验中各模型在不同信噪比测试集上的PESQ、STOI、SI‑SDR分数分别如表1~3所示。其中PESQ、STOI分数是将信号全部从48 kHz采样率降采样至16 kHz后测得的。SI‑SDR分数是在原始的48 kHz采样率信号上计算得到的。从各个指标来看,不进行任何频谱压缩的DPCRN模型性能比带有SCM层的DPCRN模型性能相对更弱。由此可见,对于全频带语音增强模型,保持完整的频率信息不仅在计算中是多余的,而且会恶化模型的性能。在这种设置下,模型分配了大量的计算资源用于学习语音能量分布稀疏的高频部分,既无法在高频上提取有效的信息,又影响了模型对低频成分的建模。本文提出的SCM‑DPARN在各指标、各信噪比数据上性能皆为最佳,并且其优势在低信噪比下更加明显。得益于SCM模块,SCM‑DPARN能够有效地提取中低频的谐波信息;同时由于多头自注意力网络的全局信息处理优势,它对频带较宽的辅音成分能达到较好的保留效果。SCM‑DPRAN和SCM‑DPAAN两个模型有性能下降,甚至劣于SCM‑DPCRN。说明至少对于轻量级网络而言,在MHA、RNN层数较少的情况下,仅沿频率轴应用多头注意力机制确实是最佳选择。

表1  不同信噪比测试集上的PESQ评分
Table 1  PESQ scores on test datasets with different SNRs
模型SNR/dB
-50510
原带噪语音 1.15 1.23 1.37 1.64
DPCRN 1.45 1.94 2.07 2.36
SCM‑DPCRN 1.69 2.33 2.53 2.99
SCM‑DPAAN 1.47 1.84 2.15 2.58
SCM‑DPRAN 1.54 2.04 2.32 2.78
SCM‑DPARN 1.84 2.42 2.61 3.03
表2  不同信噪比测试集上的STOI评分
Table 2  STOI scores on test datasets with different SNRs ( % )
模型SNR/dB
-50510
原带噪语音 77.6 86.3 91.1 95.5
DPCRN 76.8 89.0 90.7 91.6
SCM‑DPCRN 83.2 91.8 94.2 96.9
SCM‑DPAAN 82.0 89.6 92.5 95.6
SCM‑DPRAN 81.1 90.5 93.5 96.5
SCM‑DPARN 85.3 92.9 94.7 97.0
表3  不同信噪比测试集上的SI‑SDR评分
Table 3  SI‑SDR scores on test datasets with different SNRs
模型SNR/dB
-50510
原带噪语音 -4.99 -0.01 5.00 10.00
DPCRN 3.68 8.64 9.79 11.65
SCM‑DPCRN 6.05 10.66 12.20 15.06
SCM‑DPAAN 4.57 9.08 10.92 13.79
SCM‑DPRAN 4.30 9.25 11.53 14.14
SCM‑DPARN 7.07 11.51 12.82 15.41

2.2 增强实验

2.2.1 数据集和参数设置

为了将SCM‑DPARN与近年的其他全频带、超宽带(采样率32 kHz)语音增强论文模型进行比较,在公开的VCTK‑DEMAND数据

19上进一步训练和测试提出的模型。该数据集仅提供纯净语音与带噪语音,不提供原始的噪声数据。纯净语音来自VCTK12数据集,其中28个说话人的数据用于训练,2个说话人的数据用于测试。噪声数据包括用于训练的2种人工生成的噪声类型(语音形噪声和咿呀声)和来自DEMAND14的8种真实噪声,以及用于测试的其他5种噪声。训练的SNR级别为{0 dB,5 dB,10 dB,15 dB},测试的SNR级别为{2.5 dB,7.5 dB,12.5 dB,17.5 dB}。训练数据总共大约10 h。STFT 配置、网络参数设置和训练策略与消融实验相同,预热步长为5 000。

2.2.2 基线模型和评价指标

基线模型包括:RNNoise

20、PerceptNet3、DeepFilterNet4和S‑DCCRN5。基线模型的分数摘取于相关论文3‑520。在这些模型中,只有S‑DCCRN5是在VCTK‑DEMAND训练集上训练的,且在文献[5]中应用于超宽带语音增强,对应的处理难度低于全频带语音增强。

2.2.3 实验结果及分析

在公开的VCTK‑DEMAND测试集上的结果如表4所示。虽然RNNoise

20只有0.06×106 的参数,但它在性能上相较其他模型有较大劣势。在训练数据集较小的情况下,本文提出的SCM‑DPARN模型在PESQ、STOI、SI‑SDR三个指标上都取得了最好的分数,且模型大小只有0.89×106参数。结果表明,利用SCM对全频带信息进行压缩、使用多头自注意力对频谱结构进行建模对于全频带语音增强模型是有效的改进策略。

表4  VCTK‑DEMAND数据集上各模型性能比较
Table 4  Performance comparison of different models on VCTK‑DEMAND dataset
模型参数量/106采样率/kHzPESQSTOI/%SI‑SDR
原带噪语音 - 48 1.97 92.1 8.41
RNNoise[20] 0.06 48 2.29 - -
PerceptNet[3] 8.00 48 2.73 - -
DeepFilterNet[4] 1.80 48 2.81 - 16.63
S‑DCCRN[5] 2.34 32 2.84 94.0 -
SCM‑DPARN 0.89 48 2.92 94.2 18.28

3 结束语

本文提出了一种轻量级的全频带语音增强模型SCM‑DPARN。该模型利用可学习的频谱压缩映射来更有效地压缩信息量较少的高频段频谱,用多头注意力网络取代循环神经网络对全频段频谱的全局结构进行建模。本文通过消融实验验证了频谱压缩的有效性,并进一步确认了DPARN相较于其他双路径语音增强模型的优势。在VCTK‑DEMAND数据集上的实验显示,与几种全频带语音增强模型相比,本文提出的SCM‑DPARN仅使用0.89×106 参数就实现了较好的语音增强效果。

参考文献

1

WANG Deliang, CHEN Jitong. Supervised speech separation based on deep learning: An overview[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018, 26(10): 1702-1726. [百度学术] 

2

MONSON B B, LOTTO A J, STORY B H. Analysis of high-frequency energy in long-term average spectra of singing, speech, and voiceless fricatives[J]. The Journal of the Acoustical Society of America, 2012, 132(3): 1754-1764. [百度学术] 

3

VALIN J M, ISIK U, PHANSALKAR N, et al. A perceptually-motivated approach for low-complexity, real-time enhancement of fullband speech[C]//Proceedings of Interspeech. [S.l.]: IEEE, 2020: 2482-2486. [百度学术] 

4

SCHRÖTER H, ROSENKRANZ T, MAIER A. DeepFilterNet: A low complexity speech enhancement framework for full-band audio based on deep filtering[C]//Proceedings of 2022 IEEE International Conference on Acoustics, Speech and Signal Processing. Singapore: IEEE, 2022: 7407-7411. [百度学术] 

5

LV Shubo, FU Yihui, XING Mengtao, et al. S-DCCRN: Super wide band DCCRN with learnable complex feature for speech enhancement[C]//Proceedings of 2022 IEEE International Conference on Acoustics, Speech and Signal Processing. Singapore: IEEE, 2022: 7767-7771. [百度学术] 

6

LE Xiaohuai, CHEN Hongsheng, Chen Kai, et al. DPCRN: Dual-path convolution recurrent network for single channel speech enhancement[C]//Proceedings of Interspeech. [S.l.]: IEEE, 2021: 2811-2815. [百度学术] 

7

REDDY C K A, DUBEY H, KOISHIDA K, et al. INTERSPEECH 2021 deep noise suppression challenge[C]//Proceedings of Interspeech. Toronto, ON, Canada: IEEE, 2021: 2796-2800. [百度学术] 

8

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017. DOI: https://doi.org/10.48550/arXiv.1706.03762. [百度学术] 

9

DAVIS S, MERMELSTEIN P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences[J]. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1980, 28(4): 357-366. [百度学术] 

10

SKOWRONSKI M D, HARRIS J G. Exploiting independent filter bandwidth of human factor cepstral coefficients in automatic speech recognition[J]. The Journal of the Acoustical Society of America, 2004, 116(3): 1774-1780. [百度学术] 

11

LI Andong, ZHENG Chengshi, PENG Renhua, et al. On the importance of power compression and phase estimation in monaural speech dereverberation[J]. JASA Express Letters, 2021, 1(1): 014802. [百度学术] 

12

VEAUX C, YAMAGISHI J, MACDONALD K. CSTR VCTK Corpus: English multi-speaker corpus for CSTR voice cloning toolkit, technical report[R]. Edinburgh: The University of Edinburgh, 2017. [百度学术] 

13

HONNET P E, LAZARIDIS A, GARNER P N, et al. The SIWIS French speech synthesis database—Design and recording of a high quality French database for speech synthesis[R]. Switzerland: IDIAP Research Institute, 2017. [百度学术] 

14

THIEMANN J, ITO N, VINCENT E. The diverse environments multi-channel acoustic noise database (DEMAND): A database of multichannel environmental noise recordings[C]//Proceedings of Meetings on Acoustics ICA2013. Montreal Montreal, Canada: [s.n.], 2013: 035081. [百度学术] 

15

DEAN D, SRIDHARAN S, VOGT R, et al. The QUT-NOISE-TIMIT corpus for evaluation of voice activity detection algorithms[C]//Proceedings of the 11th Annual Conference of the International Speech Communication Association. Makuhari, Chiba, Japan: DBLP, 2010: 3110-3113. [百度学术] 

16

KO T, PEDDINTI V, POVEY D, et al. A study on data augmentation of reverberant speech for robust speech recognition [C]//Proceedings of 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). New Orleans, LA, USA: IEEE, 2017: 5220-5224. [百度学术] 

17

MYSORE G J. Can we automatically transform speech recorded on common consumer devices in real-world environments into professional production quality speech?—A dataset, insights, and challenges[J]. IEEE Signal Processing Letters, 2014, 22(8): 1006-1010. [百度学术] 

18

SAKI F, SEHGAL A, PANAHI I, et al. Smartphone-based real-time classification of noise signals using subband features and random forest classifier[C]//Proceedings of 2016 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP). Shanghai, China: IEEE, 2016: 2204-2208. [百度学术] 

19

VALENTINI-BOTINHAO C, WANG X, TAKAKI S, et al. Investigating RNN-based speech enhancement methods for noise-robust text-to-speech[C]//Proceedings of the 9th ISCA Speech Synthesis Workshop. Sunnyvale, USA: ISCA, 2016: 146-152. [百度学术] 

20

VALIN J M. A hybrid DSP/deep learning approach to real-time full-band speech enhancement[C]//Proceedings of 2018 IEEE 20th International Workshop on Multimedia Signal Processing(MMSP). Vancouver, BC, Canada: IEEE, 2018: 1-5. [百度学术]