摘要
基于深度神经网络的全频带语音增强系统面临着计算资源需求高以及语音在各频段分布不平衡的困难。本文提出了一种轻量级全频带网络模型。该模型在双路径卷积循环网络模型的基础上,利用可学习的频谱压缩映射对高频段频谱信息进行有效压缩,同时利用多头注意力机制对频域的全局信息进行建模。实验结果表明本文模型只需0.89×1
在过去10年中,基于深度神经网络 (Deep neural networks, DNN)的数据驱动语音增强方法取得了较大的进
本文基于宽带的双路径卷积循环网络模型(Dual path convolutional recurrent network, DPCRN
时频(Time‑frequency,T‑F)域含噪语音可以描述为
(1) |
式中:表示时帧序数;表示频点序数;、分别表示该时频点的纯净语音和噪声成分,且是可能带有混响的信号。下文在指代整个频谱图时省略、序数。
本文的处理目标不考虑去混响,因此模型的目标是对带混响语音进行估计,其估计值为。具体的方法是将输入的噪声语音直接映射到上,而非间接地进行掩膜估计。模型的训练由最小化在和上计算的损失函数来实现,表达式为
(2) |
(3) |
式中为作用于复频谱的网络函数。使用基于映射的方法直接估计目标频谱的实部和虚部,其好处在于即使输入信号经过低通滤波,网络也可以恢复原始语音的部分高频段频谱。
与DPCR

图1 本文提出的SCM-DPARN模型整体结构图
Fig.1 Network architecture of the proposed SCM-DPARN model

图2 编码器结构和解码器结构示意图
Fig.2 Structures of the encoder and the decoder
在全频带语音增强任务上,如果保持频谱的分辨率不变,将宽带网络直接扩展成全频带模型,模型计算量将至少提高到原来的3倍,同时它会将三分之二的计算资源分配给信息量较少的高频段(8~24 kHz),从而显著增加计算负担和学习困难。因此,有必要引入频谱信息映射策略来有效压缩高频段。SCM 层的设计遵循梅尔尺度滤波器组的类似形式。梅尔尺度滤波器通过对数函数将频率转换为梅尔尺
(4) |
式中: 为频点的索引;为原始频谱中第个频点的物理频率;为该频点在变换域对应的数值。考虑将一个维谱压缩成维频谱,在变换域中重新采样个均匀分布的点。上述的对数映射和重新采样的变换过程可以描述为
, | (5) |
(6) |
(7) |
(8) |
式中: 为原始频谱;为变换后的频谱;为对应于5 kHz阈值的频点的索引;为第 个三角滤波器;为
这种变换依然具有局限性。
为了更有效地适应高频范围内语音的稀疏分布,模型中使用一个部分可学习的压缩矩阵来实现频谱压缩映射,并且该压缩矩阵由来进行初始化。其中低频带映射是固定的,高频带部分由网络进行学习,并且由
原始的 DPCRN 在两个不同的路径上使用了RNN,即块内RNN和块间RNN。这里的“块”指代单帧的频谱。块内RNN作用于频域,用于对单帧中各频率之间的相关性进行建模;块间 RNN作用于时域,用于对时间依赖关系进行建模。考虑到全频带语音具有明显更宽的频率跨度,用MHA替换块内 RNN,因为它可以更有效地模拟长序列的全局频谱模式。另一方面,时间轴上的全局信息对于语音增强来说不是必需的,因此保留了块间 RNN。

图3 DPARN模块和MHA模块的结构示意图
Fig.3 Structures of DPARN module and MHA module
,, ,, | (9) |
式中 h 为注意力头的索引。之后将缩放的点积注意力计算应用于、和,即
(10) |
(11) |
在MHA层之后,用一个前馈网络进一步处理每个频点的信息,该前馈网络包括2个全连接层和1个ReLU激活函数层,即
(12) |
式中:z为前馈网络输入;;;;。
将1个MHA层和1个前馈网络视为1个 MHA 模块。个重复的MHA模块之后为1个全连接层和1个实例标准化层(Instance normalization,IN)。进一步将输出张量转置之后传入块间RNN中。在块间RNN中,使用长短时记忆网络(Long‑short term memory, LSTM)处理时序关
首先进行消融实验,以评估SCM层的作用以及DPARN与其他双路径模型相比的优势。所有模型均在一个小数据集上进行训练,其中包括来自英语数据集VCT
对于测试数据集,使用来自DAP
短时傅里叶变换(Short‑time Fourier transform,STFT) 的窗口长度为25 ms,帧移为12.5 ms。离散傅里叶变换长度为1 200个点,即输入网络的频率特征的维度为601,执行STFT时使用汉宁窗。
在SCM层,,。编码器包含5个二维卷积层。输出通道维度为{16, 32, 48, 64, 80},卷积核大小为{(5,2),(3,2),(3,2),(3,2),(2,1)},步长为{(2,1),(1,1),(1,1),(1,1),(1,1)},其中第1个数字指代频率轴上的配置,第2个数字指代时间轴上的配置。解码器中的转置卷积层是反向排序的。每个(转置)卷积层后皆为1个批标准化层(Batch normalization,BN)和1个PReLU函数层。残差连接通过在通道维度上进行拼接来实现。在本实验中,DPARN处理块仅由1个块内处理模块和1个块间处理模块组成。在块内MHA中,, , ,其中;在块间RNN中,LSTM的隐藏层大小为127。
采用预热训练
基线模型包括DPCR
消融实验中各模型在不同信噪比测试集上的PESQ、STOI、SI‑SDR分数分别如表
模型 | SNR/dB | |||
---|---|---|---|---|
-5 | 0 | 5 | 10 | |
原带噪语音 | 1.15 | 1.23 | 1.37 | 1.64 |
DPCRN | 1.45 | 1.94 | 2.07 | 2.36 |
SCM‑DPCRN | 1.69 | 2.33 | 2.53 | 2.99 |
SCM‑DPAAN | 1.47 | 1.84 | 2.15 | 2.58 |
SCM‑DPRAN | 1.54 | 2.04 | 2.32 | 2.78 |
SCM‑DPARN | 1.84 | 2.42 | 2.61 | 3.03 |
模型 | SNR/dB | |||
---|---|---|---|---|
-5 | 0 | 5 | 10 | |
原带噪语音 | 77.6 | 86.3 | 91.1 | 95.5 |
DPCRN | 76.8 | 89.0 | 90.7 | 91.6 |
SCM‑DPCRN | 83.2 | 91.8 | 94.2 | 96.9 |
SCM‑DPAAN | 82.0 | 89.6 | 92.5 | 95.6 |
SCM‑DPRAN | 81.1 | 90.5 | 93.5 | 96.5 |
SCM‑DPARN | 85.3 | 92.9 | 94.7 | 97.0 |
模型 | SNR/dB | |||
---|---|---|---|---|
-5 | 0 | 5 | 10 | |
原带噪语音 | -4.99 | -0.01 | 5.00 | 10.00 |
DPCRN | 3.68 | 8.64 | 9.79 | 11.65 |
SCM‑DPCRN | 6.05 | 10.66 | 12.20 | 15.06 |
SCM‑DPAAN | 4.57 | 9.08 | 10.92 | 13.79 |
SCM‑DPRAN | 4.30 | 9.25 | 11.53 | 14.14 |
SCM‑DPARN | 7.07 | 11.51 | 12.82 | 15.41 |
为了将SCM‑DPARN与近年的其他全频带、超宽带(采样率32 kHz)语音增强论文模型进行比较,在公开的VCTK‑DEMAND数据
基线模型包括:RNNois
在公开的VCTK‑DEMAND测试集上的结果如
模型 | 参数量/1 | 采样率/kHz | PESQ | STOI/% | SI‑SDR |
---|---|---|---|---|---|
原带噪语音 | - | 48 | 1.97 | 92.1 | 8.41 |
RNNois | 0.06 | 48 | 2.29 | - | - |
PerceptNe | 8.00 | 48 | 2.73 | - | - |
DeepFilterNe | 1.80 | 48 | 2.81 | - | 16.63 |
S‑DCCR | 2.34 | 32 | 2.84 | 94.0 | - |
SCM‑DPARN | 0.89 | 48 | 2.92 | 94.2 | 18.28 |
本文提出了一种轻量级的全频带语音增强模型SCM‑DPARN。该模型利用可学习的频谱压缩映射来更有效地压缩信息量较少的高频段频谱,用多头注意力网络取代循环神经网络对全频段频谱的全局结构进行建模。本文通过消融实验验证了频谱压缩的有效性,并进一步确认了DPARN相较于其他双路径语音增强模型的优势。在VCTK‑DEMAND数据集上的实验显示,与几种全频带语音增强模型相比,本文提出的SCM‑DPARN仅使用0.89×1
参考文献
WANG Deliang, CHEN Jitong. Supervised speech separation based on deep learning: An overview[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018, 26(10): 1702-1726. [百度学术]
MONSON B B, LOTTO A J, STORY B H. Analysis of high-frequency energy in long-term average spectra of singing, speech, and voiceless fricatives[J]. The Journal of the Acoustical Society of America, 2012, 132(3): 1754-1764. [百度学术]
VALIN J M, ISIK U, PHANSALKAR N, et al. A perceptually-motivated approach for low-complexity, real-time enhancement of fullband speech[C]//Proceedings of Interspeech. [S.l.]: IEEE, 2020: 2482-2486. [百度学术]
SCHRÖTER H, ROSENKRANZ T, MAIER A. DeepFilterNet: A low complexity speech enhancement framework for full-band audio based on deep filtering[C]//Proceedings of 2022 IEEE International Conference on Acoustics, Speech and Signal Processing. Singapore: IEEE, 2022: 7407-7411. [百度学术]
LV Shubo, FU Yihui, XING Mengtao, et al. S-DCCRN: Super wide band DCCRN with learnable complex feature for speech enhancement[C]//Proceedings of 2022 IEEE International Conference on Acoustics, Speech and Signal Processing. Singapore: IEEE, 2022: 7767-7771. [百度学术]
LE Xiaohuai, CHEN Hongsheng, Chen Kai, et al. DPCRN: Dual-path convolution recurrent network for single channel speech enhancement[C]//Proceedings of Interspeech. [S.l.]: IEEE, 2021: 2811-2815. [百度学术]
REDDY C K A, DUBEY H, KOISHIDA K, et al. INTERSPEECH 2021 deep noise suppression challenge[C]//Proceedings of Interspeech. Toronto, ON, Canada: IEEE, 2021: 2796-2800. [百度学术]
VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017. DOI: https://doi.org/10.48550/arXiv.1706.03762. [百度学术]
DAVIS S, MERMELSTEIN P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences[J]. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1980, 28(4): 357-366. [百度学术]
SKOWRONSKI M D, HARRIS J G. Exploiting independent filter bandwidth of human factor cepstral coefficients in automatic speech recognition[J]. The Journal of the Acoustical Society of America, 2004, 116(3): 1774-1780. [百度学术]
LI Andong, ZHENG Chengshi, PENG Renhua, et al. On the importance of power compression and phase estimation in monaural speech dereverberation[J]. JASA Express Letters, 2021, 1(1): 014802. [百度学术]
VEAUX C, YAMAGISHI J, MACDONALD K. CSTR VCTK Corpus: English multi-speaker corpus for CSTR voice cloning toolkit, technical report[R]. Edinburgh: The University of Edinburgh, 2017. [百度学术]
HONNET P E, LAZARIDIS A, GARNER P N, et al. The SIWIS French speech synthesis database—Design and recording of a high quality French database for speech synthesis[R]. Switzerland: IDIAP Research Institute, 2017. [百度学术]
THIEMANN J, ITO N, VINCENT E. The diverse environments multi-channel acoustic noise database (DEMAND): A database of multichannel environmental noise recordings[C]//Proceedings of Meetings on Acoustics ICA2013. Montreal Montreal, Canada: [s.n.], 2013: 035081. [百度学术]
DEAN D, SRIDHARAN S, VOGT R, et al. The QUT-NOISE-TIMIT corpus for evaluation of voice activity detection algorithms[C]//Proceedings of the 11th Annual Conference of the International Speech Communication Association. Makuhari, Chiba, Japan: DBLP, 2010: 3110-3113. [百度学术]
KO T, PEDDINTI V, POVEY D, et al. A study on data augmentation of reverberant speech for robust speech recognition [C]//Proceedings of 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). New Orleans, LA, USA: IEEE, 2017: 5220-5224. [百度学术]
MYSORE G J. Can we automatically transform speech recorded on common consumer devices in real-world environments into professional production quality speech?—A dataset, insights, and challenges[J]. IEEE Signal Processing Letters, 2014, 22(8): 1006-1010. [百度学术]
SAKI F, SEHGAL A, PANAHI I, et al. Smartphone-based real-time classification of noise signals using subband features and random forest classifier[C]//Proceedings of 2016 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP). Shanghai, China: IEEE, 2016: 2204-2208. [百度学术]
VALENTINI-BOTINHAO C, WANG X, TAKAKI S, et al. Investigating RNN-based speech enhancement methods for noise-robust text-to-speech[C]//Proceedings of the 9th ISCA Speech Synthesis Workshop. Sunnyvale, USA: ISCA, 2016: 146-152. [百度学术]
VALIN J M. A hybrid DSP/deep learning approach to real-time full-band speech enhancement[C]//Proceedings of 2018 IEEE 20th International Workshop on Multimedia Signal Processing(MMSP). Vancouver, BC, Canada: IEEE, 2018: 1-5. [百度学术]