摘要
针对目前主流的双支路单通道语音增强方法只关注全频带信息而忽略子频带信息这一问题,设计了一种基于人耳临界频带的交互性双支路模型。主要做法为,在复数谱支路上实施模拟人耳临界频带的划分方法对信号进行分频带处理,提取子带信息;在幅度补偿支路上直接对信号的全频带进行处理,提取全频带信息。复数谱支路负责初步恢复干净语音的幅度和相位,同时,该支路上学到的子带中间特征会被特定的模块传递给幅度补偿支路进行补偿;幅度补偿支路上的输出会对复数谱支路上输出的幅度做进一步的补偿,达到恢复干净语音频谱的目的。实验结果表明,提出的模型在恢复语音质量和可懂度方面优于其他先进的单通道语音增强模型。
单通道语音增强是指从单个麦克风收集到的带噪语音中恢复出干净语音的技术。近年来,深度学习方法广泛应用于语音增强方面,其语音增强性能优于维纳滤波方
基于神经网络的语音增强任务可在时域和时频域实现。在时域中,直接学习原始带噪语音波形到干净语音波形的映
最近,目标解耦方法被提出并广泛应用起
到目前为止,基于神经网络的单通道语音增强方法在处理非平稳噪声上已经取得了出色的性能。然而,大部分基于神经网络的语音增强方法总是充分使用全频带信息,而较少关注子频带信息。因此,如何能够将频带的信息充分利用是一个有价值的研究问题。早在20世纪40年代,Fletcher就提出了临界频段的概念,表明人耳对频率的实际感知与真实频率有非线性关
针对单通道语音增强问题,本文提出了一种基于临界频带的交互性双支路模型(Interactive dual branch model based on the critical frequency band, IDBM‑CFB)。具体而言,模型分为复数谱支路和幅度补偿支路,复数谱支路旨在通过估计cIRM达到获得干净语音复数谱的目标,幅度补偿支路负责幅度谱细节的填充。两条支路并行处理,相互合作,先将复数谱支路学到的中间特征幅度信息通过特定的模块传递给幅度补偿支路,在最后重构信号频谱时,再用幅度补偿支路的输出对复数谱支路幅度进行补偿,达到重构干净语音频谱的目标。实验结果表明,提出的基于临界频带的交互性双支路单通道语音增强模型在恢复语音质量和可懂度方面取得了很好的效果。
由于人耳的特殊结构,人的听觉系统对声音频率的感知与实际频率的对应关系是一种非线性映射关系。人耳基底膜具有类似于一组听觉滤波
Bark 编号 | 临界频带 划分范围/Hz | 最接近临界频带 的范围/Hz | 对应频 点范围 |
---|---|---|---|
1 | 20~100 | 31.25~93.75 | 1~3 |
2 | 100~200 | 125~187.5 | 4~6 |
3 | 200~300 | 218.75~281.25 | 7~9 |
4 | 300~400 | 312.5~375 | 10~12 |
5 | 400~510 | 406.25~500 | 13~16 |
6 | 510~630 | 531.25~625 | 17~20 |
7 | 630~770 | 656.25~750 | 21~24 |
8 | 770~920 | 781.25~906.25 | 25~29 |
9 | 920~1 080 | 937.5~1 062.5 | 30~34 |
10 | 1 080~1 270 | 1 093.75~1 250 | 35~40 |
11 | 1 270~1 480 | 1 281.25~1 468.75 | 41~47 |
12 | 1 480~1 720 | 1 500~1 718.75 | 48~55 |
13 | 1 720~2 000 | 1 750~2 000 | 56~64 |
14 | 2 000~2 320 | 2 031.25~2 312.5 | 65~74 |
15 | 2 320~2 700 | 2 343.75~2 678.5 | 75~86 |
16 | 2 700~3 150 | 2 718.75~3 125 | 87~100 |
17 | 3 150~3 700 | 3 156.25~3 687.5 | 101~118 |
18 | 3 700~4 400 | 3 718.75~4 375 | 119~140 |
19 | 4 400~5 300 | 4 406.25~5 281.25 | 141~169 |
20 | 5 300~6 400 | 5 312.5~6 375 | 170~204 |
21 | 6 400~7 700 | 6 406.25~7 687.5 | 205~246 |
22 | 7 700~9 500 | 7 718.75~8 000 | 247~256 |
23 | 9 500~12 000 | ||
24 | 12 000~15 500 |
所提出的模型主要由两个支路构成,即幅度补偿支路和复数谱支路,旨在并行地协同估计干净语音的幅度和相位信息。具体来说,在复数谱支路中,输入是带噪语音的复数谱,模型估计cIRM,用于恢复目标语音的幅度和相位,然后幅度补偿支路利用带噪语音的幅度谱来估计干净语音的幅度补偿掩蔽,用于进一步补偿复数谱支路输出的幅度。设干净语音的频谱为,背景噪声的频谱为,带噪语音的频谱可表示为
(1) |
式中:和分别表示带噪音、干净语音和背景噪声在时频点处的数值。复数谱支路输出的表示初步得到的干净语音,用幅度补偿支路的输出与之相乘,得到最终恢复出的干净语音为
(2) |
式中表示时频点处的幅度补偿掩蔽,且。
恢复过程如

图1 一个时频点的恢复过程示意图
Fig.1 Diagram of the recovery process of one time-frequency point
从
本文所提出模型的整体结构如
(3) |
式中:表示通道数量;表示频点个数;表示特征图的帧数。按照
(4) |
式中:,表示第个频段的频点个数,且。将划分好的22个子带特征向量送入各自对应的由3层复卷积堆叠组成的复编码器中,得到编码后的22个特征向量
(5) |
式中:。具体来说,复编码器的通道数为 [32,64,64,128],复卷积层的卷积核大小为、步长为,每层复卷积之后都跟着复数形式的BN层和复数形式的PReLU层。复解码器的参数设置与复编码器相同,结构呈镜像对称。在被传递给第个复解码器的同时,也被送入到了第个高效通道注意力 (Efficient channel attention, ECA) 模
(6) |
式中:。进一步地,信息融合与传递模块对22个ECA模块的输出进行整合,并将整合后的信息与幅度补偿支路上编码器的输出相乘。具体操作分为以下3个步骤:
步骤1 将22个复数谱特征向量转化为幅值特征向量并沿频率维度拼接成完整的全频带特征,即
(7) |
(8) |
式中:表示分别对矩阵H中的每一个元素开方;“”表示对应元素相乘;;;表示将张量沿频率维拼接。

图2 所提模型的整体结构
Fig.2 Overall structure of the proposed model
步骤2 携带了从复数谱支路上学到的22个子带的幅度信息,将其通过3次卷积和平均池化操作,得到整合后的信息,即
(9) |
式中:表示非线性变换;表示非线性变换中的可训练参数组。非线性变换包括3次卷积和池化操作,3次卷积的通道数为[64,64,64],卷积核大小为、步长为,池化层核为、步长为。每经过一次卷积层或者池化层,频率维就会减小一半,每层卷积后面都跟着BN层和指数线性单元 (Exponential linear unit, ELU)。特别注意的是,最后一层卷积后面采用Sigmoid激活函数代替ELU,使要传递的信息变化范围压缩在0到1之间,为幅度补偿支路提供额外的掩蔽。
步骤3 将与幅度补偿支路上编码器的输出相乘,可得
(10) |
式中:为幅度补偿支路上编码器的输出;。
将补偿后的特征送入长短期记忆网络 (Long short‑term memory, LSTM) 中进行时间上下文分析,然后再进行解码,得到幅度补偿支路输出的幅度补偿掩蔽为
(11) |
式中:;表示一次线性全连接操作;表示幅度补偿支路的解码操作,参数设置与对应的编码器相同,结构呈镜像对称。
在复数谱支路上,经过最后一层密集连接模块,可以得到估计出的cIRM,进而初步得到干净语音的幅度和相位分别为
(12) |
(13) |
式中:和分别为估计出cIRM的实部和虚部; 和分别为带噪语音的幅度谱和相位谱;为复数谱支路初步恢复出的干净语音的幅度谱;为复数谱支路恢复出的干净语音的相位。
最后,按照
如
(14) |
式中:表示非线性变换,它是一个合并操作,包括二维卷积层,BN层和PReLU, 。卷积核大小为、步长为1,每个通过因果形式的补零操作确保输入和输出特征的长度和宽度保持不变,通道数为 [16, 32, 32]。

图3 密集连接模块结构
Fig.3 Structure of dense block
经过3次非线性运算后,密集连接模块将通道从二维扩展到了32维,特征图的时间和频率维度不改变。每个通道都会表示特定的特征信息,从而达到扩大感受野和获得频谱高维特征表示的目的。在复数谱支路上,分别在支路的入口和出口处用到密集连接层,出口处与入口处的参数设置相同,结构呈对称关系。
如
(15) |
式中:表示离最近的奇数;为通道数;的大小表示了局部跨通道交互的覆盖范围,即有多少个相邻通道参与了一个通道注意力的预测。最后,将所得到的权重与原特征相乘得到更新后的特征。

图4 高效通道注意力模块结构
Fig.4 Structure of ECA
将ECA模块加在复数谱支路和幅度补偿支路之间,对增加模型的复杂度方面几乎可以忽略不计,但却能使中间信息的特征指向性更强,更有效地将复数谱支路上学到的22个局部幅度谱信息传递给幅度补偿支路。
为了缓解幅度和相位之间的补偿问题,同时优化信号的幅度谱损失和复数谱损失,即
(16) |
式中:和分别表示幅度谱损失和复数谱损失;和分别表示干净语音频谱的实部和虚部分量;和分别表示增强后的语音频谱的实部和虚部分量。通过减少
为了验证IDBM‑CFB的有效性,选用WSJ0‑SI84语料
数据集 | WSJ0‑SI84 语料库 | MUSAN 噪声集 | 每条语音随机 混合噪声数量 | 混合信噪比/dB |
---|---|---|---|---|
训练集 | 39男和38女,共6 684条话语 | 820 | 3 | (-5~0),间隔为1 |
验证集 | 3男3女(来自训练集),共606条话语 | 70 | 6 | (-3~3),间隔为3 |
测试集 | 3男3女,共454条话语 | 40 | 5 | (-6~6),间隔为3 |
将训练集的6 684条话语与从820条噪声中随机抽取的3条噪声进行混合,生成20 052条语音样本进行训练;将训练集的606条话语与从70条噪声中随机抽取的6条噪声进行混合,生成3 636条语音样本进行验证;将测试集的454条话语与从40条噪声中随机抽取的5条噪声进行混合,生成2 270条语音样本进行测试。
实验数据集都被降采样到16 kHz,最大话语长度为3 s,采用512点的离散傅里叶变换,帧长为400点,帧移为100点,加汉宁窗。提出的模型和所有其他基线模型都使用Adam优化器,初始学习率为5e-4,每训练一轮学习率就下降为原来的97%。考虑到幂律压缩在去混响和去噪任务中的有效
实验采用感知语音质量评价(Perceptual evaluation of speech quality, PESQ
实验选用两个先进的编码器‑解码器模型(CR
CRN和DCCRN:CRN是基于映射的模型,它利用信号复数谱映射网络直接预测干净信号复数谱的实部和虚部。CRN包含一个编码器和两个解码器,其中编码器联合处理实部和虚部,两个解码器分别负责处理实部和虚部,在编码器和解码器之间有LSTM层学习信号的短时上下文信息。DCCRN是对CRN的改进模型,采用模拟复数运算的复数型网络结构。
GaGNet:GaGNet是一种用于单通道语音增强的复数域多阶段双支路学习框架,包括频谱特征提取模块和堆叠的扫视‑凝视模块。在每个扫视‑凝视模块中,模型将频谱优化任务分成幅度谱支路和复数谱支路两条路径,两条路径均提取全频带信息,协同促进频谱估计,同时,该模型还用到了多阶段学习策略,通过反复展开扫视‑凝视模块,优化最终结果。
CTS‑Net:CTS‑Net是一个两阶段复数谱映射网络,在第一阶段,采用幅度粗估计网络估计幅度谱,然后与原始噪声相位耦合初步得到信号复数谱;在第二阶段,复数谱细化网络以原始和上一阶段得到的复数谱作为输入,在有效修复频谱的同时,进一步抑制噪声分量,优化最终结果。
DB‑Full、DB‑Sub1和DB‑Sub2: DB‑Full是全频带双支路模型,与IDBM‑CFB相比,在复数谱支路中,不拆分频率,且两个支路中间没有任何信息传递;DB‑Sub1是子带双支路模型,与IDBM‑CFB相比,两个支路中间没有任何信息传递;DB‑Sub2与IDBM‑CFB相比,两个支路中间有信息融合与传递模块,但是中间信息没有经过22个ECA模块。
针对单通道语音增强实验,
模型 | 参数/1 | PESQ | STOI/% | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
-6 dB | -3 dB | 0 dB | 3 dB | 6 dB | Ave | -6 dB | -3 dB | 0 dB | 3 dB | 6 dB | Ave | ||
Unprocessed | 1.14 | 1.17 | 1.21 | 1.29 | 1.40 | 1.24 | 72.55 | 77.63 | 82.05 | 86.36 | 89.51 | 81.62 | |
CRN | 610 | 1.58 | 1.78 | 2.00 | 2.22 | 2.42 | 2.00 | 85.86 | 89.62 | 92.07 | 94.22 | 95.45 | 91.44 |
DCCRN | 360 | 1.68 | 1.88 | 2.09 | 2.30 | 2.50 | 2.09 | 86.23 | 89.94 | 92.44 | 94.43 | 95.76 | 91.76 |
GaGNet | 594 | 1.88 | 2.10 | 2.31 | 2.53 | 2.70 | 2.30 | 88.10 | 91.00 | 93.10 | 94.90 | 95.85 | 92.59 |
CTS‑Net | 435 | 1.83 | 2.04 | 2.24 | 2.40 | 2.54 | 2.21 | 88.47 | 91.58 | 93.47 | 95.00 | 95.99 | 92.90 |
DB‑Full | 147 | 1.73 | 1.95 | 2.17 | 2.40 | 2.59 | 2.17 | 86.43 | 90.04 | 92.35 | 94.50 | 95.69 | 91.80 |
DB‑Sub1 | 333 | 1.78 | 2.00 | 2.25 | 2.49 | 2.68 | 2.24 | 86.67 | 90.20 | 92.48 | 94.56 | 95.74 | 91.93 |
DB‑Sub2 | 339 | 1.81 | 2.04 | 2.28 | 2.52 | 2.73 | 2.27 | 87.09 | 90.56 | 92.80 | 94.77 | 95.89 | 92.22 |
IDBM‑CFB | 339 | 1.84 | 2.07 | 2.32 | 2.56 | 2.77 | 2.31 | 87.58 | 90.93 | 93.10 | 95.00 | 96.10 | 92.54 |
模型 | SDR/dB | CSIG | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
-6 dB | -3 dB | 0 dB | 3 dB | 6 dB | Ave | -6 dB | -3 dB | 0 dB | 3 dB | 6 dB | Ave | |
Unprocessed | -5.84 | -2.91 | 0.06 | 3.04 | 6.03 | 0.08 | 2.08 | 2.27 | 2.48 | 2.69 | 2.93 | 2.49 |
CRN | 7.74 | 9.99 | 11.97 | 13.79 | 15.46 | 11.79 | 3.13 | 3.38 | 3.60 | 3.81 | 4.00 | 3.58 |
DCCRN | 10.15 | 12.15 | 13.94 | 15.61 | 17.11 | 13.79 | 2.90 | 3.17 | 3.41 | 3.65 | 3.86 | 3.40 |
GaGNet | 10.74 | 12.37 | 13.75 | 15.15 | 16.28 | 13.66 | 3.43 | 3.66 | 3.87 | 4.05 | 4.21 | 3.84 |
CTS‑Net | 11.02 | 12.89 | 14.41 | 15.71 | 16.89 | 14.18 | 3.34 | 3.58 | 3.77 | 3.94 | 4.08 | 3.74 |
DB‑Full | 8.95 | 11.22 | 12.89 | 14.63 | 16.07 | 12.75 | 3.34 | 3.58 | 3.80 | 4.00 | 4.16 | 3.77 |
DB‑Sub1 | 9.24 | 11.37 | 13.07 | 14.75 | 16.25 | 12.93 | 3.37 | 3.61 | 3.84 | 4.04 | 4.21 | 3.81 |
DB‑Sub2 | 9.14 | 11.38 | 13.15 | 14.91 | 16.37 | 12.99 | 3.40 | 3.64 | 3.86 | 4.05 | 4.24 | 3.84 |
IDBM‑CFB | 9.30 | 11.60 | 13.31 | 15.02 | 16.64 | 13.17 | 3.44 | 3.67 | 3.90 | 4.09 | 4.28 | 3.88 |
模型 | CBAK | COVL | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
-6 dB | -3 dB | 0 dB | 3 dB | 6 dB | Ave | -6 dB | -3 dB | 0 dB | 3 dB | 6 dB | Ave | |
Unprocessed | 1.55 | 1.69 | 1.86 | 2.07 | 2.31 | 1.90 | 1.52 | 1.63 | 1.78 | 1.94 | 2.12 | 1.80 |
CRN | 2.31 | 2.55 | 2.79 | 3.05 | 3.28 | 2.80 | 2.32 | 2.56 | 2.79 | 3.02 | 3.22 | 2.78 |
DCCRN | 2.34 | 2.58 | 2.82 | 3.07 | 3.30 | 2.82 | 2.25 | 2.50 | 2.74 | 2.97 | 3.19 | 2.73 |
GaGNet | 2.66 | 2.87 | 3.08 | 3.26 | 3.41 | 3.06 | 2.63 | 2.86 | 3.09 | 3.30 | 3.48 | 3.07 |
CTS‑Net | 2.65 | 2.84 | 3.02 | 3.17 | 3.30 | 3.00 | 2.57 | 2.80 | 3.00 | 3.17 | 3.32 | 2.97 |
DB‑Full | 2.43 | 2.68 | 2.92 | 3.18 | 3.40 | 2.92 | 2.52 | 2.76 | 2.99 | 3.22 | 3.41 | 2.98 |
DB‑Sub1 | 2.47 | 2.71 | 2.98 | 3.23 | 3.46 | 2.97 | 2.56 | 2.80 | 3.05 | 3.28 | 3.47 | 3.03 |
DB‑Sub2 | 2.48 | 2.73 | 2.99 | 3.25 | 3.49 | 2.99 | 2.58 | 2.83 | 3.07 | 3.31 | 3.51 | 3.06 |
IDBM‑CFB | 2.51 | 2.76 | 3.02 | 3.28 | 3.52 | 3.02 | 2.62 | 2.87 | 3.12 | 3.35 | 3.56 | 3.10 |
观察表
(1)分带:对比DB‑Full和DB‑Sub1的实验结果,可以发现,分频带后的DB‑Sub1结果比全频带的DB‑Full结果都有提高,PESQ提高了0.07,STOI提高了0.13%,SDR提高了 0.18 dB,CSIG提高了 0.04,CBAK提高了0.05,COVL提高了0.05,表明这种按照临界频带进行分频的思想是有效的。
(2)信息融合与传递模块:对比DB‑Sub1和DB‑Sub2的实验结果,添加信息融合与传递模块后的DB‑Sub2结果比无信息融合与传递模块的DB‑Sub1结果都有进一步提高,PESQ提高了0.03,STOI提高了0.29%,SDR提高了 0.06 dB,CSIG提高了 0.03,CBAK提高了0.02,COVL提高了0.03,表明在两条支路之间加入信息融合与传递模块来增加两条支路的交互性是有效的。
(3)ECA模块:对比DB‑Sub2和IDBM‑CFB的实验结果,对每个子带学到的信息先用ECA模块整合再做融合的结果比简单地将22个子带学到的信息融合的结果有进一步的提高, PESQ提高了0.04,STOI提高了0.32%,SDR提高了 0.18 dB,CSIG提高了 0.04,CBAK提高了0.03,COVL提高了0.04。这表明采用轻量级的ECA模块帮助子带信息进行整合是有效的。
通过以上分析可以看出,虽然直接分带计算提升的语音质量有限,但是通过加入了信息融合与传递模块和ECA模块,在参数量增加不大的情况下,两个模块结合分带思想,较好地提升了模型的整体性能。因此,分带、信息融合与传递模块和ECA模块是本文所提出的IDBM‑CFB提升单通道语音增强性能的关键。
最后,对比IDBM‑CFB、CRN和DCCRN,可以看出,IDBM‑CFB有更优秀的语音增强性。对比IDBM‑CFB和GaGNet,IDBM‑CFB的参数量减少了255万,而其在除SDR以外的所有客观和主观指标上达到GaGNet;对比IDBM‑CFB和CTS‑Net,IDBM‑CFB的参数量减少了96万,而其在除STOI和SDR以外的所有客观和主观指标上超过CTS‑Net。总的来说,在6个评价指标中,IDBM‑CFB有4个指标均与上述基线模型相当或更优,而其中一个或两个指标的不足,对比模型参数量的减少是值得的。
针对单通道语音增强问题,本文将语音心理声学上临界频带的概念与深度学习相结合,引入分带、信息融合与传递模块和高效通道注意力模块,使复数谱支路和幅度补偿支路相互合作,提出了基于临界频带的交互性双支路模型(IDBM‑CFB)。在WSJ0‑SI84语料库和MUSAN噪声集进行了训练、验证和测试实验。实验结果表明,IDBM‑CFB能够以更少的参数量,在大部分客观和主观评价指标上达到或超过对比基线模型,提升了单通道语音增强性能。
参考文献
XIA Bingyin, BAO Changchun. Wiener filtering-based speech enhancement with weighted denoising autoencoder and noise classification[J]. Speech Communication, 2014, 60(1): 13-29. [百度学术]
HERMUS K, WAMBACQ P, VAN HAMME V. A review of signal subspace speech enhancement and its application to noise robust speech recognition[J]. EURASIP Journal on Advances in Signal Processing, 2006, 2007(1): 1-15. [百度学术]
LIN L, AMBIKAIRAJAH E, HOLMES W H. Speech enhancement for nonstationary noise environment[C]//Proceedings of Asia-Pacific Conference on Circuits and Systems. [S.l.]: IEEE, 2002: 177-180. [百度学术]
HSIEH T A, WANG H M, LU X, et al. WaveCRN: An efficient convolutional recurrent neural network for end-to-end speech enhancement[J]. IEEE Signal Processing Letters, 2020, 27: 2149-2153. [百度学术]
WANG Yuxuan, NARAYANAN A, WANG Deliang. On training targets for supervised speech separation[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(12): 1849-1858. [百度学术]
XU Yong, DU Jun, DAI Lirong, et al. A regression approach to speech enhancement based on deep neural networks[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2015, 23(1): 7-19. [百度学术]
PALIWAL K, WOJCICKI K, SHANNON B. The importance of phase in speech enhancement[J]. Speech Communication, 2011, 53(4): 465-494. [百度学术]
WILLIAMSON D S, WANG Yuxuan, WANG Deliang. Complex ratio masking for monaural speech separation[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(3): 483-492. [百度学术]
TAN K, WANG Deliang. Complex spectral mapping with a convolutional recurrent network for monaural speech enhancement[C]//Proceedings IEEE International Conference on Acoustics, Speech and Signal Processing. [S.l.]: IEEE, 2019: 6865-6869. [百度学术]
HU Yanxin, LIU Yun, LV Shubo, et al. DCCRN: Deep complex convolution recurrent network for phase-aware speech enhancement[C]//Proceedings of Interspeech. [S.l.]: [s.n.], 2020: 2472-2476. [百度学术]
YU Runxiang, ZHAO Ziwei, YE Zhongfu. PFRNet: Dual-branch progressive fusion rectification network for monaural speech enhancement[J]. IEEE Signal Processing Letters, 2022, 29: 2358-2362. [百度学术]
YU Guochen, LI Andong, ZHENG Chengshi, et al. Dual-branch attention-in-attention transformer for single-channel speech enhancement[C]//Proceedings of 2022 IEEE International Conference on Acoustics, Speech and Signal Processing. [S.l.]: IEEE, 2022: 7847-7851. [百度学术]
YU Guochen, LI Andong, WANG Hui, et al. DBT-Net: Dual-branch federative magnitude and phase estimation with attention-in-attention transformer for monaural speech enhancement[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2022, 30: 2629-2644. [百度学术]
YIN Dacheng, LUO Chong, XIONG Zhiwei, et al. PHASEN: A phase-and-harmonics-aware speech enhancement network[C]//Proceedings of Conference on Artificial Intelligence. [S.l.]: AAAI, 2020: 9458-9465. [百度学术]
WANG Zhongqiu, WICHERN G, ROUX J L. On the compensation between magnitude and phase in speech separation[J]. IEEE Signal Processing Letters, 2021, 28: 2018-2022. [百度学术]
LI Andong, ZHENG Chengshi, ZHANG Lu, et al. Glance and gaze: A collaborative learning framework for single channel speech enhancement[J]. Applied Acoustics, 2022, 187: 1-9. [百度学术]
FLETCHER H. Auditory patterns[J]. Reviews of Modern Physics, 1940, 12(1): 47-65. [百度学术]
ZWICKER E. Subdivision of the audible frequency range into critical bands (frequenzgruppen)[J]. The Journal of the Acoustical Society of America, 1961, 33(2): 248. [百度学术]
TSOUKALAS D E, MOURJOPOULOS J N, KOKKINAKIS G. Speech enhancement based on audible noise suppression[J]. IEEE Transactions on Speech and Audio Processing, 1997, 5(6): 497-514. [百度学术]
MUNKONG R, JUANG B H. Auditory perception and cognition[J]. IEEE Signal Processing Magazine, 2002, 25(3): 98-117. [百度学术]
MOORE B. Parallels between frequency selectivity measured psychophysically and in cochlear mechanics[J]. Scand Audio Suppl, 1986, 25: 139-152. [百度学术]
WANG Qilong, WU Banggu, ZHU Pengfei, et al. ECA-Net: Effificient channel attention for deep convolutio-nal neural networks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2020: 11534-11542. [百度学术]
PAUL D B, BAKER J M. The design for the wall street journal-based CSR corpus[C]//Proceedings of the Workshop on Speech and Natural Language. [S.l.]: Association for Computational Linguistics, 1992: 357-362. [百度学术]
SNYDER D, CHEN G, POVEY D. Musan: A music, speech, and noise corpus[EB/OL].(2015‑10‑28). https://arXiv preprint arXiv:1510.08484. [百度学术]
LI Andong, LIU Wenzhe, LUO Xiaoxue, et al. A simultaneous denoising and dereverberation framework with target decoupling[C]//Proceedings of Interspeech. [S.l.]: [s.n.], 2021: 2801-2805. [百度学术]
LI Andong, ZHENG Chengshi, PENG Runhua, et al. On the importance of power compression and phase estimation in monaural speech dereverberation[J]. JASA Express Letters, 2021. DOI:10.1121/10.0003321. [百度学术]
TRABELSI C, BILANIUK O, ZHANG Y, et al. Deep complex networks[EB/OL]. (2018-02-25). https://doi.org/10.48550/arXiv.1705.09792. [百度学术]
RIX A W, BEERENDS J G, HOLLIER M P, et al. Perceptual evaluation of speech quality (PESQ)—A new method for speech quality assessment of telephone networks and codecs[C]//Proceedings of 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing. [S.l.]: IEEE, 2001: 749-752. [百度学术]
TAAL C H, HENDRIKS R C, HEUSDENS R, et al. An algorithm for intelligibility prediction of time-frequency weighted noisy speech[C]//Proceedings of 2011 IEEE Transactions on Audio, Speech, and Language Processing. [S.l. ]: IEEE, 2011: 2125-2136. [百度学术]
HU Yi, LOIZOU P C. Evaluation of objective quality measures for speech enhancement[C]//Proceedings of 2008 IEEE Transactions on Audio, Speech, and Language Processing. [S.l.]: IEEE, 2008: 229-238. [百度学术]
LI Andong, LIU Wenzhe, ZHENG Chengshi, et al. Two heads are better than one: A two-stage complex spectral mapping approach for monaural speech enhancement[J]. IEEE-ACM Transactions on Audio, Speech, and Language Processing, 2021, 29: 1829-1843. [百度学术]