摘要
多通道线性预测是最为流行的语音去混响方法之一,现有相关研究大多利用子带谱减模型在每一个频带独立地获取期望信号,但这忽略了不同子带之间的相互影响。本文提出一种利用互子带谱减模型的多通道线性预测语音去混响方法。相比于大多数方法采用的子带谱减模型,本文方法采用的互子带谱减模型能够利用互子带滤波器来对不同子带之间的相互影响进行建模。本文方法利用复广义高斯分布建模期望信号,相比于常用的高斯分布,复广义高斯分布能够通过调整形状参数来描述语音信号的稀疏特性。在最大似然估计框架下,将语音去混响转化为关于互子带滤波器和子带滤波器的优化问题;并且基于替代最小化方法推导了保证收敛的优化算法。在不同混响时间、不同通道、不同声源和传声器距离情况下的一系列语音去混响实验验证了本文方法的性能显著优于传统去混响算法。
在密闭空间中,传声器采集到的语音信号不仅包括直达声,还包括早期反射声和后期混响
近年来,国内外研究学者在语音去混响领域取得了丰富的研究成果,提出了大量的语音去混响方
本文基于互子带谱减模型提出一种考虑语音信号稀疏特点的多通道线性预测语音去混响方法。本文方法采用互子带谱减模型获取期望信号,然后利用CGG声源模型来建模期望信号的分布。本文方法采用的互子带谱减模型考虑了不同子带之间的相互影响,因而比子带模型具有更小的建模误差。与Cohen等提出的方法相比,本文方法采用广义高斯分布来建模语音频谱的稀疏性,从而获得了更好的去混响性能。在最大似然估计的框架下,语音去混响问题被建模为子带和互子带多通道线性预测滤波器的优化问题。基于替代最小化方法推导了保证收敛的迭代优化算法。性能验证实验以及在不同混响时间、不同声源‑传声器距离和不同通道数量的声学场景下的对比实验验证了本文方法性能的优越性。
考虑在一个房间中利用传声器阵列拾取语音信号的场景。第1个传声器拾取的信号在时域可以被表示为
(1) |
式中:表示声源信号;“”表示卷积操作;表示房间脉冲响应。利用短时傅里叶变换,
(2) |
式中:为声源到参考传声器的阶滤波器的第个系数;上标*表示共轭;表示声源信号的短时傅里叶变换,并且表示频率索引,F表示频带数,表示时间帧索引,T表示总时间帧数。子带卷积模型(2)可被近似
(3) |
式中:为期望信号;M为传声器数量;为参考通道的MCLP滤波器系数;为延迟预测滤波器的阶数;为时间延迟。时间延迟的作用是降低预测信号和直达信号之间的相关
利用
(4) |
式中:为子带MCLP滤波器,=[,,,上标H表示共轭转置;;=[,,…,为第个通道延迟的观测信号,上标表示转置。因而只需求解出子带MCLP滤波器系数,便可以通过子带谱减模型(4)得到期望信号。
短时傅里叶变换的理
时域模型(1)在频域可以被表示为一系列互子带滤波器的
(11) |
式中表示互子带滤波器。
(12) |
相比于
(13) |
式中:表示每两个子带之间互子带MCLP滤波器的阶数;表示子带和子带之间的互子带多通道线性预测滤波器。
(14) |
式中:wf=为子带MCLP滤波器;wm,f=[,,…,H;=;=[,,…,为第个通道延迟的观测信号;为互子带MCLP滤波器;=[,; =[,,…,
为了更加准确地估计子带和互子带MCLP滤波器,本文方法采用复广义高斯分布来建模期望信号
(15) |
式中:为幅度参数;为形状参数;为gamma函数。当时,CGG分布退化为高斯分布。当形状参数时,CGG分布退化为拉普拉斯分布。形状参数反映了期望信号分布的稀疏程度,更小的形状参数导致了处出现更高的尖峰,这带来了更稀疏的先验分
将
(16) |
代价函数(16)引入了稀疏参数,所以不能直接采用MCLP滤波器的求解方式解得未知参数。本文采用MM算
首先利用MM算法优化
(17) |
式中为辅助变量。当且仅当时,
(18) |
式中当且仅当时等号成立。辅助函数是关于的二次函数,因而具有闭式解。联合求解子带MCLP滤波器和互子带MCLP滤波器,令得
(19) |
式中
(20) |
(21) |
(22) |
相比于WPE和CB‑WPE(Cross‑band WPE)方法中的归一化因子,所提方法采用的归一化因子通过形状参数能够有效地考虑语音信号的稀疏特性。
另外,观察到本文方法采用的归一化因子是WEP方法中归一化因子的广义形式。当,并且时,本文方法退化为传统的WPE方法,所以传统的WPE方法没有利用语音信号的稀疏特性;当,并且时,本文方法退化为CB‑WEP方法,因而本文方法相比于CB‑WPE方法能够考虑更多子带之间的互子带滤波器。总的来说,本文方法通过迭代地估计子带和互子带MCLP滤波器,能够最终通过互子带谱减模型(14)得到期望信号,本文方法被称为CB‑CGG‑WPE算法,算法1给出了所提方法的伪代码。
算法1 CB‑CGG‑WPE算法
参数设置: , , , , , , , ,
输入:
初始化: , ,
当 执行:
对于每一个频带和每一个时间帧,按照
对于每一个频带和每一个时间帧,按照
对于每一个频带,按照
对于每一个频带,按照
对于每一个频带,按照
结束
输出:
本文通过一系列实验来验证所提方法的性能。实验中从TIMIT数据集中随机选取了30段12 s长的源信号组成测试集。观测信号通过将测试集中的源信号和房间脉冲响应做卷积运算得到。本文利用镜像
场景 | 传声器数量 | 声源‑传声器间距/m |
---|---|---|
场景1 | 2 | 0.5 |
场景2 | 4 | 0.5 |
场景3 | 2 | 2.0 |
场景4 | 4 | 2.0 |
本文将所提方法与WP
为了证明本文方法的有效性,首先研究了所采用的互子带滤波器和复广义高斯分布的有效性。

图1 本文方法随着互子带MCLP滤波器参数Q和Lcb变化时取得的平均PESQ得分
Fig.1 Average PESQ scores obtained by the proposed method as a function of and

图2 本文方法随着形状参数β变化时取得的平均PESQ得分
Fig.2 Average PESQ scores obtained by the proposed method as a function of
图

图3 3种方法在4种场景下处理不同混响时间的语音信号时取得的平均PESQ提升值
Fig.3 Average PESQ score improvements obtained by three algorithms for different reverberation time in four cases

图4 3种方法在4种场景下处理不同混响时间的语音信号时取得的平均FWSNR提升值
Fig.4 Average FWSNR improvements obtained by three algorithms for different reverberation time in four cases

图5 3种方法在4种场景下处理不同混响时间的语音信号时取得的平均值CD提升值
Fig.5 Average CD improvements obtained by three algorithms for different reverberation time in four cases

图6 干净信号、观测的混响信号和3种方法去混响得到语音的时频谱
Fig.6 Speech spectrograms of clean, observed, and dereverberated speech signals using three different methods
本文在实录数据集上对比了几种去混响算法的性能。实录数据集包含了30条12 s长的带混响数据,这些数据是在包含两面玻璃墙的会议室由间距为8 cm的4元线阵录制,并且声源和线阵中心的距离为2 m。除了上文提到的两种基于统计信号处理的方法,本实验还增加了一种基于深度神经网络的SGMSE+方
方法 | PESQ | FWSNR | SRMR | CD | ESTOI |
---|---|---|---|---|---|
观测信号 | 0.98±0.15 | 1.82±1.07 | 1.25±0.10 | 8.29±0.37 | 0.24±0.02 |
WPE () | 1.08±0.12 | 2.20±1.23 | 1.50±0.13 | 8.10±0.40 | 0.28±0.02 |
CB‑WPE () | 1.08±0.13 | 2.22±1.22 | 1.50±0.13 | 8.10±0.40 | 0.29±0.02 |
CB‑CGG‑WPE () | 1.10±0.14 | 2.25±1.22 | 1.53±0.12 | 8.07±0.40 | 0.31±0.02 |
SGMSE+ () | 1.56+0.11 | 2.84+1.23 | 2.31+1.18 | 7.83+0.47 | 0.35+0.04 |
WPE () | 1.37±0.18 | 2.81±1.35 | 2.12±0.27 | 7.77±0.45 | 0.41±0.04 |
CB‑WPE () | 1.40±0.20 | 2.92±1.37 | 2.19±0.29 | 7.72±0.46 | 0.42±0.04 |
CB‑CGG‑WPE () | 1.53±0.24 | 3.08±1.36 | 2.40±0.33 | 7.62±0.47 | 0.47±0.03 |
子带滤波器长度 | 方法 | ||
---|---|---|---|
WPE | CB‑WPE | CB‑CGG‑WPE | |
1.43 | 1.85 | 2.43 | |
1.58 | 2.12 | 2.63 | |
1.70 | 2.28 | 2.79 | |
1.85 | 2.44 | 2.95 | |
2.13 | 2.64 | 3.12 | |
2.29 | 2.80 | 3.33 |
本文提出了一种同时利用互子带滤波器和语音稀疏特性的多通道线性预测语音去混响方法。首先利用互子带谱减模型获得期望信号,进而采用复广义高斯分布来建模语音谱的稀疏特性。在最大似然估计框架下,语音去混响问题被转化为关于子带和互子带滤波器的最优化问题。基于辅助函数技术,本文推导了保证收敛的优化算法来迭代地估计子带和互子带滤波器参数,发现本文方法具有更加广义的形式,传统的WPE和CB‑WPE方法可以看作是所提方法的两个特例。实验验证了本文方法采用的互子带滤波器以及稀疏声源模型的有效性。在不同混响时间、不同声源‑传声器距离、不同通道数量等场景下的一系列实验验证了本文方法比现有算法具有更好的性能。
参考文献
NAYLOR P A, NIKOLAY D. Speech dereverberation[M]. London: Springer‑Verlag, 2010. [百度学术]
齐园蕾. 语音去混响关键技术研究[M]. 北京:中国科学院声学研究所, 2020. [百度学术]
QI Yuanlei. Key technologies for speech dereverberation research[M]. Beijing: Institute of Acoustics, Chinese Academy of Sciences, 2020. [百度学术]
张雄伟, 李轶南, 郑昌艳, 等. 语音去混响技术的研究进展与展望[J]. 数据采集与处理, 2017, 32(6): 1069‑1081. [百度学术]
ZHANG Xiongwei, LI Yinan, ZHENG Changyan, et al. Speech dereverberation: Review of state-of-the-arts and prospects[J]. Journal of Data Acquisition and Processing, 2017, 32(6): 1069-1081. [百度学术]
齐园蕾, 杨飞然, 杨军. 基于卡尔曼滤波的低复杂度去混响算法[J]. 应用声学, 2018, 37(4): 559‑566. [百度学术]
QI Yuanlei, YANG Feiran, YANG Jun. Kalman filter based low-complexity dereverberation algorithm[J]. Applied Acoustics, 2018, 37(4): 559-566. [百度学术]
YOSHIOKA T, SEHR A, DELCROIX M, et al. Making machines understand us in reverberant rooms: Robustness against reverberation for automatic speech recognition[J]. IEEE Signal Processing Magazine, 2012, 29(6): 114‑126. [百度学术]
KINOSHITA K, DELCROIX M, GANNOT S, et al. A summary of the REVERB challenge: State‑of‑the‑art and remaining challenges in reverberant speech processing research[J]. EURASIP Journal on Advances in Signal Processing, 2016, 2016(1): 1‑19. [百度学术]
ZHANG J, PLUMBLEY M D, WANG W. Weighted magnitude‑phase loss for speech dereverberation[C]//Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Toronto, ON, Canada: IEEE, 2021: 5794‑5798. [百度学术]
戴礼荣, 张仕良. 深度语音信号与信息处理: 研究进展与展望[J]. 数据采集与处理, 2014, 29(2): 171‑179. [百度学术]
DAI Lirong, ZHANG Shiliang. Deep speech signal and information processing:Research progress and prospect[J]. Journal of Data Acquisition and Processing, 2014, 29(2): 171-179. [百度学术]
QI Y, YANG F, YANG J. A late reverberation power spectral density aware approach to speech dereverberation based on deep neural networks[C]//Proceedings of Asia‑Pacific Signal and Information Processing Association Annual Summit and Conference. Lanzhou, China: APSIPA, 2019: 1700‑1703. [百度学术]
RICHTER J, WELKER S, LEMERCIER K, et al. Speech enhancement and dereverberation with diffusion‑based generative models[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2023, 31: 2351‑2364. [百度学术]
张鹏程, 郭海燕, 王婷婷, 等. 基于联合图学习的多通道语音增强方法[J]. 数据采集与处理, 2023, 38(2): 283‑292. [百度学术]
ZHANG Pengcheng, GUO Haiyan, WANG Tingting, et al. Multi-channel speech enhancement based on joint graph learning [J]. Journal of Data Acquisition and Processing, 2023, 38(2): 283-292. [百度学术]
MALIK S, SCHMID D, ENZNER G . A state‑space cross‑relation approach to adaptive blind SIMO system identification[J]. IEEE Signal Processing Letters, 2012, 19(8): 511‑514. [百度学术]
SCHMID D, ENZNER G, MALIK S, et al. Variational Bayesian inference for multichannel dereverberation and noise reduction[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(8): 1320‑1335. [百度学术]
张航, 赵尚, 林志斌, 等. 基于多通道解卷积的车内声重放系统优化设计[J]. 南京大学学报(自然科学), 2021, 57(6): 1023‑1031. [百度学术]
ZHANG Hang, ZHAO Shang, LIN Zhibin, et al. Optimal design of automotive audio sound reproduction system based on multi-channel deconvolution[J]. Journal of Nanjing University(Natural Sciences), 2021, 57(6): 1023-1031. [百度学术]
KHONG W H, LIN X, NAYLOR P A. Algorithms for identifying clusters of near‑common zeros in multichannel blind system identification and equalization[C]//Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Las Vegas, NV, USA: IEEE, 2008: 389‑392. [百度学术]
SCHMID D, ENZNER G. Cross‑relation‑based blind SIMO identifiability in the presence of near‑common zeros and noise[J]. IEEE Transactions on Signal Processing, 2012, 60(1): 60‑72. [百度学术]
KINOSHITA K, DELCROIX M, NAKATANI T, et al. Suppression of late reverberation effect on speech signal using long‑term multiple‑step linear prediction[J]. IEEE Transactions on Audio, Speech and Language Processing, 2009, 17(4): 534‑545. [百度学术]
YOSHIOKA T, NAKATANI T. Generalization of multi‑channel linear prediction methods for blind MIMO impulse response shortening[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(10): 2707‑2720. [百度学术]
NAKATANI T, JUANG B H, YOSHIOKA T, et al. Speech dereverberation based on maximum‑likelihood estimation with time‑varying Gaussian source model[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2008, 16(8): 1512‑1527. [百度学术]
NAKATANI T, YOSHIOKA T, KINOSHITA K, et al. Speech dereverberation based on variance‑normalized delayed linear prediction[J]. IEEE Transactions on Audio Speech, and Language Processing, 2010, 18(7): 1717‑1731. [百度学术]
NAKATANI T, JUANG B H, YOSHIOKA T, et al. Importance of energy and spectral features in Gaussian source model for speech dereverberation[C]//Proceeding of IEEE International Conference on Acoustics, Speech and Signal Processing. New Paltz, NY, USA: IEEE, 2007: 299‑302. [百度学术]
JUKIC A, VAN WATERSCHOOT T, GERKMANN T, et al. Multi‑channel linear prediction‑based speech dereverberation with sparse priors[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2015, 23(9): 1509‑1520. [百度学术]
WITKOWSKI M, KOWALCZYK K. Split Bregman approach to linear prediction based dereverberation with enforced speech sparsity[J]. IEEE Signal Processing Letters, 2021, 28: 942‑946. [百度学术]
CHETUPALLI S, SREENIVAS T. Late reverberation cancellation using Bayesian estimation of multi‑channel linear predictors and student’s t‑source prior[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2019, 27(6): 1007‑1018. [百度学术]
JUKIC A, MOHAMMADIHA N, WATERSCHOOT T V, et al. Multi‑channel linear prediction‑based speech dereverberation with low‑rank power spectrogram approximation[C]//Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. South Brisbane, QLD, Australia: IEEE, 2015: 96‑100. [百度学术]
LEE D D, SEUNG H S. Learning the parts of objects by non‑negative matrix factorization[J]. Nature, 1999, 401(6755): 788‑791. [百度学术]
AVARGEL Y, COHEN I. System identification in the short‑time Fourier transform domain with crossband filtering[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(4): 1305‑1319. [百度学术]
刘杨, 杨飞然, 梁兆杰, 等. 基于卡尔曼滤波的STFT域回声抵消算法[J]. 声学技术, 2022, 41(5): 757‑762. [百度学术]
LIU Yang, YANG Feiran, LIANG Zhaojie, et al. Kalman filter based acoustic echo cancellation in the STFT domain[J]. Technical Acoustics, 2022, 41(5): 757-762. [百度学术]
LOHMANN T, WATERSCHOOT T, BITZER J, et al. Dereverberation in acoustic sensor networks using weighted prediction error with microphone‑dependent prediction delays[C]//Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Florence, Italy: IEEE, 2023: 1‑5. [百度学术]
ROSENBAUM T, COHEN I, WINEBRAND E. Crossband filtering for weighted prediction error‑based speech dereverberation[J]. Applied Sciences, 2023, 13(7): 9537. [百度学术]
SUN Y, BABU P, PALOMAR D P. Majorization‑minimization algorithms in signal processing, communications, and machine learning[J]. IEEE Transactions on Signal Processing, 2016, 65(3): 794‑816. [百度学术]
CVETKOVSKI Z. Inequalities: Theorems, techniques and selected problems[M]. Berlin Heidelberg: Springer, 2012: 74‑75. [百度学术]
ALLEN J B, BERKLEY D A. Image method for efficiently simulating small‑room acoustics[J]. The Journal of the Acoustical Society of America, 1979, 65(4): 943‑950. [百度学术]
JULIUS R, SIMON W, JEAN‑MARIE L, et al. Speech enhancement and dereverberation with diffusion‑based generative models[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2023, 31: 2351‑2364. [百度学术]