摘要
退化解混和估计(Degenerate unmixing estimation technique,DUET)算法是一种典型的欠定盲源分离算法,其采用的二进制时频掩蔽会保留部分干扰信号。提出了基于两步单源点筛选的改进DUET算法,首先使用余弦角算法进行单源点筛选,再采用计算相似度的方法进行第二步单源点筛选。通过两步单源点筛选获得更精确的目标信号和干扰信号后,设计用于抵消干扰信号的滤波器取代DUET中的二进制时频掩蔽,达到抑制干扰信号和提取目标信号的目的。仿真实验结果表明,该方法在正定盲源分离和欠定盲源分离两种情况下都有较优的盲源分离性能。
关键词
盲源分离(Blind source separation, BSS)是一种无需先验信息,能够通过观测得到的混合信号进行识别、分析并分离源信号的热门方法。近年来,在语音信号处理领域,BSS方法得到广泛研究应
在欠定盲源分离中,从语音信号在变换域的稀疏特性入手实现盲源分离是近年来的主要研究方
退化解混和估计(Degenerate unmixing estimation technique, DUET)算
近年来,基于深度学习的UBSS方法也取得了很大的进展,Luo
本文研究了一种对单源点进行两步筛选的改进DUET算法。首先,考虑到在传统DUET算法中二进制时频掩蔽过于绝对,故采用抵消的思想以去除干扰信号,改进目标信号的提取质量;其次,通过在时频域进行单源点的两步筛选来获取干扰信号和目标信号的信息:第一步使用余弦角算法进行单源点筛选,随后为消除第一步单源点筛选后仍保留的干扰点和偏差点,采用计算相似度的方法进行第二步单源点筛选。
DUET算法解决2个麦克风收集到N个源信号的盲源分离问题,其基本模型如

图1 DUET模型
Fig.1 DUET model
为了降低计算复杂度,采用线性无回声混合模
(1) |
式中:t=1,2,…,T表示离散时刻;以麦克风1作为参考信号,αj和δj分别表示针对第j个源信号,麦克风2采集到的语音信号相对于麦克风1采集到的语音信号的相对衰减和相对时延。随后通过STFT将信号从时域变换到时频域,sj(t)的STFT变换表示为
(2) |
式中:Sj(τ,ω),j∈1,2,…,N表示第j个源信号经过STFT后的时频域表达,W[•]为STFT变换,τ表示时间帧索引,ω表示离散频率点索引。
根据语音信号具有局部平稳性,选取合适的STFT窗长度后,
(3) |
(4) |
式中:X1(τ,ω)、X2(τ,ω)分别对应两个麦克风收集到的混合语音信号x1(t)、x2(t)经过STFT后的时频表示。
由于语音信号在时频域中的能量分布具有稀疏性,通常情况下,多个源信号不会在同一个时频点具有较大能量。换句话说,针对大多数时频点,存在一个源信号的系数远大于其他源信号,即
(5) |
式中:Ωj为第j个源信号占主导地位的集合。DUET算法假设语音信号近似符合W‑DO特性,即对任意属于Ωj的时频点,只有一个源信号占主导地位,多个源信号的作用域互不交
(6) |
式中:j表示在该时频点占主导地位所对应源序号。观察
(7) |
式中:|•|为取复数的模值,∠(•)为取复数的角。
将所有时频点的相对衰减‑相对时延混合参数对结合最大似然(Maximum likelihood, ML)法构建二维直方
(8) |
根据
(9) |
最后,将麦克风1收集到的混合信号X1(τ,ω)分离,表达式为
(10) |
在DUET算法中,W‑DO的假设对于分离源太过绝对,导致采用
(11) |
式中(•
(12) |
式中:为第j个源信号对应的干扰信号样本协方差矩阵,w中的w1=1即保留第1个麦克风收集到的信号作为参考信号,以此来求解每个源信号对应的干扰抑制响应滤波器权值。
由于在盲信号分离中,干扰信号是未知的,不能直接求得uj,因此可以通过筛选单源点间接求得,如
(13) |
式中:µ为给定接近度误差。由于这种方法并未直接进行单源点的筛选计算,而是根据接近度判断,故将这种方法称为DUET‑ISR。
通过DUET‑ISR筛选的单源点会保留部分接近度相近的干扰信号,故提出采用两步单源点筛选方法,为与上述方法作区分,将此方法称为DUET‑SSPs。如果某个时频点(τ,ω)是单源点,则观测信号X(τ,ω)在时频域实部和虚部方向是一致
(14) |
式中:R{•}表示实部,I{•}表示虚部,|•|表示绝对值,‖•‖表示模值,cos(Δθ)为设定的单源点筛选阈值,当给定时频点的ρ(τ,ω)大于筛选阈值,将该点视为单源点。
文献[
(15) |
式中:Xj(τ,ω),j∈1,2,…,N为DUET算法中通过二维直方图选取的第j个峰值中心所对应的观测信号,Xi(τ,ω)为除Xj(τ,ω)外,经过第一步单源点筛选确定的单源点观测信号,即符合
当时频点同时满足式(
(16) |
式中:(•
实验中使用的语音源信号来自于SiSEC2011数据
实验选取N=2、3、4三种情况,当N=2,即正定盲源分离,比较了4种算法:DUET、独立低秩矩阵分析(Independent low‑rank matrix analysis, ILRMA
算法 | 窗长 | 帧移 | 基的数量 | 迭代次数 | µ | ||
---|---|---|---|---|---|---|---|
DUET | 1 024 | 256 | |||||
DUET‑ISR | 1 024 | 256 | 0.05 | ||||
DUET‑SSPs | 1 024 | 256 | 0.6 | 0.001 | |||
ILRMA | 4 096 | 2 048 | 2 | 200 |
算法 | 窗长 | 帧移 | 源的组件个数 | µ | ||
---|---|---|---|---|---|---|
DUET | 1 024 | 256 | ||||
DUET‑ISR | 1 024 | 256 | 0.05 | |||
DUET‑SSPs | 1 024 | 256 | 0.7,0.9 | 0.001 | ||
MULTINMF | 2 048 | 512 | 10 |
采用盲源分离评估工具包(Blind source separation evaluation toolbox, BSS_EVAL toolbox
(17) |
(18) |
(19) |
(20) |

图2 130 ms和250 ms混响时间下两个声源混合的性能对比
Fig.2 Performance comparison of two-source mixture in the presence of 130 ms and 250 ms reverberation time

图3 130 ms和250 ms混响时间下3个声源混合的性能对比
Fig.3 Performance comparison of three-source mixture in the presence of 130 ms and 250 ms reverberation time

图4 130 ms和250 ms混响时间下4个声源混合的性能对比
Fig.4 Performance comparison of four-source mixture in the presence of 130 ms and 250 ms reverberation time
同时对比

图5 250 ms混响时间下4个语音信号混合分离出的语音信号语谱图对比
Fig.5 Comparison of a separated source spectrograms of four-source mixture in the presence of 250 ms reverberation time

图6 130 ms和250 ms混响时间下不同声源个数的PESQ得分
Fig.6 PESQ scores for different numbers of source mixture in the presence of 130 ms and 250 ms reverberation time

图7 130 ms和250 ms混响时间下不同混合源个数的两次单源点筛选的性能对比
Fig.7 Average BSS performance comparison of different numbers of source mixture in the presence of 130 ms and 250 ms reverberation time
文献[

图8 混合信号散点图
Fig.8 Scatter plot of mixed signal
本文研究了一种基于两步单源点筛选的DUET改进算法。不同于DUET算法中的二进制时频掩蔽,本文利用抵消思想,根据干扰信号设计滤波器,进行干扰信号的抑制。为获得干扰信号的准确信息,通过两步法进行单源点的筛选,第一步采用余弦角算法筛选单源点,第二步将筛选出来的单源点与DUET算法中确定的峰值中心进行相似度比较,去除第一步遗留下的偏差点和干扰点,随后通过筛选单源点间接获得的干扰信号信息,计算滤波器的权值,实现源信号的分离。仿真实验结果表明,面对源个数不同的混合语音信号,相较已有的BSS算法,所提出基于两步单源点筛选的改进DUET方法能更有效地解决欠定盲源分离问题,且分离的语音质量也相对较高,同时在正定盲源分离情况下也有一定的优势。
参 考 文 献
GANNOT S, VINCENT E, MARKOVICH-GOLAN S, et al. A consolidated perspective on multimicrophone speech enhancement and source separation[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2017, 25 (4): 692-730. [百度学术]
WANG L, CAVALLARO A. A blind source separation framework for ego-noise reduction on multi-rotor drones[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2020, 28: 2523-2537. [百度学术]
ALBATAINEH Z, SALEM F M. A robust ICA-based algorithmic system for blind separation of convolutive mixtures[J]. International Journal of Speech Technology, 2021, 24: 701-713. [百度学术]
李康宁,郭永刚,王肃静,等.一种并行主偏度分析算法及其在盲源分离上的应用[J].数据采集与处理,2020,35(5): 910-919. [百度学术]
LI Kangning, GUO Yonggang, Wang Sujing, et al. A parallel principal skewness analysis algorithm and its application to blind source separation[J]. Journal of Data Acquisition and Processing, 2020,35(5): 910-919. [百度学术]
李雅凤. 基于时频稀疏性的欠定盲源语音信号分离技术研究[D]. 成都: 电子科技大学,2016. [百度学术]
LI Yafeng. Research on underdetermined blind speech separation based on sparsity in time-frequency domain[D]. Chengdu: School of Electronic Engineering, 2016. [百度学术]
HASSAN N, RAMLI D A. Sparse component analysis (SCA) based on adaptive time‑frequency thresholding for underdetermined blind source separation (UBSS)[J]. Sensors, 2023, 23(4): 2060. [百度学术]
ZHU Zhanyu, CHEN Xingjie, LV Zhaomin. Underdetermined blind source separation method based on a two-stage single-source point screening[J]. Electronics, 2023, 12(10): 2185. [百度学术]
JOURJINE A, RICKARD S, YILMAZ O. Blind separation of disjoint orthogonal signals: Demixing N sources from 2 mixtures[C]//Proceedings of 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing. [S. l.]: IEEE, 2000: 2985-2988. [百度学术]
RICKARD S. The DUET blind source separation algorithm[M]. Dordrecht: [s. n.], 2007: 217-241. [百度学术]
陈斌杰. 基于双麦克风的室内语音分离与声源定位研究[D]. 宁波: 宁波大学, 2019. [百度学术]
CHEN Binjie. Indoor speech separation and sound source localization based on dual microphone[D].Ningbo: Ningbo University, 2019. [百度学术]
ABDULLA S M, JAYAKUMARI J. Improving time‑frequency sparsity for enhanced audio source separation in degenerate unmixing estimation technique algorithm[J]. Journal of Control and Decision, 2022, 9(4): 502-515. [百度学术]
LIAN K Y, LIN J H. Unique methods for determining the attenuation and delay in blind source separation based on the degenerate unmixing estimation technique[J]. IEEE Access, 2021, 9: 129460-129470. [百度学术]
孙庆强. 基于稀疏性的欠定语音盲分离方法研究[D]. 南京: 南京大学, 2018. [百度学术]
SUN Qingqiang. Research on underdetermined speech blind separation based on sparsity[D]. Nanjing: Nanjing University, 2018. [百度学术]
HE Yudong, HE Wang, CHEN Qifeng, et al. Harvesting partially-disjoint time-frequency information for improving degenerate unmixing estimation technique[C]//Proceedings of 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). [S. l.]: IEEE, 2022: 506-510. [百度学术]
LUO Y, HAN C, MESGARANI N, et al. FaSNet: Low-latency adaptive beamforming for multi-microphone audio processing[C]//Proceedings of 2019 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). [S.l.]:IEEE, 2019: 260-267. [百度学术]
GRUTTADAURIA E, FONTAINE M, ESSID S. Online speaker diarization of meetings guided by speech separation[C]//Proceedings of 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). [S. l.] IEEE, 2024: 11356-11360. [百度学术]
陈纯增. 基于宽间距麦克风阵列的多声源测向方法研究[D].南京: 南京理工大学, 2017. [百度学术]
CHEN Chunzeng. Research on the direction-of-arrival estimation method for multiple sound sources based on wide-spaced microphone arrays [D]. Nanjing: Nanjing University of Science and Technology, 2017. [百度学术]
YILMAZ O, RICKARD S. Blind separation of speech mixtures via time-frequency masking[J]. IEEE Transactions on Signal Processing, 2004, 52(7): 1830-1847. [百度学术]
WANG Yang, ZHOU Zhengfang. Source extraction in audio via background learning[J]. Inverse Problems & Imaging, 2013, 7(1): 283. [百度学术]
REJU V G, KOH S N, SOON Y. An algorithm for mixing matrix estimation in instantaneous blind source separation[J]. Signal Processing, 2009, 89(9): 1762-1773. [百度学术]
ARAKI S, NESTA F, VINCENT E, et al. The 2011 signal separation evaluation campaign (SiSEC2011):-audio source separation [C]//Latent Variable Analysis and Signal Separation. [S. l.] : Springer Berlin Heidelberg, 2012: 414-422. [百度学术]
KITAMURA D, ONO N, SAWADA H, et al. Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(9): 1626-1641. [百度学术]
OZEROV A, FÉVOTTE C. Multichannel nonnegative matrix factorization in convolutive mixtures for audio source separation [J]. IEEE Transactions on Audio, Speech, and Language Processing, 2009, 18(3): 550-563. [百度学术]
FÉVOTTE C, GRIBONVAL R, VINCENT E. BSS_EVAL toolbox user guide--Revision 2.0[Z]. 2005. [百度学术]
RIX A W, BEERENDS J G, HOLLIER M P, et al. Perceptual evaluation of speech quality (PESQ)—A new method for speech quality assessment of telephone networks and codecs[C]//Proceedings of 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing. [S. l.]: IEEE, 2001: 749-752. [百度学术]