摘要
与传统声源定位算法如相位变换加权、时延累加定位不同,压缩感知麦克风阵列声源定位算法可将声源定位转化为稀疏重构问题从而获得较高的性能。但在实际应用环境下,由于远场声源自身指向性、空间混响等原因,声源方向向量往往呈现块稀疏度结构,导致采用传统稀疏恢复算法如正交匹配追踪算法(Orthogonal matching pursuit,OMP)等进行压缩感知定位性能下降。本文在压缩感知声源定位算法中引入块稀疏似零范数,以压缩感知为基本框架,采用块稀疏似零范数稀疏恢复进行声源方向向量的重构,获取声源的方位。实验结果表明,相较于传统声源定位算法和基于OMP的压缩感知声源定位算法,本文算法具有更高的定位精度。
随着音/视频会议、语音增强和智能家居系统等领域需求的不断提升,麦克风阵列已成为语音信号研究领域的热点,而良好的声源定位技术是保证麦克风阵列具有较好工作性能的前提。传统的声源定位算法主要分为基于最大输出功率的可控波束形成的定位算
可控波束形成的定位算法对语音信号和噪声信号的频谱特性有较强的依赖性,运算量复杂,使得该算法的应用范围较
近年来,随着压缩感知领域的不断发展,压缩感知也逐渐被应用于麦克风阵列声源定位中。Wang
在传统压缩感知理
文献[
本文针对麦克风阵列实际应用,在压缩感知算法的基础上,考虑到远场声源自身的指向性不够尖锐、混响等因素,引入块稀疏似零范数进行声源方向向量重构,进而获取目标声源方位。实验结果表明:该方法相比于传统的声源定位算法和基于OMP的压缩感知声源定位算法具有更高的定位精度。
对于室内远场环境,令元麦克风阵列的第个麦克风的接收信号为,则
(1) |
式中:表示时间坐标;表示声源位置到第个麦克风的房间传输响应;表示声源位于处的语音信号;表示第个麦克风接收到的噪声信号。麦克风信号在频域下可表示为
(2) |
式中分别为的离散傅里叶变换,可用矢量表示为
(3) |
式中:为频域的麦克风接收信号矢量;为声源位置处的房间频域响应矢量,为频域的噪声矢量。
令声源的空间位置集为,其中空间位置集个数远大于目标声源个数,则冗余的房间频域响应矩阵为
(4) |
将冗余的房间频域响应矩阵称为字典,式(3)可改写为
(5) |
式中表示字典下扩展的频域声源信号矩阵。因为目标声源的个数远小于空间位置集的个数,故扩展的频域声源信号矢量在空间位置集下具有稀疏性,且在单声源情况下,矢量中的非零元素仅有一个。利用OMP算法可以求解,则中的非零元素所对应的空间位置即为目标声源的方向。
文献[

图1 稀疏模型结构示意图
Fig.1 Illustration of sparse model structure
对于源信号向量,其块稀疏度定义为
(6) |
式中:表示对向量求欧式范数,supp表示对应向量的支持集,表示支持集的个数。式(6)表示源信号向量非零稀疏块的个数,且,其中为块长度,并假设共有个块。用表示第个块,则
(7) |
若满足,称为块稀疏度为的信号。
由式(5)可得,源信号向量的块稀疏信号恢复可表示为
(8) |
式中是与噪声能量有关的非负实数。BAL0算法则首先对信道进行分块并对所分块进行块稀疏识别,最后对所选稀疏块进行抽头估计。
考虑到源信号向量的复数域情况,定义一个计算块稀疏的函数为
(9) |
式中:;表示大小为的全1矩阵;表示求克罗内克乘积。采用两步策略解决块稀疏优化问题:首先,采用复数梯度下降法搜索最小块稀疏解;然后再将最小块稀疏解投影到最小二范数的可行集空间。采用复数梯度下降法求第步最小块稀疏可解得
(10) |
式中:;“”表示求阿达玛乘积;是步长初始值,迭代中令为步长,并令其逐步减小;表示稀疏恢复初始解的最大抽头绝对值。
文献[
(11) |
迭代过程为
(12) |
更新:。设为终止阈值,则当时,停止迭代并输出估计结果。
为了验证本文算法的有效性,在厦门大学翔安校区希平楼大厅进行了麦阵声源定位实验。大厅尺寸为16 m×16 m×3 m,为较典型的办公、家用结构,墙壁和地面均为大理石和瓷砖并有若干玻璃门窗分布。实验采用七元麦克风均匀圆形阵列,阵列直径为15 cm。实验语音信号为测试者语音声信号。声源距离麦阵为5 m,设置声源以间隔15°分别放置在环绕1周的24个不同方向进行麦克风阵列声源定位测试。语音信号原始信噪比为11.58 dB,实验中通过叠加实录背景环境噪声构成不同信噪比的测试语音,用于评估分析不同信噪比下的各种定位算法的定位性能。
实验比较了时延累加算法(Delay⁃and⁃sum,DS)、SRP⁃PHAT算法、OMP压缩感知方法和本文BAL0压缩感知定位算法(下文简称BAL0算法)的性能。实验中用到的参数如
实验变量 | 参数值 |
---|---|
采样率/kHz | 16 |
FFT长度/点 | 128 |
信号处理帧长/点 加窗 |
128 汉明窗 |
本文对实际采集到的信号进行指向性分析处理,结果如
(13) |

图2 指向性分析结果
Fig.2 Directivity analysis result
式中:为算法得到的定位角度值,为声源的真实角度值; 为DOA算法分辨的空间角度数。
不同信号信噪比下各种算法的DOA性能评估值RMSE如
信噪比(SNR)/dB | RMSE/(°) | |||
---|---|---|---|---|
DS算法 | SRP⁃PHAT算法 | OMP算法 | BAL0算法 | |
11.58 | 1.27 | 4.01 | 3.41 | 0.77 |
5.56 | 1.35 | 4.03 | 3.54 | 0.77 |
2.03 | 1.65 | 4.07 | 5.62 | 1.11 |
实验还针对本文算法的部分参数的敏感性进行分析评估,包括使用不同语音信号频点数以及不同块搜索长度下的BAL0算法的定位性能分析。由于人说话的语音信号频率主要分布在300~3 400 Hz,对接收语音信号选用合适的频点数,可以充分利用人语音信号的频率特性,更好地对声源方向向量进行稀疏恢复。同时,不同搜索块长度会影响到算法对块稀疏多径特征的检测性能,进而影响到算法声源方向向量的稀疏恢复能力。
采用不同语音信号频点数下BAL0算法的DOA性能如
频点数 | RMSE/(°) |
---|---|
8 | 0.83 |
10 | 0.81 |
12 | 0.78 |
14 | 0.77 |
16 | 0.77 |
18 | 3.64 |
20 | 3.64 |
采用不同搜索块长度下的BAL0算法的DOA性能如
搜索块长度 | RMSE/(°) |
---|---|
1 | 2.49 |
2 | 0.86 |
3 | 0.77 |
4 | 0.85 |
本文还对各种算法的计算复杂度进行比较。在算法参数设置不变的情况下,基于WIN7的64位机操作系统和MATLAB(R2008a)版本进行了算法运行时间的测试。测试硬件配置为:英特尔酷睿i5处理器3.30 GHz,内存16 GB。测试时将每种算法运行4次后,分别记录运行时间并求平均,得到的算法运行时间如
算法 | DS | SRP⁃PHAT | OMP | BAL0 |
---|---|---|---|---|
运行时间 | 0.905 | 1.051 | 62.632 | 80.103 |
由于声源方向向量具有稀疏性,压缩感知技术被引入用于麦克风阵列声源方向估计。但是在麦克风阵列远场声源定位实际应用场景中,考虑到声源具有一定的波束宽度以及存在混响等因素导致声源方向向量稀疏度呈现块稀疏分布特征的特点,引入块稀疏似零范数进行声源方向向量的压缩感知稀疏估计来改善稀疏恢复性能,提高定位性能。实验结果验证了本文方法的有效性,且本文方法在较低信噪比情况下,具有较好的鲁棒性。
参考文献
Wax M, Kailath T. Optimum localization of multiple sources by passive arrays[J]. IEEE Transactions on Acoustics Speech & Signal Processing, 1983, 31(5): 1210⁃1217.
Bechler D, Kroschel K. Reliability criteria evaluation for TDOA estimates in a variety of real environments[C]// 2005 IEEE International Conference on Acoustics, Speech, and Signal Processing. Philadelphia, USA: IEEE, 2005: 985⁃988..
Krim B H, Viberg M. Two decades of array signal processing research: The parametric approach[J]. IEEE Signal Processing Magazine, 1996, 4(13): 67⁃94.
Silverman H F, Kirtman S E. A two⁃stage algorithm for determining talker location from linear microphone array data[J]. Computer, Speech, and Language. 1992, 2(6): 129⁃152.
李芳兰,周跃海,童峰,等. 采用可调波束形成器的GSC麦克风阵列语音增强方法[J]. 厦门大学学报(自然科学版),2013, 52(2): 186⁃189.
Li Fanglan, Zhou Yuehai, Tong Feng, et al. Microphone array speech enhancement based on adjustable beamformer generalized sidelobe canceller[J]. Journal of Xiamen University(Natural Science), 2013, 52(2): 186⁃189.
Chen J C, Yao K, Hudson R E. Source localization and beamforming[J]. IEEE Signal Processing Magazine, 2002, 19(2): 30⁃39.
Wang B, Zhang Y D, Wang W. Robust group compressive sensing for DOA estimation with partially distorted observations[J]. Eurasip Journal on Advances in Signal Processing, 2016, 2016(1): 128⁃138.
Wan X, Wu Z. Sound source localization based on discrimination of cross⁃correlation functions[J]. Applied Acoustics, 2013, 74(1): 28⁃37.
赵小燕,周琳,吴镇扬. 基于压缩感知的麦克风阵列声源定位算法[J]. 东南大学学报(自然科学版),2015, 45(2): 203⁃207.
Zhao Xiaoyan, Zhou Lin, Wu Zhenyang. Compressed sensing⁃based sound source localization algorithm for microphone array[J]. Journal of Southeast University (Natural Science), 2015, 45(2): 203⁃207.
刘浩, 尹忠科, 王建英. 正交匹配跟踪(OMP)算法的收敛性研究[J]. 微计算机信息, 2008, 24(3): 153, 215⁃216.
Liu Hao, Yin Zhongke, Wang Jianying. Convergence research of orthogonal matching pursuit algorithm[J]. Microcomputer Information, 2008, 24(3): 153, 215⁃216.
Tan Y. Sound localization method using modified SRP⁃PHAT algorithm[J]. Journal of Electronics & Information Technology, 2006, 28(7): 1223⁃1227.
Takigawa I, Kudo M, Toyama J. Performance analysis of minimum l1⁃norm solutions for underdetermined source separation[J]. IEEE Transactions on Signal Processing, 2004, 52(3): 582⁃591.
伍飞云, 童峰. 块稀疏水声信道的改进压缩感知估计[J]. 声学学报, 2017, 42(1): 27⁃36.
Wu Feiyun, Tong Feng. Efficient compressed sensing estimation of block sparse underwater acoustic channels[J]. Acta Acustica, 2017, 42(1): 27⁃36.
Eldar Y C, Kuppinger P, Bolcskei H. Compressed sensing for block⁃sparse signals: Uncertainty relations, coherence, and efficient recovery[J]. IEEE Transaction on Signal Processing, 2010, 58(6): 3042⁃3054.
Gangnly A, Reddy C, Hao Y, et al. Improving sound localization for hearing aid devices using smartphone assisted technology[C]// 2016 IEEE International Workshop on Signal Processing Systems. Dallas, USA: IEEE, 2016: 165⁃170.