语音（水声）信号处理

2022, 37(2):437-445. DOI: 10.16337/j.1004-9037.2022.02.016

[摘要](759) [HTML](1178) [PDF 684.84 K](1825)

摘要:
声学回声消除中存在的双端讲话情况会导致回声消除器的性能发生恶化，而传统的双端话音检测及其控制算法无法有效应对双讲。针对这一问题，提出一种根据频谱信扰比（近端话音功率谱值和回声功率谱值之比）调整自适应步长的方法。为减少计算量以及降低处理时延，采用分段频域块最小均方（Partitioned frequency block least mean square， PFBLMS）算法作为自适应滤波算法，因而系统的自适应步长在频域上进行调整。首先建立频谱信扰比和相干函数之间的关系，通过计算出的相干函数值得到步长因子，最后根据步长因子实时调整每个频点的自适应步长。此外，还结合双滤波器和稀疏控制算法进一步提高系统的鲁棒性和收敛性能。仿真实验表明，该系统在双讲状态下依然能够保证良好的回声抑制能力，并能够及时跟踪回声信道的变化。相比于基于归一化互相关函数的双端话音检测算法以及开源项目Speex中的回声消除算法，系统在双讲情况下的回波抑制比（Echo return loss enhancement， ERLE）和语音质量得分（Perceptual evaluation of speech quality， PESQ）均有所提高。

2 融合LSTM-GRU网络的语音逻辑访问攻击检测

杨海涛，王华朋，牛瑾琳，楚宪腾，林暖辉

2022, 37(2):396-404. DOI: 10.16337/j.1004-9037.2022.02.012

[摘要](630) [HTML](1543) [PDF 1.13 M](1797)

摘要:
为进一步提高语音欺骗检测的准确率，提出一种融合LSTM-GRU网络的语音逻辑访问攻击（语音转换、语音合成）检测方法。融合LSTM-GRU网络是由长短期记忆网络（ Long short-term memory，LSTM）层、门控循环神经单元（Gated recurrent unit，GRU）层、丢弃层、批归一化层和全连接层串联结合的一种混合网络，其中LSTM层可以解决语音序列中的长时依赖问题，GRU层则可降低模型参数量。实验在ASVspoof2019 LA数据集上进行，提取20维的梅尔倒谱系数特征用于模型训练，在测试阶段使用训练好的LSTM-GRU模型对测试集中的语音进行欺骗检测。与GRU网络及LSTM网络的比较结果表明：LSTM-GRU网络在3种网络模型中正确识别率最高，等错误率（Equal error rate， EER）比ASVspoof2019挑战赛所提供基线系统低27.07%，对逻辑访问攻击语音检测的平均准确率达到98.04%，并且融合LSTM-GRU网络具备训练时间短、防止过拟合及稳定性高等优点。结果证明本文方法可有效应用于语音逻辑访问攻击检测任务中。

3 基于深度残差收缩网络多特征融合语音情感识别

李瑞航，吴红兰，孙有朝，吴华聪

2022, 37(3):542-554. DOI: 10.16337/j.1004-9037.2022.03.005

[摘要](827) [HTML](479) [PDF 1.62 M](1922)

摘要:
针对语音情感识别任务中说话者的差异性，计算谱特征的一阶差分、二阶差分组成三通道的特征集输入二维网络。结合卷积神经网络、双向长短时记忆网络以及注意力机制建立基线模型，引入深度残差收缩网络分配二维网络中的通道权重，进一步提高语音情感识别的精度。为提升模型的学习效果，采取特征层融合（特征向量并行和特征向量拼接两种方式）和决策层融合（平均得分和最大得分两种方式）等不同信息融合机制。结果表明：（1）特征层融合中的特征向量并行策略是更有效的方式；（2）本文提出模型在CASIA和EMO-DB数据库下分别取得了84.93%和86.83%的未加权平均召回率（Unweighted average recall， UAR），相较于基线模型，引入深度残差收缩网络后的模型在CASIA和EMO-DB数据库上的未加权召回率分别提高5.3%和6.2%。

4 基于Tacotron模型和韵律修正的情感语音合成方法

张昕，胡航烨，曹欣怡，王蔚

2022, 37(4):909-916. DOI: 10.16337/j.1004-9037.2022.04.018

[摘要](771) [HTML](1028) [PDF 1.78 M](2088)

摘要:
语音合成技术日趋成熟，为了提高合成情感语音的质量，提出了一种端到端情感语音合成与韵律修正相结合的方法。在Tacotron模型合成的情感语音基础上，进行韵律参数的修改，提高合成系统的情感表达力。首先使用大型中性语料库训练Tacotron模型，再使用小型情感语料库训练，合成出具有情感的语音。然后采用Praat声学分析工具对语料库中的情感语音韵律特征进行分析并总结不同情感状态下的参数规律，最后借助该规律，对Tacotron合成的相应情感语音的基频、时长和能量进行修正，使情感表达更为精确。客观情感识别实验和主观评价的结果表明，该方法能够合成较为自然且表现力更加丰富的情感语音。

5 基于临界频带的交互性双支路单通道语音增强模型

叶中付，赵紫微，于润祥

2023, 38(2):262-273. DOI: 10.16337/j.1004-9037.2023.02.003

[摘要](426) [HTML](451) [PDF 1.25 M](1225)

摘要:
针对目前主流的双支路单通道语音增强方法只关注全频带信息而忽略子频带信息这一问题，设计了一种基于人耳临界频带的交互性双支路模型。主要做法为，在复数谱支路上实施模拟人耳临界频带的划分方法对信号进行分频带处理，提取子带信息；在幅度补偿支路上直接对信号的全频带进行处理，提取全频带信息。复数谱支路负责初步恢复干净语音的幅度和相位，同时，该支路上学到的子带中间特征会被特定的模块传递给幅度补偿支路进行补偿；幅度补偿支路上的输出会对复数谱支路上输出的幅度做进一步的补偿，达到恢复干净语音频谱的目的。实验结果表明，提出的模型在恢复语音质量和可懂度方面优于其他先进的单通道语音增强模型。

6 一种轻量级全频带语音增强网络模型

胡沁雯，侯仲舒，乐笑怀，卢晶

2023, 38(2):274-282. DOI: 10.16337/j.1004-9037.2023.02.004

[摘要](893) [HTML](490) [PDF 1.31 M](1324)

摘要:
基于深度神经网络的全频带语音增强系统面临着计算资源需求高以及语音在各频段分布不平衡的困难。本文提出了一种轻量级全频带网络模型。该模型在双路径卷积循环网络模型的基础上，利用可学习的频谱压缩映射对高频段频谱信息进行有效压缩，同时利用多头注意力机制对频域的全局信息进行建模。实验结果表明本文模型只需0.89×10⁶的参数即可实现有效的全频带语音增强，验证了本文模型的有效性。

7 多尺度富有表现力的汉语语音合成

高洁，肖大军，徐遐龄，刘绍翰，杨群

2023, 38(6):1458-1468. DOI: 10.16337/j.1004-9037.2023.06.019

[摘要](517) [HTML](278) [PDF 1.51 M](730)

摘要:
常见的增强合成语音表现力方法通常是将参考音频编码为固定维度的韵律嵌入，与文本信息一起输入语音合成模型的解码器，从而向语音合成模型中引入变化的韵律信息，但这种方法仅提取了音频整体级别的韵律信息，忽略了字或音素级别的细粒度韵律信息，导致合成语音依然存在部分字词发音不自然、音调语速平缓的现象。针对这些问题，本文提出一种基于Tacotron2语音合成模型的多尺度富有表现力的汉语语音合成方法。该方法利用基于变分自编码器的多尺度韵律编码网络，提取参考音频整体级别的韵律信息和音素级别的音高信息，然后将其与文本信息一起输入语音合成模型的解码器。此外，在训练过程中通过最小化韵律嵌入与音高嵌入之间的互信息，消除不同特征表示之间的相互关联，分离不同特征表示。实验结果表明，该方法与单一尺度的增强表现力语音合成方法相比，听力主观平均意见得分提高了约2%，基频F₀帧错误率降低了约14%，该方法可以生成更加自然且富有表现力的语音。

8 基于倒谱图像的语音回声隐写分析方法

唐军豪，杜庆治，龙华，邵玉斌，李一民

2023, 38(6):1469-1481. DOI: 10.16337/j.1004-9037.2023.06.020

[摘要](461) [HTML](280) [PDF 2.88 M](971)

摘要:
语音信号回声隐写后其倒谱系数会在回声延迟出产生峰值，传统回声隐写分析主要采用倒谱系数的统计特征作为隐写检测特征，然而在低回声幅度时隐写信号倒谱系数的峰值并不明显，基于统计特征的方法检测性能并不理想。本文将倒谱分析与图像识别技术结合，提出了一种基于倒谱图像的语音回声隐写分析方法，对语音信号分帧加窗后进行倒谱计算，然后以时间为横轴，倒谱序列点为纵轴，倒谱系数幅值为灰度级生成倒谱图像，将生成的倒谱图像作为隐写检测的输入，采用残差神经网络作为分类器进行回声隐写分析。实验结果表明，在3种经典回声隐写算法上低回声幅度时检测准确率分别达到98.2%、98.6%和96.1%，本文方法在低回声幅度时检测准确率相较传统回声隐写分析方法有较大提升，解决了传统回声隐写分析方法在低回声幅度检测效果不佳的问题。

9 基于声学模型共享的零资源韩语语音识别

王皓宇，JEON Eunah，张卫强，李科，黄宇凯

2023, 38(1):93-100. DOI: 10.16337/j.1004-9037.2023.01.007

[摘要](589) [HTML](504) [PDF 1.22 M](1691)

摘要:
精准的语音识别系统通常使用大量的有标注语音数据训练得到，但现有的开源大规模数据集只包含一些广泛使用的语言，诸多小语种则面临着训练数据不足的问题。声学模型共享方法给出了这个问题的一种解决方法，它利用不同语种间的相似性，可以实现不需要小语种语音数据的语音识别。本文将声学模型共享方法扩展到韩语语音识别上，利用汉语声学模型构建韩语和汉语之间的音素映射关系。在不使用任何韩语语音数据的情况下构建的语音识别系统在Zeroth测试集上的字错误率达到了27.33%。同时本文还测试了不同映射方式之间的差异，结果表明这种共享模型的音素映射应当采用将目标语言词汇映射为源语言音素的方式。

10 基于联合图学习的多通道语音增强方法

张鹏程，郭海燕，王婷婷，杨震

2023, 38(2):283-292. DOI: 10.16337/j.1004-9037.2023.02.005

[摘要](483) [HTML](328) [PDF 1.30 M](1286)

摘要:
考虑到通道间存在的空间关系影响着其降噪问题，图信号处理可以捕获该潜在关系，若直接采用其空间物理分布图，无法实时反映其时变特性，因此本文提出了一种基于联合图学习的多通道语音增强方法。首先，提出一种联合时间-空间图学习方法，以最小化多通道含噪语音信号在空间图上的平滑度、参考通道信号在语音帧内图上的平滑度、空间图的稀疏度和帧内图的稀疏度之和为目标，优化阵列空间图和语音帧内图。基于学习的空间图和帧内图，构建多通道语音信号的时间-空间联合图。在此基础上，将多通道语音图信号进行联合图傅里叶变换，进而采用固定波束形成（Fixed beam forming，FBF）方法进行增强。实验结果表明，与传统的FBF方法相比，所提出的基于联合图学习的FBF（Joint graph learning based FBF， JGL-FBF）方法显著提升了增强语音的信噪比（Signal-to-noise ratio， SNR）和主观语音质量评估（Perceptual evaluation of speech quality， PESQ）。另外，实验结果也表明，JGL-FBF方法的语音增强性能会受到时延补偿准确性的影响。

11 基于预训练与音素字节对编码的越南语识别

沈之杰，郭武

2023, 38(1):101-110. DOI: 10.16337/j.1004-9037.2023.01.008

[摘要](727) [HTML](596) [PDF 893.81 K](1522)

摘要:
基于无监督预训练技术的wav2vec 2.0在许多低资源语种上获得了良好的性能，成为研究的热点。本文在预训练模型的基础上进行越南语连续语音识别。将语音学信息引入到基于链接时序分类代价函数（Connectionist temporal classification，CTC）的声学建模中，选取音素与含位置信息的音素作为基础单元。为了平衡建模单元数目以及模型的精细程度，采用字节对编码（Byte-pair encoding，BPE）算法生成音素子词，将上下文信息结合到声学建模过程。实验在美国NIST的BABEL任务低资源的越南语开发集上进行，所提算法相对wav2vec 2.0基线系统有明显改进，识别词错误率由37.3%降低到29.4%。

12 音频隐写方法综述：从传统到深度学习

张雄伟，葛晓义，孙蒙，宋宫琨琨，李莉

2023, 38(5):995-1016. DOI: 10.16337/j.1004-9037.2023.05.001

[摘要](1246) [HTML](1120) [PDF 1.93 M](2183)

摘要:
数字音频作为网络空间中广泛应用的媒体，是承载秘密信息的良好载体，常被用来构建实时性强、复杂度低、不可感知性好的隐蔽通信。音频隐写作为确保网络信息安全和数据保密通信的关键技术手段之一，正受到越来越多学者的关注。本文对音频隐写方法的发展脉络进行了系统性梳理。首先，介绍了音频隐写的基本内容，对问题描述、常用数据格式、工具和评价指标等进行总结。其次，按照嵌入域的不同，将传统音频隐写方法分为时域方法、变换域方法和压缩域方法，并分析其优缺点；根据隐写载体的不同，将基于深度学习的隐写方法划分为嵌入载体式、生成载体式和无载体式音频隐写，并对这3种音频隐写方法进行了对比分析。最后，指出了当前音频隐写进一步的研究方向。

13 利用互子带滤波器和稀疏特性的多通道线性预测语音去混响方法

康瑶，康坊，杨飞然

2024, 39(5):1135-1146. DOI: 10.16337/j.1004-9037.2024.05.007

[摘要](397) [HTML](451) [PDF 3.06 M](457)

摘要:
多通道线性预测是最为流行的语音去混响方法之一，现有相关研究大多利用子带谱减模型在每一个频带独立地获取期望信号，但这忽略了不同子带之间的相互影响。本文提出一种利用互子带谱减模型的多通道线性预测语音去混响方法。相比于大多数方法采用的子带谱减模型，本文方法采用的互子带谱减模型能够利用互子带滤波器来对不同子带之间的相互影响进行建模。本文方法利用复广义高斯分布建模期望信号，相比于常用的高斯分布，复广义高斯分布能够通过调整形状参数来描述语音信号的稀疏特性。在最大似然估计框架下，将语音去混响转化为关于互子带滤波器和子带滤波器的优化问题；并且基于替代最小化方法推导了保证收敛的优化算法。在不同混响时间、不同通道、不同声源和传声器距离情况下的一系列语音去混响实验验证了本文方法的性能显著优于传统去混响算法。

14 基于多任务学习的语音情感识别

李云峰，闫祖龙，高天，方昕，邹亮

2024, 39(2):424-432. DOI: 10.16337/j.1004-9037.2024.02.015

[摘要](602) [HTML](497) [PDF 1.60 M](839)

摘要:
在近期的语音情感识别研究中，研究人员尝试利用深度学习模型从语音信号中识别情感。然而，传统基于单任务学习的模型对语音的声学情感信息关注度不足，导致情感识别的准确率较低。鉴于此，本文提出了一种基于多任务学习、端到端的语音情感识别网络，以挖掘语音中的声学情感，提升情感识别的准确率。为避免采用频域特征造成的信息损失，本文利用基于时域信号的Wav2vec2.0自监督网络作为模型的主干网络，提取语音的声学特征和语义特征，并利用注意力机制将两类特征进行融合作为自监督特征。为了充分利用语音中的声学情感信息，使用与情感有关的音素识别作为辅助任务，通过多任务学习挖掘自监督特征中的声学情感。在公开数据集IEMOCAP上的实验结果表明，本文提出的多任务学习模型实现了76.0%的加权准确率和76.9%的非加权准确率，相比传统单任务学习模型性能得到了明显提升。同时，消融实验验证了辅助任务和自监督网络微调策略的有效性。

15 基于自注意力机制的音频对抗样本生成方法

李珠海，郭武

2024, 39(2):416-423. DOI: 10.16337/j.1004-9037.2024.02.014

[摘要](472) [HTML](485) [PDF 1.40 M](730)

摘要:
随着个人语音数据在网络上的传播以及自动说话人识别算法的发展，个人的声纹特征面对着泄露的风险。音频对抗样本可以在人耳主观听觉不变的前提下，使得自动说话人识别算法失效，从而保护个人的声纹特征。本文在典型的音频对抗样本生成算法FoolHD模型的基础上引入了自注意力机制来改进对抗样本生成，该方法称为FoolHD-MHSA。首先，使用卷积神经网络作为编码器来提取输入音频频谱的对抗扰动谱图；然后利用自注意力机制从全局角度提取扰动谱不同部分特征的关联特征，同时将网络聚焦到扰动谱中的关键信息、抑制无用信息；最后，使用解码器将处理后的扰动谱隐写到输入频谱中得到对抗样本频谱。实验结果表明，FoolHD-MHSA方法生成的对抗样本相比FoolHD方法有着更高的攻击成功率和平均客观语音质量评估（Perceptual evaluation of speech quality，PESQ）得分。

16 一种融合激励和颤音建模的端到端歌唱合成方法

周骁，胡亚军，潘嘉，胡国平，凌震华

2024, 39(2):406-415. DOI: 10.16337/j.1004-9037.2024.02.013

[摘要](326) [HTML](412) [PDF 1.96 M](549)

摘要:
近年来，歌唱合成技术快速发展，基于变分推理和流模型的端到端歌唱合成（VISinger）成为主流，但其在效果上和真人仍有一定差距，主要体现在合成歌声中的音高听感不连续、颤音合成不佳及发音不稳定等。为此，本文针对性地提出了一系列改进方法：针对基频稳定性问题，提出在解码器中增加激励模块，将基频信息以激励信号的形式显式提供给解码器；针对颤音合成不自然问题，增加颤音预测模块，通过流式模型和变分数据增强，显式对歌声中的颤音进行建模；进一步在先验网络中增加ReZero策略。实验结果显示，增加激励信号能提升合成基频的稳定性，颤音建模对颤音的恢复有显著提升作用，ReZero策略对训练速度和发音稳定性有一定提升。主观测听中，本文提出的模型在歌唱合成自然度上相比VISinger有显著优势，平均意见分（Mean opinion score， MOS）达到3.95，对比两阶段建模方法DiffSinger+HiFiGAN也有明显优势，证明了本文所提方法的有效性。

17 分布式麦克风阵列拾音理论与应用方法综述

张结，呼德，张晓雷，凌震华

2024, 39(5):1085-1113. DOI: 10.16337/j.1004-9037.2024.05.004

[摘要](1273) [HTML](878) [PDF 2.65 M](930)

摘要:
经过数十年的发展，麦克风阵列技术日益成熟，并广泛应用于视频会议、智能电视、移动通话和助听器等人机交互系统。然而，现实噪声或远距离交互场景中，限定阵型结构的传统麦克风阵列的拾音质量难以保证。随着无线智能终端设备的广泛使用，分布式麦克风阵列（或称无线声传感器网络）为提升复杂开放域语音交互系统的拾音质量提供了更多可能性，并在阵列组织、应用体验和声场覆盖度上更有优势。近年来，分布式麦克风阵列在很多语音交互任务上展现出良好的应用潜力，基本实现了对传统麦克风阵列语音任务的全覆盖。本文将重点总结现阶段分布式麦克风阵列的拾音理论和应用方法，包括阵列组织原理、麦克风节点效用评估，以及结合下游语音任务阐述其应用方法。最后，将简要论述分布式麦克风阵列走向实用的关键挑战与发展趋势。

18 基于两步单源点筛选的改进退化解混和估计算法

吴礼福，马思佳，孙康

2024, 39(5):1114-1125. DOI: 10.16337/j.1004-9037.2024.05.005

[摘要](422) [HTML](317) [PDF 4.09 M](442)

摘要:
退化解混和估计（Degenerate unmixing estimation technique，DUET）算法是一种典型的欠定盲源分离算法，其采用的二进制时频掩蔽会保留部分干扰信号。提出了基于两步单源点筛选的改进DUET算法，首先使用余弦角算法进行单源点筛选，再采用计算相似度的方法进行第二步单源点筛选。通过两步单源点筛选获得更精确的目标信号和干扰信号后，设计用于抵消干扰信号的滤波器取代DUET中的二进制时频掩蔽，达到抑制干扰信号和提取目标信号的目的。仿真实验结果表明，该方法在正定盲源分离和欠定盲源分离两种情况下都有较优的盲源分离性能。

19 基于深度学习的说话人确认方法研究现状及展望

李建琛，韩纪庆

2024, 39(5):1062-1084. DOI: 10.16337/j.1004-9037.2024.05.003

[摘要](768) [HTML](617) [PDF 1.60 M](783)

摘要:
随着深度学习的不断发展，说话人确认（Speaker verification）技术已经取得了长足的进步。该技术相较于其他生物特征识别技术，具有可远程操作、成本低和易于人机交互等优势，在公安刑侦、金融服务等领域展现出广泛的应用前景。本文系统综述了基于深度学习的说话人确认技术的发展脉络。首先，介绍了基于深度学习的说话人特征表示模型在模型输入与结构、池化层、有监督损失函数和自监督学习与预训练模型4个方面的发展历程和研究现状；其次，探讨了说话人确认技术在实际应用中面临的跨域不匹配问题，如噪声干扰、信道不匹配和远场语音等，并概述了相应的领域自适应和领域泛化方法；最后，指出了进一步的研究方向。

20 融合神经网络的卡尔曼滤波啸叫抑制路径突变检测算法

郭昊诚，陈锴，卢晶

2024, 39(5):1126-1134. DOI: 10.16337/j.1004-9037.2024.05.006

[摘要](727) [HTML](351) [PDF 1.89 M](495)

摘要:
分区频域卡尔曼滤波（Partitioned block frequency domain Kalman filtering， PBFDKF）因其收敛速度快、稳态误差小的优势被应用在自适应滤波声反馈抑制（Adaptive feedback cancellation， AFC）。然而，当声反馈路径发生突变时，卡尔曼滤波会进入锁死状态，难以再次跟踪。本文提出一种融合神经网络的卡尔曼滤波啸叫抑制状态检测算法（Kalman-filter-based AFC with state detection model， KFSD）。该系统将卡尔曼滤波声反馈抑制系统的传声器采集信号、残差信号和滤波器更新量作为输入特征，通过神经网络对卡尔曼滤波的状态误差协方差矩阵进行修正，从而实现路径突变情况下的再次跟踪和收敛。仿真实验结果验证了所提算法具有较高的正判率、较低的虚警率和较短的延迟帧数，算法同时具备快速再跟踪性能，提高了声反馈抑制效果。

21 多说话人分离与目标说话人提取的研究现状与展望

鲍长春，杨雪

2024, 39(5):1044-1061. DOI: 10.16337/j.1004-9037.2024.05.002

[摘要](1554) [HTML](979) [PDF 2.33 M](834)

摘要:
语音分离作为语音信号处理领域的前沿技术，具有重要的研究价值和广阔的应用前景。通常，麦克风拾取的信号包含有多个说话人的语音、噪声和混响。为了提升用户的听觉体验以及后端设备的处理性能，需要对混合信号进行语音分离。语音分离起源于著名的鸡尾酒会问题，旨在从混合信号中分离出说话人的语音信号。近年来，研究人员提出了大量的语音分离方法，显著提升了分离性能。本文对这些语音分离方法进行了系统的归纳和总结。首先，根据目标说话人的辅助信息利用与否，将语音分离方法分为两大类，即多说话人分离与目标说话人提取；其次，从传统到基于深度学习的角度，分别对多说话人分离和目标说话人提取两类方法进行详细介绍；最后，讨论了当前语音分离领域面临的一些挑战，并对未来的研究方向进行展望。