摘要:
针对伪造语音检测精度不高和泛化性弱的难题,提出一种基于时频特征融合的伪造语音检测算法。首先,为了挖掘语音片段能量分布不均、基频波动异常,以及提取语义连贯性的细微差别,提出一种多分支特征融合网络,分别从音高、音强以及能量分布来挖掘真假语音的差异痕迹,以更好地表征真假语音的频率变化、振幅变化和峰值差异,提高伪造语音检测的准确率。其次,经典的坐标注意力机制未能对语音时频域的细粒度差异进行有效挖掘,为此提出一种时频坐标注意力机制,分别从时域和频域两个方向对能量分布和基频波动异常进行联合编码,以更好地表征频谱图中的共性高频能量异常,提升模型的泛化性。最后,设计了一种自适应联合损失优化函数,通过平衡不同分支网络的权重,进一步提升模型对伪造语音中高频能量异常及语义不连贯性的学习能力。在ASVspoof 2019逻辑访问数据集上进行了性能评估,实验结果表明,与现有的工作相比,所提方法在等错误率(Equal error rate, EER)和最小归一化串联检测代价函数(Minimum normalized tandem detection cost function, min t-DCF)两个指标上均取得较好性能,分别降低了0.34%和0.014。此外,在应对极难检测的未知攻击A17时,同样展现出较高的泛化性,其中EER和min t-DCF分别下降了3.952 2%和0.136 4。当应对未知类型的欺骗攻击时, 同样表现出较好的泛化性。