摘要
语音欺骗是指通过录音、语音合成(Text⁃to⁃speech, TTS)、语音转换(Voice conversion, VC)等手段,将一段非法的、未经过自动说话人验证(Automatic speaker verification, ASV)系统认证的声音进行“修改仿冒”,以达到通过ASV系统检测的目的。随着人工智能和语音欺骗技术的发展,ASV系统在安全性方面遇到了严峻的挑战。检测输入ASV系统的语音的真实性,防止欺骗语音通过ASV的验证以提高ASV系统的安全性,是近年来语音领域研究的一个热点问题。国内外学者的最新研究从声学特征选取、识别模型选择等角度出发,探索了不同的语音欺骗方法对ASV系统的影响,并深入研究了相应的语音欺骗检测技术,在一定程度上提高了ASV系统的防欺骗性能。本文介绍了语音欺骗的基本方法,给出了语音欺骗检测的框架和典型声学特征,分两大类别总结了语音欺骗检测的主要方法和最新进展,梳理了目前语音欺骗检测中仍然存在的若干技术问题,并对语音欺骗检测技术的发展方向进行了展望。
近年来,基于生物识别的身份认证技术在数据安全和通过性认证中的作用越来越重要。一些常用的生物识别技术,如指纹识别、人脸识别和声纹识别等,已经在多种认证场景中得到了较为广泛的应用,给人们的生活带来了极大的便利。人们每天都要使用的手机,其解锁方式就有人脸识别、指纹识别等,微信的声纹锁也允许使用语音进行登录认证。在众多的生物识别技术中,人类的语音由于采集方便、区分度高,采集声音使用的麦克风等设备发展成熟、成本较低,因而受到了广泛的关注,自动说话人验证(Automatic speaker verification, ASV)系统也应运而生。ASV系统是一个典型的生物识别系统,该系统可以使用特定的算法对输入语音进行模式识别和匹配,判断出该待验证的说话人语音是否为合法用户的声音。随着近年来机器学习和深度学习的发展,ASV系统的识别准确率越来越高,对ASV系统的研究是当前生物识别研究的一个热点问题。
但是,任何生物识别技术都存在一定的缺陷。通过模仿、篡改特征等方法对生物特征进行修改,有可能达到非法通过生物识别系统验证的目的,这给生物识别系统的安全性带来了严峻挑战。例如,在人脸识别验证中,一个较为典型的欺骗方法就是使用已经通过验证的合法用户的照片来欺骗识别系统。因此,为了实现生物识别系统的安全性,系统必须能够准确判断输入的生物特征的真伪,对合法的用户生物特征正常接受,而对假冒的、非法的生物特征必须予以拒绝。
目前有4种典型的ASV系统语音欺骗方法:语音模仿、语音回放、语音合成(Text⁃to⁃speech, TTS)与语音转换(Voice conversion, VC
近年来,针对语音欺骗检测问题,清华大学、西北工业大学、哈尔滨工业大学、昆山杜克大学等多所国内高校以及百度、小米等多家企业都开展了相关研究,并且取得了一些优秀的研究成果。在ASVspoof 2019挑战赛上,来自“清华大学⁃得意音通”声纹处理联合实验室的团队取得了语音回放检测任务全球第1名的成绩。此外,中国人民银行在2018年发布的《移动金融基于声纹识别的安全应用技术规范(JR/T 0164―2018)》中也明确规范了移动金融领域中声纹识别技术需要具备的防欺骗功能,其中就包括了语音模仿、VC及合成、录音回放等。因此,语音欺骗检测是目前也是未来研究的热点。
本文介绍了常见的语音欺骗方法,重点阐述了国内外针对语音欺骗检测的最新研究进展,归纳分析了语音欺骗检测的典型方法,并展望语音欺骗检测未来的发展方向。
说话人验证是一种通过说话人语音特征来验证说话人身份的技术,

图1 典型的说话人验证系统
Fig.1 Typical automatic speaker verification system
语音欺骗主要是针对ASV系统进行。在语音欺骗的处理阶段,非法的入侵者通过人为模仿已经通过注册的说话人的语音;或者使用录音设备偷偷录制注册说话人说出的语句;或者通过其他途径收集到的注册说话人的语音,使用TTS和转换的方法对入侵者自己的语音进行处理,使经过处理后的语音接近于注册说话人的语音。然后将处理后的语音馈送给ASV系统的麦克风,欺骗ASV系统获得准入权限,进而达到非法入侵的目的。
下文分别介绍语音欺骗的4种方法:语音模仿、语音回放、TTS和VC。
语音模仿是指非法入侵者故意将其自己的声音模仿为已通过认证的目标说话人,通过模仿目标说话人说出的词汇、音色或者某些特殊的特征,使自己的声音尽可能听起来接近于目标说话人来实现对ASV系统的入侵。
语音模仿是较为简单的一种语音欺骗方法,但是该方法要求欺骗者和被模仿的注册说话人的声音较为接近,而且该方法的成功率普遍不高。
Farrus
因此,从总体上来看,语音模仿欺骗对ASV的安全性具有一定的威胁,会造成系统的错误识别率增加,但是具体影响效果与模仿者的专业程度和ASV系统的识别性能有关。
语音回放是指使用预先录制的已通过认证的目标说话人的语音,通过某些播放设备将录制好的语音播放出来馈送给ASV系统的麦克风。语音回放欺骗不需要任何专业知识或者复杂的设备,仅需要一个简单的录音和播放设备即可,因此非常易于实施。虽然语音回放欺骗的操作简单、成本低廉,但是却会给ASV系统带来严重的安全性问题。这种欺骗方法给ASV系统造成的影响要远高于语音模仿欺骗,语音回放欺骗会造成ASV系统的错误接受率(False accept rate, FAR)明显提高。
在针对语音回放欺骗的ASVspoof 2017语料
TTS通常也称为文本到语音的转换,是一种可以将任意文本信息生成可以理解的语音的技术。TTS的应用非常广泛,包括日常生活中常用的导航系统、人机交互系统以及语言翻译系统等。TTS系统主要由2部分组
随着机器学习的发展,基于参数统计的TTS成为20世纪末流行的TTS方法之
近年来,深度学习的应用进一步提高了TTS的质量。首先,使用各种类型的深度神经网络提高了声学参数的预测精
TTS的方法对ASV系统具有很强的威胁性,除了简单的语音波形拼接之外,基于HMM的语音合成方法可导致基于HMM的文本相关ASV系统的FAR从正常状态下的7%增加到70%以
V
当语VC应用于语音欺骗时,目标就是将输入的非法语音转换成新的语音信号,使得新的语音信号在某种意义上与已经通过认证的目标说话人更加相似。Perrot
语音欺骗检测是为了能够检测出输入到ASV系统的各种欺骗语音,保护ASV系统免受不法用户的侵害,提高ASV系统的安全性。本节首先给出语音欺骗检测的总体框架,并以ASVspoof 2015、2017、2019这3届挑战赛为重点,梳理总结目前语音欺骗检测的主要方法。
受到语音欺骗检测数据集的限制,当前国际上对语音欺骗的几种方法还没有统一的普适性的检测手段。对于语音模仿欺骗,目前没有通用的数据集支持此项研究,同时由于语音模仿需要较为专业的模仿者,即使找到了专业的模仿人员,对于目前较为先进的ASV系统,语音模仿欺骗成功的成功率也并不高,因此,语音模仿欺骗不是当前研究的重点。对于语音回放、TTS和VC这3种语音欺骗方法,由于回放和另外两种方法所使用的技术差别较大,而TTS和VC所使用的技术具有一定的相似性,因此国际上主要将语音欺骗检测分为2大类,一类是语音回放欺骗检测,另一类则是TTS和VC欺骗检测。
当前国际上先进的语音欺骗检测方法都是设计一个与ASV系统独立的、互不关联的欺骗检测系统。当进行欺骗检测和说话人验证时,首先对语音样本输入到欺骗检测系统中进行安全性验证,只有通过欺骗检测系统,被判定为是真实语音的样本,才能够输入到ASV系统中进行认证。一个典型的语音欺骗检测系统如

图2 典型的语音欺骗检测系统
Fig.2 A typical speech anti-spoofing system
由于当前的语音欺骗检测系统只能单独检测一种语音欺骗,例如单独检测语音回放欺骗,或者单独检测TTS与转换的欺骗。因此,如果语音的欺骗方法未知,那么就需要将各种欺骗检测系统串联起来,分别进行检测,只有通过了所有语音欺骗检测系统的验证,才能够输入到ASV系统中进行说话人验证。整体的语音欺骗检测流程如

图3 语音欺骗检测流程
Fig.3 Process of speech anti-spoofing
EER是评价ASV系统性能和语音欺骗检测性能的常用指标。对于说话人验证任务来说,EER是错误拒绝率(False rejection rate, FRR)和FAR相等时的数值,EER能够同时反映出系统的安全性和准确性,是衡量生物识别系统性能的重要指标。
在说话人验证系统中,ASV会判定2个语音样本是否属于相同的说话人,对比后会得到2个语音样本相似度的得分,如果得分大于某一事先设定好的阈值,则判定这2个语音样本来自同一个说话人,如果得分小于该阈值,则判定这2个语音样本来自不同的说话人。如果2个语音样本实际上属于相同的说话人,但是被ASV系统判定为不同的说话人,则称之为错误拒绝案例,FRR为错误拒绝案例在ASV系统认定为相同说话人案例中所占的比值,即
(1) |
式中,同类匹配案例即为应当被系统认定为相同说话人的案例。如果2个语音样本实际上属于不同的说话人,但是ASV系统判定为相同的说话人,即为错误接受案例,FAR为错误接受案例在ASV系统判定为不同说话人的案例中所占的比值,即
(2) |
式中,异类匹配案例即为应当被系统判定为不同说话人的案例。EER则定义为通过调整阈值为时,FRR和FAR相等的数值,即
(3) |
这里提供计算EER使用的Bosaris工具箱。
在语音欺骗检测中,EER也和ASV系统中的EER计算方式类似,
(4) |
在评价语音欺骗检测系统的性能时,如果事先指定的阈值过高,则会造成FRR增大,可能会造成大量真实的语音被判定为欺骗语音,给合法用户的准入造成不便;而指定的阈值过低,则会导致FAR提高,可能会造成大量欺骗语音被判定为真实语音,给系统的安全性造成危害。因此,EER既可以显示出欺骗检测系统的安全性,又可以显示出合法用户通过认证的可靠性,是评价语音欺骗检测系统的重要指标。
自2015年以来,每隔两年Interspeech就会举办一次专门针对语音欺骗检测的ASVspoof挑战赛,至今共举办了3届,每一届挑战赛都会发布专门的数据集供研究者使用。
ASVspoof 2015数据
ASVspoof 2017挑战赛专门针对语音回放欺骗检测,该语料库来源于RedDots(https://sites.google.com/site/thereddotsproject/)。该语料库由来自全球各地的ASV研究人员使用Android智能手机进行收集和录制。ASVspoof 2017数据集中的真实语音是原始RedDots语料库中的一个子集,而回放的语音则是这些原始语音通过不同种类的设备播放后再录制的。该数据集也分为训练集、开发集和验证集3部分,
ASVspoof 2019挑战赛同时针对语音回放欺骗检测和TTS转换欺骗检测,并为此分别设立了2个赛道和相对应的数据集。这2部分数据集都是基于VCTK数据库进行开发的(http://dx.doi.org/10.7488/ds/1994),同样划分为3个子集:训练集、开发集和验证集,分别由20名(8男12女)、10名(4男6女)和48名(21男27女)不同的说话人组成。在TTS与回放欺骗检测中,使用了17种不同的TTS和VC系统生成的真实语音和欺骗语音。这17种方法中,有6种方法被指定为已知的欺骗类型,另外11种指定为未知的欺骗类型。训练集和开发集中的欺骗语音的生成方法仅包含6种已知的欺骗方法,验证集包含2种已知的欺骗方法和11种未知的欺骗方法。在已知的6种欺骗方法中,有2个VC算法和4个TTS算法,11种未知欺骗方法中,包括2个VC算法、6个TTS算法和3个TTS⁃VC混合算法。这些算法中包含了一些经典的和当前最先进的TTS和转换方法,包括传统的语音编码、Griffin⁃Li
与ASVspoof 2017数据集不同,ASVspoof 2019的语音回放欺骗检测数据集设定了更加详细的声学环境,包括录音的房间大小、混响的种类和播放设备到录音设备的距离等。表
以上3个数据集可以在ASVspoof官方网站(https://www.asvspoof.org/database)下载。
与一般的说话人验证和语音处理所使用的声学特征不同,语音欺骗检测需要开发专门的用于语音欺骗检测的声学特征。这是由于一般的说话人验证或者其他的语音处理任务所常用的声学特征,例如,梅尔倒谱系数(Mel frequency cepstral coefficient, MFCC)在语音欺骗检测中并不能够较好地区分真实语音和欺骗语音,使得欺骗检测的性能较差。因此,专门针对语音欺骗检测开发新的声学特征就显得尤为重要。针对语音欺骗检测的声学特征需要能够较好地表征出真实语音与欺骗语音的区别,例如在语音回放检测中,来自同一个语音样本的真实语音和其回放语音,其语音内容和说话人的特征非常相似,传统的声学特征则不能显示出其区别,

图4 真实语音与回放语音声学特征对比
Fig.4 Comparison of acoustic characteristics between genuine speech and replay speech
从2015年开始,许多国内外的研究者开始研究针对语音欺骗检测的声学特征,本节将重点介绍这些用于欺骗检测的特征。
常数Q倒谱系数(Constant Q cepstral coefficient, CQCC
(5) |
式中,为频率索引,为的负共轭,为可变窗长, 表示向下取整。

图5 CQCC提取流程
Fig.5 Block diagram of CQCC feature extraction
然后取对数并进行CQT几何尺度的线性化,最后通过离散余弦变换(Discrete cosine transform, DCT)获得倒谱系数,得到CQCC特征。ASVspoof 2017挑战赛中,官方给出的基线系统(https://www.asvspoof.org/data2017/baseline_CM.zip)即是使用CQCC特征和GMM进行语音回放欺骗检测的,并且取得了较好的检测结果。
线性频率倒谱系数(Linear frequency cepstral coefficient, LFCC)。该系数已经被证明在语音欺骗检测中具有良好的性能表
基于瞬时频率的耳蜗倒谱系数(Cochlear filter cepstral coefficients instantaneous frequency, CFCC⁃IF
群延迟图特征(Group delay gram, GD⁃gram
单频滤波倒谱系数(Single frequency filtering cepstral coefficient, SFFCC

图6 SFFCC提取流程
Fig.6 Block diagram of SFFCC feature extraction
有了专门针对语音欺骗检测的声学特征后,还需要具有分类性能出色的后端分类模型对提取到的声学特征进行分类和判决,本节主要介绍基于传统机器学习的语音欺骗检测模型。
GMM是一种概率统计模型,其利用期望最大估计算法(Expectation maximization algorithm, EM)更新参数来训练GMM模型。GMM中含有多个单体高斯模型,通过将多个单体高斯进行线性加权组合,可以拟合许多十分复杂的非线性问题。在说话人验证任务中,通常利用GMM强大的数据拟合能力,来拟合说话人身份模型。而在语音欺骗检测中,则利用GMM分别来拟合真实语音和欺骗语音2个模型。
GMM的概率密度函数为
(6) |
式中,x为维度为F的向量,GMM模型为,高斯个数为C,每个高斯的权重、均值和协方差矩阵分别为,和,。假设一个语音样本的特征矢量矩阵为,则该矩阵相对于GMM的对数似然得分为每个特征矢量相对于该模型(真实语音或欺骗语音)的对数似然得分之和。因此,通过对所有特征向量得分取平均,就可以得到最终的似然得分
(7) |
式中为特征矢量相对于GMM模型的似然得分。

图7 基于GMM的语音欺骗检测流程图
Fig.7 Framework of anti-spoofing system based on GMM
GMM训练速度快、准确度高、使用广泛,在ASVspoof 2015中,基于GMM的欺骗检测系统取得了所有参赛队伍中排名第一的成
i⁃vector是一种将不定长的语音转化为定长的可以代表说话人信息的技术(说话人超矢量),是由JFA技术扩展而来,最早由Dehak
(8) |
式中,m为均值超矢量,和说话人以及信道都独立;T为全变量空间矩阵,用来表示跨越大量训练数据的主要方向变换,w为全变量因子,也就是i⁃vector。下面简要介绍i⁃vector的提取流程。
假设语音的声学特征(如MFCC)的维度为F,GMM的高斯混合数为C,那么i⁃vector提取过程可以按照
(9) |
式中,I为一个的身份矩阵,N为一个的对角矩阵,它的对角元素为,超矢量A是由归一化的一阶Baum⁃Welch统计量串联起来形成的。为没有包含在T矩阵中的残余变量的协方差矩阵。i⁃vector中计算全变量空间的过程和JFA特征因子空间的训练过程类似,但是有一个地方不同:在JFA特征因子空间的训练中,通常认为给定说话人的所有语音的归属者为相同的说话人;而在全变量子空间的训练过程中,为了捕捉信道变化,通常认为这些语音属于不同的说话人。i⁃vector的维度要远远低于说话人超矢量,因此,许多在处理维度较高的超矢量时失效的技术,都可以用来处理i⁃vector。i⁃vector在ASVspoof 2015挑战赛中对TTS和转换的欺骗检测取得了第2名的成
SVM是基于统计学习理论的一种机器学习算法,具有完备的理论、强大的实用性和优秀的泛化能力,是一种优秀的二分类算法,非常适用于语音欺骗检测任务。在欺骗检测任务中,SVM需要区分的两类分别为真实语音的特征和欺骗语音的特征。
对于样本为样本数,训练SVM就是尽最大能力寻找一个可以将测试数据进行正确分类的函数,可以称其为决策函数,也就是寻找一个可以将2类样本完全隔开的超平面。如果此超平面可以将训练样本准确的隔开,并且可以使每类数据距离超平面的距离最大,则称其为最优超平面,其中,2类样本中距离超平面最近的2个(每类1个,若多于1个则选择1个)到超平面的距离的和称为分类间隔(Margin)。
SVM的训练速度快,分类效果好,在ASVspoof挑战赛中,SVM作为各支参赛队伍广泛使用的后端分类器已经在欺骗检测中表现出了良好的检测效果,在ASVspoof 2015中,使用基于SVM的语音欺骗检测系统取得了第2名的好成
概率线性判别分析(Probabilistic linear discriminant analysis, PLDA)打分通常用于i⁃vector等嵌入式(Embedding)特征后端常用的打分策略。在i⁃vector中存在一个假设,即说话人信息和信道分量是相互独立且均符合高斯分布。在PLDA中有同样的假设,假设和为2个语音样本的i⁃vector,则它们之间的PLDA打分定义为
(10) |
式中
(11) |
(12) |
式中,V为因子载荷矩阵,为PLDA模型的协方差矩阵。
该方法通常和i⁃vector方法共同使用,作为常用的后端打分系统,具有良好的分类性能,能够较为明显地区别出不同类型的样本,目前已广泛应用于说话人验证,语音欺骗检测等任务中。
近年来,随着深度学习(Deep learning, DL)的快速发展,能够区分复杂非线性特征的深度神经网络层出不穷,极大地提高了对复杂样本的分类准确性,如卷积神经网络(Convolutional neural networks, CNN
深度神经网络(Deep neural network, DNN)是应用最为广泛的深度学习算法之一,其按照内部结构可以分为输入层、隐含层和输出层,每层之间都是全连接的,具有非常强的非线性问题的拟合性能。在语音处理领域,DNN一般的层数在4层左右。在语音欺骗检测中,首先提取前面所提到的声学特征,再将这些声学特征送入DNN中进行学习和训练,在测试阶段,使用训练好的DNN对待测样本进行分类和判别,具有良好的区分性。在ASVspoof 2015挑战赛中,Yu
CNN是目前深度学习技术领域中非常具有代表性的神经网络之一,在图像分析和处理领域取得了众多突破性的进展,在学术界常用的标准图像标注集ImageNet上,基于CNN取得了很多成就,包括图像特征提取分类、场景识别等。CNN通常被用来从统一大小的样本数据(如图像)中提取鲁棒性的特征,因此需要对数据进行预处理,对时频数据使用固定窗长的窗口化处理从而使数据具有相同的格式。
在ASVspoof 2017挑战赛中,取得语音回放检测第1名的团队使用的就是CNN的变种方法Light CNN(LCNN
(13) |
(14) |
式中,x表示的输入矢量,y表示的输出矢量,i和j表示频域和时域,k表示信道索引。

图8 卷积层的MFM
Fig.8 MFM for convolutional layer
Lavrentyeva
RNN的研究始于20世纪八九十年代,并在21世纪初发展为深度学习算法之一,其中双向RNN(Bidirectional RNN, Bi⁃RNN)和长短期记忆网络(Long short⁃term memory networks, LSTM)是常见的RNN。RNN通过循环单元和门限结构而具有记忆性,因此在对时间序列问题的处理中具有一定的优势。目前,RNN已经广泛应用于自然语言处理、语音识别、机器翻译等领域。LSTM是最早被提出的RNN门控算法,其对应的循环单元包括输入门、遗忘门和输出门,相对于RNN对系统状态建立的递归计算。3个门控对LSTM单元的内部状态建立了自循环,即输入门决定当前时间步的输入和前一个时间步的系统状态对内部状态的更新,遗忘门决定前一个时间步内部状态对当前时间步内部状态的更新,输出门决定内部状态对系统状态的更新。LSTM的更新方式如下
(15) |
(16) |
(17) |
(18) |
(19) |
式中,表示输出状态单元,表示隐藏状态单元,表示输入门,表示遗忘门,表示输出门,f代表激活函数,t表示当前时间节点,b表示偏置,u代表输入层到隐含层的权重,w表示隐藏层节点到下一隐藏层节点的权重。
基于RNN的语音欺骗检测方法在ASVspoof 2017挑战赛中取得了第1名的成
i⁃vector在说话人验证领域取得了非常好的效果。然而,和任何基于统计理论的机器学习模型一样,i⁃vector系统由若干个独立的无监督子系统组成,这些子系统的训练目标均不相同。在有大量数据作为训练数据的前提下,i⁃vector系统的性能提升相对有限,为了能够使系统的各个部分联合优化,且能够在大数据训练量的情况下获得更优异的效果,研究者们基于深度神经网络提出了x⁃vector框架。x⁃vector是一个基于深度学习的有监督的识别系统,该系统将聚类和提取统计量的步骤合而为一,通过训练时延神经网络(Time delay neural network, TDNN

图9 x-vector网络结构图
Fig.9 Framework of x-vector
以上总结了语音欺骗检测的总体流程、欺骗检测所使用的声学特征以及后端分类算法,
本文介绍了不同的语音欺骗方法以及相应的检测策略,梳理总结了近年来国内外的专家学者在欺骗检测方面所取得进展。过去的几年里,随着各种针对语音欺骗检测数据库的发布,语音欺骗检测方法研究取得了很大的进步。当前最先进的语音欺骗检测技术已经可以取得很高的准确性,具有较高的实用价值,但仍需要以下几个方面进行进一步的研究。
最近的研究表明,尽管目前欺骗检测方法在干净环境下的检测效果比较理想,但是在噪声、混响和信道效应的作用下,各种欺骗检测方法基本上就失去了作用。这是由于环境的变化,导致欺骗语音与真实语音的差异变得更加不明显。因此需要进一步研究在复杂的声学环境条件下语音欺骗检测方法的有效性,找到在噪声环境下的检测方法,更加贴近真实使用场景。
目前的欺骗检测方法都是针对某种特定类型的欺骗方法,如针对VC的欺骗检测方法在TTS上就表现出较差的性能。此外,针对未知类型的欺骗方法,现有的欺骗检测方法也不能较好区分真实语音和欺骗语音。因此,应该进一步研究更加具有通用性和普适性的欺骗检测方法,使其能够同时应对和检测出多种的欺骗类型,这将是未来语音欺骗检测的重点发展方向。
开发欺骗检测方法的最终目的是保护ASV系统免于受到欺骗,免遭具有欺骗语音的非法者的影响。到目前为止,绝大多数的欺骗检测方法都是独立于ASV的系统。但是将欺骗检测和ASV结合起来并不是一个简单的问题。首先,欺骗检测的判别得分和说话人验证的得分是两种完全不同的计算方法;其次,没有达到很高判别准确率的欺骗检测系统可能会拒绝真实的说话人而使ASV的FAR大大提高;最后,从本质上来看,欺骗检测的改进是否能够改善整个ASV系统目前还并没有一个准确的结论,如果欺骗检测和ASV没有经过适当的匹配,可能无法在实际情况下保护ASV系统。最新的研究工作初步探索了用于联合评估欺骗检测和ASV系统的损失函数以及新型的融和方法,具有一定的借鉴参考价值,为今后的联合检测系统提供了思路。
语音的欺骗检测研究是当前的研究热点,在语音处理和生物识别领域得到了广泛的关注。随着录音设备质量的提高和TTS、VC等语音处理技术的发展,真实的人类语音与人工加工后的语音将越来越难以区分,给语音欺骗检测和ASV系统的安全性带来越来越严峻的挑战。随着越来越多国内外研究者的高度重视和积极参与,有理由相信语音欺骗检测技术将会得到越来越快的发展和进步。
参考文献
WU Z, EVANS N, KINNUNEN T, et al. Spoofing and countermeasures for speaker verification: A survey[J]. Speech Communication, 2015, 66: 130-153. [百度学术]
EVANS N, KINNUNEN T, YAMAGISHI J. Spoofing and countermeasures for automatic speaker verification[C]//Proceedings of Conference of the International Speech Communication Association (INETSPEECH). Lyon, France: [s.n.], 2013: 25-29. [百度学术]
WU Z, KINNUNEN T, EVANS N, et al. ASVspoof 2015: Automatic speaker verification spoofing and countermeasures challenge evaluation plan[EB/OL]. (2015-01-15) [2020-03-15]. http://www.spoofingchallenge.org/asvSpoof.pdf. [百度学术]
WU Z, KINNUNEN T, EVANS N, et al. ASVspoof 2015: The first automatic speaker verification spoofing and countermeasures challenge[J]. IEEE Journal on Selected Topics in Signal Process, 2017, 11(4): 588-604. [百度学术]
KINNUNEN T, SAHIDULLAH M, DELGADO H, et al. The ASVspoof 2017 challenge: Assessing the limits of replay spoofing attack detection[C]//Proceedings of Conference of the International Speech Communication Association (INETSPEECH). Stockholm, Sweden: [s.n.], 2017: 20-24. [百度学术]
TODISCO M, WANG X, VESTMAN V, et al. ASVspoof 2019: Future horizons in spoofed and fake audio detection[EB/OL]. (2019-04-09) [2020-03-20]. https://arxiv.org/abs/1904.05441. [百度学术]
FARRUS C M, WAGNER M, ERRO D, et al. Automatic speaker recognition as a measurement of voice imitation and conversion[J]. The International Journal of Speech Language and the Law, 2010, 1(17): 119-142. [百度学术]
LAU Y W, TRAN D, WAGNER M. Testing voice mimicry with the YOHO speaker verification corpus[C]//Proceedings of International Conference on Knowledge-Based and Intelligent Information and Engineering Systems. Melbourne, Australia: [s.n.], 2005: 14-16. [百度学术]
MARIÉTHOZ J. BENGIO S. Can a professional imitator fool a GMM-based speaker verification system?[EB/OL]. (2005-03-02) [2020-03-20]. https://core.ac.uk/display/23274186. [百度学术]
HAUTAMAKI R G, KINNUNEN T, HAUTAMAKI V, et al. Automatic versus human speaker verification: The case of voice mimicry[J] Speech Communication, 2015, 72: 13-31. [百度学术]
DELGADO H, TODISCO M, SAHIDULLAH M, et al. ASVspoof 2017 Version 2.0: Metadata analysis and baseline enhancements[C]//Proceedings of Odyssey: the Speaker and Language Recognition Workshop. Les Sables D'Olonne, France: [s.n.], 2018. [百度学术]
LINDBERG J, BLOMBERG M. Vulnerability in speaker verification―A study of technical impostor techniques[C]//Proceedings of The European Conference on Speech Communication and Technology. [S.l.]: [s.n.], 1999. [百度学术]
VILLALBA J, LLEIDA E. Speaker verification performance degradation against spoofing and tampering attacks [C]//Proceedings of FALA 10 workshop. [S.l]: [s.n.], 2010. [百度学术]
WANG Z F, WEI G, HE Q H. Channel pattern noise based playback attack detection algorithm for speaker recognition[C]// Proceedings of 2011 International Conference on Machine Learning and Cybernetics. [S.l.]: [s.n.], 2011: 1708-1713,. [百度学术]
ERGUNAY S K, KHOURY E, LAZARIDISs A, et al. On the vulnerability of speaker verification to realistic voice spoofing[C]//Proceedings of IEEE International Conference on Biometrics: Theory, Applications and Systems. [S.l.]: IEEE, 2015: 1-8. [百度学术]
TAYLOR P. Text-to-speech synthesis[M]. 1st ed. Cambridge: Cambridge University Press, 2009. [百度学术]
YOSHIMURA T, TOKUDA K, MASUKO T T, et al. Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis[C]// Proceedings of Eurospeech. [S.l.]: [s.n.], 1999: 2347-2350. [百度学术]
ZEN H, TODA T, NAKAMURA M, et al. Details of the Nitech HMM-based speech synthesis system for the blizzard challenge 2005[J]. IEICE Transactions on Information Systems, 2007, E90-D(1): 325-333. [百度学术]
WOODLAND P C. Speaker adaptation for continuous density HMMs: A review [C]//Proceedings of Proc ISCA Workshop on Adaptation Methods for Speech Recognition. [S.l.]: [s.n.], 2001: 119. [百度学术]
Ling Z H, Deng L, Yu D. Modeling spectral envelopes using restricted Boltzmann machines and deep belief networks for statistical parametric speech synthesis[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(10): 2129-2139. [百度学术]
WU Z, KING S. Investigating gated recurrent networks for speech synthesis[C]//Proceedings of ICASSP. [S.l.]: IEEE, 2016: 5140-5144. [百度学术]
WANG X, TAKAKI S, YAMAGISHI J. Investigating very deep highway networks for parametric speech synthesis[J]. Speech Communication, 2018, 96: 1-9. [百度学术]
SAITO Y, TAKAMICHI S, SARUWATARI H. Statistical parametric speech synthesis incorporating generative adversarial networks[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018, 26(1): 84-96. [百度学术]
SHEN J, SCHUSTER M, JAITLY N, et al. Natural TTS synthesis by conditioning wavenet on mel spectrogram predictions[C]//Proceedings of ICASSP. [S.l.]: IEEE, 2018. [百度学术]
MASUKO T, TOKUDA K, KOBAYASHI T, et al. Voice characteristics conversion for HMM-based speech synthesis system[C]//Proceedings of ICASSP. [S.l.]: IEEE, 1997. [百度学术]
DE LEON P L, PUCHER M, YAMAGISHI J, I. et al. Evaluation of speaker verification security and detection of HMM-based synthetic speech[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 8: 2280-2290. [百度学术]
张雄伟, 苗晓孔, 曾歆, 等. 语音转换技术研究现状及展望[J]. 数据采集与处理, 2019, 34(5): 753-769. [百度学术]
Zhang Xiongwei, Miao Xiaokong, Zeng Xin, et al. Voice conversion: The state of the art and prospects[J]. Journal of Data Acquisition and Processing, 2019,34(5): 753-769. [百度学术]
PERROT P, AVERSANO G, BLOUET R, et al. Voice forgery using ALISP: Indexation in a client memory[C]//Proceedings of ICASSP. [S.l.]: IEEE, 2005: 17-20. [百度学术]
KINNUNEN T, WU Z, LEE K A, et al. Vulnerability of speaker verification systems against voice conversion spoofing attacks: The case of telephone speech[C]//Proceedings of ICASSP. [S.l.]: IEEE, 2012: 4401-4404. [百度学术]
GRIFFIN D, LIM J. Signal estimation from modified short-time Fourier transform[J]. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1984, 32(2): 236-243. [百度学术]
TANAKA K, KANEKO T, HOJO N, et al. Synthetic-to-natural speech waveform conversion using cycle-consistent adversarial networks[C]//Proceedings of SLT. [S.l.]: IEEE, 2018: 632-639. [百度学术]
OORD A, DIELEMAN S, ZEN H, et al. Wavenet: A generative model for raw audio[EB/OL]. (2016-09-12) [2020-03-25]. https://arxiv.org/abs/1609.03499. [百度学术]
TODISCO M, DELGADO H, EVANS N. Constant Q cepstral coefficients: a spoofing countermeasures for automatic speaker verification[J]. Computer, Speech and Language, 2017, 45: 516-535. [百度学术]
SAHIDULLAH M, KINNUNEN T, HANILCI C. A comparison of features for synthetic speech detection[C]// Proceedings of Conference of the International Speech Communication Association (INETSPEECH). Dresden, Germany: [s.n.], 2015. [百度学术]
PATEL T B, PATIL H A. Combining evidences from mel cepstral, cochlear filter cepstral and instantaneous frequency features for detection of natural vs. spoofed speech[C]// Proceedings of Conference of the International Speech Communication Association (INETSPEECH). Dresden, Germany: [s.n.], 2015. [百度学术]
TOM F, JAIN M, DEY P. End-to-end audio replay attack detection using deep convolutional networks with attention[C]// Conference of the International Speech Communication Association (INETSPEECH). Hyderabad, India: [s.n.], 2018. [百度学术]
ALLURI K, ACHANTA S, KADIRI S, et al. Detection of replay attacks using single frequency filtering cepstral coefficients[C]// Proceedings of Conference of the International Speech Communication Association (INETSPEECH). Stockholm, Sweden: [s.n.], 2017. [百度学术]
DEHAK N, KENNT P, DEHAK R. Front-end factor analysis for speaker verification[J]. IEEE Transactions on Audio, Speech & Language Processing, 2011, 19(4): 788-798. [百度学术]
NOVOSELOV S, KOZLOV A, LAVRENTYEVA G, et al. STC antispoofing systems for the ASVspoof 2015 challenge[C]//Proceedings of ICASSP. [S.l.]: IEEE, 2016: 5475-5479. [百度学术]
LECUN Y, BENGIO Y. Convolutional networks for images, speech, and time series[M]// The Handbook of Brain Theory and Neural Networks. Boston, USA: MIT Press, 1995, 10: 3361. [百度学术]
GOODFELLOW I J, BENGIO Y, COURVILLE A. Deep learning[M]. Cambridge: MIT Press, 2016: 367-415. [百度学术]
GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J]. Advances in Neural Information Processing Systems, 2014, 3: 2672-2680. [百度学术]
YU H, TAN Z H, MA Z, et al. Spoofing detection in automatic speaker verification systems using DNN classifiers and dynamic acoustic features[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 99: 1-12. [百度学术]
LAVRENTYEVA G, NOVOSELOV S, MALYKH E, et al. Audio replay attack detection with deep learning frameworks[C]//Proceedings of Conference of the International Speech Communication Association (INETSPEECH). Stockholm, Sweden: [s.n.], 2017. [百度学术]
LI J, ZHANG X, SUM M, et al. Attention-based LSTM algorithm for audio replay detection in noisy environments[J]. Applied Sciences, 2019, 9(8): 1539. [百度学术]
PEDDINTI V, POVEY D, KHUDANPUR S. A time delay neural network architecture for efficient modeling of long temporal contexts[C]//Proceedings of Conference of the International Speech Communication Association (INETSPEECH). Dresden, Germany: [s.n.], 2015. [百度学术]
WANG F, LIE W, LIE H, et al. Additive margin softmax for face verification[J]. IEEE Signal Processing Letters, 2018, 25(7): 926-930. [百度学术]
LI J, SUM M, ZHANG X, et al. Joint decision of antispoofing and automatic speaker verification by multi-task learning with contrastive loss[J]. IEEE Access, 2020, 8: 7907-7915. [百度学术]
CHEN N, QIAN Y, DINKEL H, et al. Robust deep feature for spoofing detection―The SJTU system for ASVspoof 2015 challenge[C]//Proceedings of Conference of the International Speech Communication Association (INETSPEECH). Dresden, Germany: [s.n.], 2015. [百度学术]