摘要
常见的增强合成语音表现力方法通常是将参考音频编码为固定维度的韵律嵌入,与文本信息一起输入语音合成模型的解码器,从而向语音合成模型中引入变化的韵律信息,但这种方法仅提取了音频整体级别的韵律信息,忽略了字或音素级别的细粒度韵律信息,导致合成语音依然存在部分字词发音不自然、音调语速平缓的现象。针对这些问题,本文提出一种基于Tacotron2语音合成模型的多尺度富有表现力的汉语语音合成方法。该方法利用基于变分自编码器的多尺度韵律编码网络,提取参考音频整体级别的韵律信息和音素级别的音高信息,然后将其与文本信息一起输入语音合成模型的解码器。此外,在训练过程中通过最小化韵律嵌入与音高嵌入之间的互信息,消除不同特征表示之间的相互关联,分离不同特征表示。实验结果表明,该方法与单一尺度的增强表现力语音合成方法相比,听力主观平均意见得分提高了约2%,基频F0帧错误率降低了约14%,该方法可以生成更加自然且富有表现力的语音。
语音合成,又称文语转换(Text⁃to⁃speech,TTS)技术,是指通过计算机将文本转化为语音。基于神经网络的语音合成模型,例如:Tacotro
上述方法在学习参考音频韵律表示方面表现出良好的性能,并在一定程度上提高了合成语音的表现力。但是,它们都是将韵律信息编码为固定维度,仅关注了句子级别这一尺度的韵律信息。事实上,人类语音的韵律表达本质上是多尺度的,从粗粒度到细粒度都应有体现,而不仅在单尺度上。在句子的整体级别,可以对语句的韵律模式进行整体概括;而在语音音频的局部中,语句中每个音素的韵律特征都在发生变化。比如音调特征往往就在音素间发生变化。仅对句子级别的韵律信息进行建模,就会忽略更细粒度的如音素级别的变化信息。汉语作为一种音调语言系统,有着音调多变及音调载义的特点。汉语中有众多的同音字,通过不同的音调用来区分词义。音调可以帮助听者理解语音所表达的含
针对上文对于仅在单一尺度学习音频韵律信息方法不足的分析,本文在Tacotron2模
本文所提方法基于Tacotron
如

图1 Tacotron2架构
Fig.1 System architecture of Tacotron2
Tacotron2的损失函数主要由两部分组成:基于梅尔频谱图的损失和基于停止标志的损失。基于谱图的损失是用来衡量模型生成的声音与目标声音之间的差异,而基于停止标志的损失则是用来衡量模型是否在正确的时间停止生成声音。
本文针对合成语音的语调单一、韵律不够丰富、表现力有限的问题,在Tacotron2的基础上引入了基于VAE的多尺度韵律编码网络和互信息估计器,使其能多尺度地学习音频韵律相关信息,以改善语音合成模型合成语音语调平缓以及部分字词发音不自然的问题,提升合成语音表现力和自然度。
原始的Tacotron2模型结构主要由编码器和带有注意力机制的解码器两部分组成。相比于原始的Tacotron2模型,本文提出的模型添加了基于VAE的多尺度韵律编码网络和一个互信息估计器。基于VAE的多尺度韵律编码网络以参考音频的梅尔频谱和F0作为输入,提取参考音频中句子级别的韵律信息和音素级别的音高信息,并输出韵律嵌入和音高嵌入,之后与文本嵌入一起输入解码器中,以合成音调丰富且富有韵律的合成语音。而互信息估计器会计算音高嵌入和韵律嵌入之间的互信息,并在训练过程中最小化它们之间的互信息,从而分离音高特征与其余韵律信息,使模型可以直接控制合成语音的音高特征。模型总体架构如

图2 本文所提模型架构
Fig.2 System architecture of the proposed model
如
(1) |
式中:和分别为高斯分布的均值和标准差;为输入的声学特征。因为直接从高斯分布中采样潜在向量会导致无法计算网络的梯度,所以为了能够在不改变潜在向量分布的情况下使网络的梯度可以回传,模型采用重新参数化得到潜在向量,即
(2) |
式中从标准高斯分布中采样获得,。
如
基于VAE模型的韵律编码器和音高编码器具有相似的结构。如

图3 VAE模型架构
Fig.3 System architecture of VAE model
为了便于将韵律嵌入、音高嵌入序列与文本嵌入序列连接,本文对韵律嵌入和音高嵌入做了如下处理。对于韵律嵌入向量在时间轴进行复制,将其拓展成与文本嵌入序列长度相同的序列。对于音高嵌入序列,将其通过参考注意力重组为与文本嵌入序列长度相同的序列。在本文的模型中,使用缩放点积注意力网
在训练中,本文模型根据文本以及从参考音频中学到的音高嵌入和韵律嵌入共同生成音频。并且向量、的先验分布定义为标准正态分布。因此,语音合成模型的条件生成分布为,其中表示语音。
按照VAE模
(3) |
式中:期望项为重建损失;表示模型的训练目标;表示输入文本;表示音高嵌入;表示韵律嵌入;表示对应语音;表示计算分布之间的KL(Kullback‑Leikler)散度。
尽管基于VAE模型的方法已被证明VAE模型对不同特征有一定的分离能
虽然通过对不同的特征分别独立建模,增强了特征嵌入间的独立性。然而,梅尔频谱作为韵律编码器的输入,它包含了大量信息,其中也包含关于音高的信息,所以韵律编码器学习的潜在向量空间中仍然对音高信息进行了编码。编码器所输出的音高嵌入并不完全独立于韵律嵌入,无法实现对于音高特征的单独控制。此外,考虑到在训练时参考音频与合成语音相同,多个编码器会造成信息重复,解码器可能会从韵律嵌入中获取音高信息,从而忽略音高嵌入提供的信息。在推理时,如果进行音高和韵律的非并行合成(即F0和梅尔频谱不是来自同一个参考音频),解码器就会忽略目标音高信息,导致合成语音质量下降。针对以上分析,本文提出通过最小化不同特征嵌入之间的互信息,进一步区分音高特征和韵律特征,从而使模型可以直接控制音高特征,保证合成语音的质量。
互信息是一种基于香农熵的随机变量之间依赖关系的度量,它度量了两个变量之间相互依赖的程度,可以看成是一个变量中包含的关于另一个变量的信息量。韵律嵌入和音高嵌入的互信息等价于它们的联合分布与它们边缘分布乘积之间的KL散
(4) |
本文使用Belghazi
(5) |
式中:为可以使上述方程中的两个期望收敛的任何函数,在MINE中,通过使用深度神经网络得到,这个方法通过梯度下降最大化关于的下界,估计变量、之间的互信息;为深度神经网络的参数。
在训练过程中,本文将同时最小化语音合成模型的重建损失和韵律嵌入与音高嵌入之间的互信息。由于互信息值为非负,如果神经互信息估计器输出的互信息值为负,本文将互信息值取为0。模型训练时的整体目标函数为
(6) |
式中为平衡两种损失的超参数。在本文的实验中,设置为0.1。与常见的生成对抗网络的训练类似,在训练中的每一步交替更新语音合成模型和互信息估计函数。具体来说,在训练中,通过最小化语音合成模型的损失和嵌入、之间的互信息训练语音合成模型;通过最大化互信息下界训练互信息估计器。由于音高嵌入是可变长度的向量序列,本文会从音高嵌入序列中随机采样一个向量来计算互信息。通过上述过程训练模型,可以既保证语音特征重建的质量,又能使音高编码器和韵律编码器提取的信息相互独立。
为了评估本文方法在语音合成任务上的性能,本文在中文语音语料库上进行了广泛的实验。在本节中,将介绍用于语音合成模型训练的语音数据集。此外,本节还将介绍模型具体实现细节、模型比较方法和评估方法。
本文主要的研究目的是可以合成韵律丰富,富有表现力的语音。而目前开源的中文语音数据集多是基于语音识别任务准备的,其语音一般不带情绪,音量、语速等韵律特征保持一致,不利于所提模型的训练。所以本文所有实验都基于一个内部中文语音数据集。它是一个高品质的有声读物数据集,数据集中的语音音频都是富有情感和韵律的。相较于目前的开源中文单人语音数据集,该数据集语音的韵律更加丰富多变,更利于进行表达性语音合成模型的训练。该数据集由一位男性说话人的简短语音录音片段组成,所有的录音片段均来自于一本有声小说。数据集为每段音频提供了对应的文本和三音素转录。每段音频的长度从1 s到1 min不等,一共包含8 312条单声道的录音片段,总时长大约为16 h。本文在数据集中随机抽取了100个语音片段以及相对应的文本作为后续测试的测试集。除此之外的所有数据均作为固定训练集,用于所提模型以及对比模型的训练。
对于数据集,首先本文将所有的录音音频重新采样为16 000 Hz,并对全部音频做了归一化处理,避免录音声音忽大忽小。然后对于每个录音音频,本文将每个语音片段的开头、结尾及语句中间的长时间(时长大于0.2 s)的静音片段替换为时长0.2 s的静音片段。在所提语音合成模型的训练中,需要每段语音相对应的梅尔频谱和F0序列。在本文中,梅尔频谱通过窗长为1 024,帧长为1 024,帧移为256的短时傅里叶变化(Short time Fourier transform,STFT)得到。语音的F0序列通过使用WORLD声码器从音频的波形文件中提取得到。根据音频对应的三音素序列,在每个音素的持续时间内进行平均。其中,音素的持续时间使用帧数表示,这保证了F0序列与音素序列在帧级别的对齐。
为了更加合理与准确地衡量所提模型的表达性语音合成效果,本文后续实验将对以下3种模型进行对比并分析实验结果。
基线模型1(Baseline 1):基线1采用原始的Tacotron2语音合成的方法。Tacotron2模型结构如第1节中所描述的,由编码器和带有注意力机制的解码器两部分组成。基线模型1以音素序列作为文本输入,通过编码器生成512维的文本嵌入序列。解码器根据文本嵌入生成预测梅尔频谱。
基线模型2(Baseline 2):基线2为一种单一尺度增强合成语音表现力的语音合成方
本文模型(The proposed):采用本文提出的多尺度表达性语音合成方法,具体结构如上文所述。其中韵律编码器根据输入的梅尔频谱生成32维的潜在变量,之后通过全连接层得到256维的韵律嵌入向量;音高编码器根据输入的F0序列生成32维的潜在向量,之后通过全连接层和参考注意力,最终得到256维的对齐的音高嵌入向量序列。韵律嵌入经过复制,扩展成与文本嵌入序列长度相同。对齐的音高嵌入序列、扩展后的韵律嵌入与文本嵌入序列连接,并输入解码器进而预测梅尔频谱。
对于上述的所有模型,本文都使用单个NVIDIA TESLA V100 GPU进行训练训练。在训练时,Batch大小为64,初始学习率为1e-3,模型均使用Adam优化器。所有模型都使用3.1节中介绍的数据集所划分出的固定训练集进行训练,并且所有模型都训练200个左右的Epoch。在实验中,本文使用一个经过训练HiFi⁃GAN声码
为了衡量所提系统性能,本文从3.1节中介绍的测试集中抽取20个具有不同长度的样本作为固定的评估集。这些样本的时长均在20 s以内。在保证文本内容一致并排除其他干扰因素的前提下,本文主要使用主观打分对语音合成模型进行评价,同时也使用一些客观指标对模型进行辅助分析。
合成语音主观评测采用了语音质量评价中常用指标:平均意见得分(Mean opinion score,MOS),即依靠人的听觉印象来对听到的语音进行评价打分。参与打分的志愿者共18人,母语均为汉语。志愿者根据自己的主观听觉感受对每条语音给出1~5分并以0.5分为1个跨度的分数。MOS分数越高,代表该语音的听感越好、越自然。
本文对基线模型1(Baseline 1)、基线模型2(Baseline 2)、本文模型(The proposed)以及真实音频分别进行了MOS评分,然后对获得的数据进行了分析处理。对比模型的具体结构如3.2节所述。最终MOS打分的均值及95%置信度区间的结果如
方法 | MOS值 |
---|---|
GroundTruth | 4.43±0.07 |
Baseline 1 | 4.11±0.07 |
Baseline 2 | 4.12±0.07 |
The proposed | 4.21±0.07 |
本文使用F0帧错误率(F0 frame error,FFE
(7) |
式中:表示帧的总数;表示真实值为清音被预测为浊音时的帧数;表示真实值为浊音被预测为清音时的帧数;表示满足条件的帧数,δ是一个阈值,通常设置为20%。FFE用于计算预测音高和真实的音高之间的差异比值,可以体现出F0轨迹的重构误差。FFE值越低证明预测值与真实值之间的误差越小。
本文对基线模型1(Baseline 1)、基线模型2(Baseline 2)和本文模型(The proposed)合成音频分别计算了FFE,结果如
方法 | FFE/% |
---|---|
Baseline 1 | 53.93 |
Baseline 2 | 57.05 |
The proposed | 48.67 |

图4 合成语音F0
Fig.4 Synthetic speech F0

图5 合成语音梅尔频谱图
Fig.5 Synthetic speech Mel-spectrogram diagram
本文提出了一种多尺度富有表现力的汉语语音合成方法。该方法通过多尺度参考编码网络学习音频中音素级别的音高信息和句子级别韵律信息,增强了合成语音的表现力,丰富了合成语音的韵律多样性。在训练过程中,通过最小化音高嵌入和韵律嵌入之间的互信息,对不同韵律特征进行分离。实验结果表明,本文提出的模型在客观评价和主观评价上性能都有所提升,证明了该方法在表达性汉语语音合成中的有效性,但是合成后的语音与真实目标语音仍存在一定的差距。在未来的工作中,将继续改进系统解决合成中出现的不正确停顿问题,以及合成中预测停止符不确定造成音频时长变短,语速过快的现象,进一步提高合成语音的质量。
参考文献
WANG Y, SKERRY-RYAN R J, STANTON D, et al. Tacotron: Towards end-to-end speech synthesis[EB/OL]. (2017-04-06)[2023-01-13]. https://arxiv.org/abs/1703.10135. [百度学术]
VASQUEZ S, LEWIS M. MelNet: A generative model for audio in the frequency domain[EB/OL]. (2019-06-04)[2023-01-13].https://arxiv.org/abs/1906.01083. [百度学术]
PING W, PEMG K, GIBIANSKY A, et al. Deep Voice 3: Scaling text-to-speech with convolutional sequence learning[EB/OL]. (2018-02-22)[2023-01-13]. https://arxiv.org/abs/1710.07654. [百度学术]
Li N, Liu S, Liu Y, et al. Neural speech synthesis with transformer network[C]//Proceedings of the AAAI Conference on Artificial Intelligence. [S.l.]: AAAI, 2019: 6706-6713. [百度学术]
TAN X, QIN T, SOONG F, et al. A survey on neural speech synthesis[[EB/OL].(2021-07-23)[2023-01-13]. https://arxiv.org/abs/2106.15561. [百度学术]
Wang Y, Stanton D, Zhang Y, et al. Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis[C]//Proceedings of International Conference on Machine Learning. [S.l.]: PMLR, 2018: 5180-5189. [百度学术]
KINGMA D P, WELLING M. Auto-encoding variational Bayes[EB/OL]. (2022-11-10)[2023-01-13]. https://arxiv.org/abs/1312.6114. [百度学术]
Zhang Y J, Pan S, He L, et al. Learning latent representations for style control and transfer in end-to-end speech synthesis[C]//Proceedings of 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). [S.l.]: IEEE, 2019: 6945-6949. [百度学术]
许希明.英汉语声调的音系差异[J].宁波大学学报(人文科学版),2019,32(4): 71-77. [百度学术]
XU Ximing. Phonological difference of tone in English and Chinese[J]. Journal of Ningbo University (Liberal Arts Edition),2019,32(4): 71-77. [百度学术]
Shen J, Pang R, Weiss R J, et al. Natural TTS synthesis by conditioning wavenet on mel spectrogram predictions[C]//Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). [S.l.]: IEEE, 2018: 4779-4783. [百度学术]
曹剑芬.汉语声调与语调的关系[J].中国语文,2002(3): 195-202,286. [百度学术]
CAO Jianfen. The relationship between tone and intonation in Mandrain Chinese[J]. Studies of the Chinese Language,2002(3):195-202,286. [百度学术]
Morise M, Yokomori F, Ozawa K. World: A vocoder-based high-quality speech synthesis system for real-time applications[J]. IEICE Transactions on Information and Systems, 2016, 99(7): 1877-1884. [百度学术]
Skerry-Ryan R J, Battenberg E, Xiao Y, et al. Towards end-to-end prosody transfer for expressive speech synthesis with tacotron[C]//Proceedings of International Conference on Machine Learning. [S.l.]: PMLR, 2018: 4693-4702. [百度学术]
VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY,USA: Curran Associates Inc., 2017: 6000-6010. [百度学术]
Hsu W N, Zhang Y, Weiss R J, et al. Disentangling correlated speaker and noise for speech synthesis via data augmentation and adversarial factorization[C]//Proceedings of 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). [S.l.]: IEEE, 2019: 5901-5905. [百度学术]
Kullback S, Leibler R A. On information and sufficiency[J]. The Annals of Mathematical Statistics, 1951, 22(1): 79-86. [百度学术]
Belghazi M I, Baratin A, Rajeshwar S, et al. Mutual information neural estimation[C]//Proceedings of International Conference on Machine Learning. [S.l.]: PMLR, 2018: 531-540. [百度学术]
Donsker M D, Varadhan S R S. Asymptotic evaluation of certain Markov process expectations for large time[J]. Communications on Pure and Applied Mathematics, 1975, 28(1): 1-47. [百度学术]
Kong J, Kim J, Bae J. Hifi-gan: Generative adversarial networks for efficient and high fidelity speech synthesis[J]. Advances in Neural Information Processing Systems, 2020, 33: 17022-17033. [百度学术]
Chu W, Alwan A. Reducing f0 frame error of f0 tracking algorithms under noisy conditions with an unvoiced/voiced classification frontend[C]//Proceedings of 2009 IEEE International Conference on Acoustics, Speech and Signal Processing. [S.l.]: IEEE, 2009: 3969-3972. [百度学术]